In Python, Pyspark è un modulo Spark utilizzato per fornire un tipo di elaborazione simile come Spark utilizzando DataFrame. Discuteremo di come aggiungere una nuova colonna al Frame Data Pyspark esistente.
Prima di passare ai metodi, creeremo PysPark DataFrame.
Esempio:
Qui, creeremo Pyspark DataFrame con 5 righe e 6 colonne.
#import il modulo pyspark
importare pyspark
#IMPORT SPARKSESSION per la creazione di una sessione
da pyspark.SQL Importazione di importazione
#importa la funzione Col
da pyspark.SQL.Funzioni importanti col
#Crea un'app chiamata LinuxHint
Spark_app = SparkSession.costruttore.appname ('LinuxHint').getOrCreate ()
# Crea dati studenteschi con 5 righe e 6 attributi
Students = ['rollno': '001', 'name': 'sravan', 'age': 23,
'altezza': 5.79, "peso": 67, "indirizzo": "guntur",
'rollno': '002', 'name': 'ojaswi', 'age': 16,
'altezza': 3.79, 'peso': 34, 'indirizzo': 'hyd',
'rollno': '003', 'name': 'gnanesh chowdary', 'age': 7,
'altezza': 2.79, 'peso': 17, 'indirizzo': 'patna',
'rollno': '004', 'name': 'rohith', 'age': 9,
'altezza': 3.69, 'peso': 28, 'indirizzo': 'hyd',
'rollno': '005', 'name': 'sridevi', 'age': 37,
'altezza': 5.59, 'peso': 54, 'indirizzo': 'hyd']
# Crea il frame dati
df = spark_app.CreatedataFrame (Students)
#display il frame dati
df.spettacolo()
Produzione:
Metodo 1: Aggiungi nuova colonna con valori che utilizzano WithColumn ()
Possiamo aggiungere una nuova colonna da una colonna esistente usando il metodo WithColumn ().
Sintassi:
DataFrame.WithColumn ("new_column", col ("column_name")
Parametri:
- new_column è la colonna.
- La funzione col () viene utilizzata per aggiungere i suoi valori di colonna al new_column.
Esempio:
In questo esempio, creeremo una nuova colonna: "potenza" e aggiungeremo valori a questa colonna che moltiplicano ogni valore nella colonna di peso di 10.
#IMPORT Il modulo PYSPRK
importare pyspark
#IMPORT SPARKSESSION per la creazione di una sessione
da pyspark.SQL Importazione di importazione
#importa la funzione Col
da pyspark.SQL.Funzioni importanti col
#Crea un'app chiamata LinuxHint
Spark_app = SparkSession.costruttore.appname ('LinuxHint').getOrCreate ()
# Crea dati studenteschi con 5 righe e 6 attributi
Students = ['rollno': '001', 'name': 'sravan', 'age': 23,
'altezza': 5.79, "peso": 67, "indirizzo": "guntur",
'rollno': '002', 'name': 'ojaswi', 'age': 16,
'altezza': 3.79, 'peso': 34, 'indirizzo': 'hyd',
'rollno': '003', 'name': 'gnanesh chowdary', 'age': 7,
'altezza': 2.79, 'peso': 17, 'indirizzo': 'patna',
'rollno': '004', 'name': 'rohith', 'age': 9,
'altezza': 3.69, 'peso': 28, 'indirizzo': 'hyd',
'rollno': '005', 'name': 'sridevi', 'age': 37,
'altezza': 5.59, 'peso': 54, 'indirizzo': 'hyd']
# Crea il frame dati
df = spark_app.CreatedataFrame (Students)
#Add Column denominata Power
#dalla colonna di peso moltiplicata per 2
df = df.WithColumn ("Power", col ("peso")* 2)
#Display Modified DataFrame
Stampa (df.raccogliere())
#LETS Visualizza lo schema
df.printschema ()
Produzione:
[Riga (indirizzo = 'guntur', età = 23, altezza = 5.79, name = 'sravan', rollno = '001', peso = 67, potenza = 134), riga (indirizzo = 'hyd', età = 16, altezza = 3.79, name = 'ojaswi', rollno = '002', peso = 34, potenza = 68), riga (indirizzo = 'patna', età = 7, altezza = 2.79, nome = 'gnanesh chowdary', rollno = '003', peso = 17, potenza = 34), riga (indirizzo = 'hyd', età = 9, altezza = 3.69, name = 'rohith', rollno = '004', peso = 28, potenza = 56), riga (indirizzo = 'hyd', età = 37, altezza = 5.59, name = 'sridevi', rollno = '005', peso = 54, potenza = 108)]
radice
|- Indirizzo: String (Nullable = True)
|- Age: Long (Nullable = True)
|- altezza: doppio (nulllable = true)
|- Nome: String (Nullable = True)
|- rollno: string (nulllable = true)
|- Peso: lungo (Nullable = True)
|- Potenza: Long (Nullable = True)
Metodo 2: Aggiungi nuova colonna con nessuno valori utilizzando WithColumn ()
Possiamo aggiungere una nuova colonna con nessuno valori usando il metodo WithColumn () tramite lit ().
Sintassi:
DataFrame.WithColumn ("new_column", lit (nessuno))
Parametri:
- new_column è la colonna.
- lit () è una funzione utilizzata per aggiungere valori alla colonna.
Esempio:
In questo esempio, creeremo una nuova colonna: "potenza" e aggiungi i valori a questa colonna.
#IMPORT Il modulo PYSPRK
importare pyspark
#IMPORT SPARKSESSION per la creazione di una sessione
da pyspark.SQL Importazione di importazione
#import le funzioni Col e illuminate
da pyspark.SQL.funzioni importanti col, acceso
#Crea un'app chiamata LinuxHint
Spark_app = SparkSession.costruttore.appname ('LinuxHint').getOrCreate ()
# Crea dati studenteschi con 5 righe e 6 attributi
Students = ['rollno': '001', 'name': 'sravan', 'age': 23,
'altezza': 5.79, "peso": 67, "indirizzo": "guntur",
'rollno': '002', 'name': 'ojaswi', 'age': 16,
'altezza': 3.79, 'peso': 34, 'indirizzo': 'hyd',
'rollno': '003', 'name': 'gnanesh chowdary', 'age': 7,
'altezza': 2.79, 'peso': 17, 'indirizzo': 'patna',
'rollno': '004', 'name': 'rohith', 'age': 9,
'altezza': 3.69, 'peso': 28, 'indirizzo': 'hyd',
'rollno': '005', 'name': 'sridevi', 'age': 37,
'altezza': 5.59, 'peso': 54, 'indirizzo': 'hyd']
# Crea il frame dati
df = spark_app.CreatedataFrame (Students)
#Add Column denominata Power
# con nessuno valori
df = df.withColumn ("potere", acceso (nessuno))
#Display Modified DataFrame
Stampa (df.raccogliere())
Produzione:
[Riga (indirizzo = 'guntur', età = 23, altezza = 5.79, name = 'sravan', rollno = '001', peso = 67, potenza = nessuno), riga (indirizzo = 'hyd', età = 16, altezza = 3.79, name = 'ojaswi', rollno = '002', peso = 34, potenza = nessuno), riga (indirizzo = 'patna', età = 7, altezza = 2.79, nome = 'gnanesh chowdary', rollno = '003', peso = 17, potenza = nessuno), riga (indirizzo = 'hyd', età = 9, altezza = 3.69, name = 'rohith', rollno = '004', peso = 28, potenza = nessuno), riga (indirizzo = 'hyd', età = 37, altezza = 5.59, name = 'sridevi', rollno = '005', peso = 54, potenza = nessuno)]
Metodo 3: Aggiungi nuova colonna con valori in base alla condizione utilizzando conColumn ()
Possiamo aggiungere una nuova colonna con le condizioni utilizzando il metodo WithColumn () e i valori tramite lit (). Possiamo specificare le condizioni utilizzando quando () funzione. Questo può essere importato da Pyspark.SQL.funzioni.
Sintassi:
DataFrame.withColumn ("new_column", quando ((dataframe.colonna < 11), lit("value1"))
.quando ((condizione), lit ("value2"))
..
. quando ((condizione), lit ("valore n"))
.altrimenti (lit ("valore")))
Parametri:
- new_column è la colonna.
- lit () è una funzione utilizzata per aggiungere valori alla colonna.
- Quando () prenderà la condizione come input e aggiungerà valori in base ai criteri soddisfatti.
- altrimenti () è l'ultimo che eseguirà una qualsiasi delle condizioni di cui sopra non soddisface.
Esempio:
In questo esempio, creeremo una nuova colonna: "potenza" e aggiungeremo valori dalla colonna di età.
- Aggiungi un valore basso se l'età è inferiore a - 11
- Aggiungi un valore elevato se l'età è inferiore o uguale a - 12 e maggiore o uguale a - 20
- Altrimenti aggiungere un valore elevato
#IMPORT Il modulo PYSPRK
importare pyspark
#IMPORT SPARKSESSION per la creazione di una sessione
da pyspark.SQL Importazione di importazione
#importa il col, acceso, quando le funzioni
da pyspark.SQL.funzioni importano col, lit, quando
#Crea un'app chiamata LinuxHint
Spark_app = SparkSession.costruttore.appname ('LinuxHint').getOrCreate ()
# Crea dati studenteschi con 5 righe e 6 attributi
Students = ['rollno': '001', 'name': 'sravan', 'age': 23,
'altezza': 5.79, "peso": 67, "indirizzo": "guntur",
'rollno': '002', 'name': 'ojaswi', 'age': 16,
'altezza': 3.79, 'peso': 34, 'indirizzo': 'hyd',
'rollno': '003', 'name': 'gnanesh chowdary', 'age': 7,
'altezza': 2.79, 'peso': 17, 'indirizzo': 'patna',
'rollno': '004', 'name': 'rohith', 'age': 9,
'altezza': 3.69, 'peso': 28, 'indirizzo': 'hyd',
'rollno': '005', 'name': 'sridevi', 'age': 37,
'altezza': 5.59, 'peso': 54, 'indirizzo': 'hyd']
# Crea il frame dati
df = spark_app.CreatedataFrame (Students)
#Add una colonna - Potenza
#Add Column Vales in base alla colonna di età
#per specificare le condizioni
df.concolumn ("potenza", quando (DF.età < 11), lit("Low"))
.Quando ((df.età> = 12) e (df.età <= 20), lit("Medium"))
.altrimenti (lit ("alto"))).spettacolo()
Produzione:
Metodo 4: Aggiungi nuova colonna con valori utilizzando Select ()
Possiamo aggiungere una nuova colonna da una colonna esistente usando il metodo Select ().
Sintassi:
DataFrame.Seleziona (Lit (DF.colonna).alias ("new_column"))
Parametri:
- new_column è la colonna.
- La funzione lit () viene utilizzata per aggiungere valori di colonna al new_column.
Esempio:
In questo esempio, creeremo una nuova colonna: "potenza" e aggiungeremo valori a questa colonna che moltiplicano ogni valore nella colonna di peso di 10.
#IMPORT Il modulo PYSPRK
importare pyspark
#IMPORT SPARKSESSION per la creazione di una sessione
da pyspark.SQL Importazione di importazione
#import le funzioni Col e illuminate
da pyspark.SQL.funzioni importanti col, acceso
#Crea un'app chiamata LinuxHint
Spark_app = SparkSession.costruttore.appname ('LinuxHint').getOrCreate ()
# Crea dati studenteschi con 5 righe e 6 attributi
Students = ['rollno': '001', 'name': 'sravan', 'age': 23,
'altezza': 5.79, "peso": 67, "indirizzo": "guntur",
'rollno': '002', 'name': 'ojaswi', 'age': 16,
'altezza': 3.79, 'peso': 34, 'indirizzo': 'hyd',
'rollno': '003', 'name': 'gnanesh chowdary', 'age': 7,
'altezza': 2.79, 'peso': 17, 'indirizzo': 'patna',
'rollno': '004', 'name': 'rohith', 'age': 9,
'altezza': 3.69, 'peso': 28, 'indirizzo': 'hyd',
'rollno': '005', 'name': 'sridevi', 'age': 37,
'altezza': 5.59, 'peso': 54, 'indirizzo': 'hyd']
# Crea il frame dati
df = spark_app.CreatedataFrame (Students)
colonna #add denominata - colonna di potenza
# Aggiungi valori moltiplicando con 10
df.Seleziona ("Rollno", Lit (DF.Peso * 10).alias ("potere")).spettacolo()
Produzione:
Metodo 5: Aggiungi nuova colonna con nessuno valori utilizzando Select ()
Possiamo aggiungere una nuova colonna con valori null usando il metodo Select ().
Sintassi:
DataFrame.Seleziona (lit (nessuno).alias ("new_column"))
Parametri:
- new_column è la colonna
- La funzione lit () viene utilizzata per aggiungere nessuno valori
Esempio:
In questo esempio, creeremo una nuova colonna: "potenza" e aggiungi i valori a questa colonna.
#IMPORT Il modulo PYSPRK
importare pyspark
#IMPORT SPARKSESSION per la creazione di una sessione
da pyspark.SQL Importazione di importazione
#import le funzioni Col e illuminate
da pyspark.SQL.funzioni importanti col, acceso
#Crea un'app chiamata LinuxHint
Spark_app = SparkSession.costruttore.appname ('LinuxHint').getOrCreate ()
# Crea dati studenteschi con 5 righe e 6 attributi
Students = ['rollno': '001', 'name': 'sravan', 'age': 23,
'altezza': 5.79, "peso": 67, "indirizzo": "guntur",
'rollno': '002', 'name': 'ojaswi', 'age': 16,
'altezza': 3.79, 'peso': 34, 'indirizzo': 'hyd',
'rollno': '003', 'name': 'gnanesh chowdary', 'age': 7,
'altezza': 2.79, 'peso': 17, 'indirizzo': 'patna',
'rollno': '004', 'name': 'rohith', 'age': 9,
'altezza': 3.69, 'peso': 28, 'indirizzo': 'hyd',
'rollno': '005', 'name': 'sridevi', 'age': 37,
'altezza': 5.59, 'peso': 54, 'indirizzo': 'hyd']
# Crea il frame dati
df = spark_app.CreatedataFrame (Students)
colonna #add denominata - potere
# Aggiungi valori null con nessuno
df.Seleziona ("rollno", lit (nessuno).alias ("potere")).spettacolo()
Produzione:
Conclusione
In questo tutorial, abbiamo discusso di come aggiungere una nuova colonna usando le funzioni Select () e WithColumn (). Abbiamo osservato che lit () è la funzione che viene utilizzata per aggiungere valori alla nuova colonna. Infine, abbiamo discusso di come aggiungere nessuno/null valori e i valori dalle colonne esistenti al frame dati pyspark.