Pyspark - Lit

Pyspark - Lit

In Python, Pyspark è un modulo Spark utilizzato per fornire un tipo di elaborazione simile come Spark utilizzando DataFrame. Lit () viene utilizzato Crea una nuova colonna aggiungendo valori a quella colonna in PysPark DataFrame. Prima di passare alla sintassi, creeremo PysPark DataFrame.

Esempio:

Qui, creeremo Pyspark DataFrame con 5 righe e 6 colonne.

#import il modulo pyspark
importare pyspark
#IMPORT SPARKSESSION per la creazione di una sessione
da pyspark.SQL Importazione di importazione
#importa la funzione Col
da pyspark.SQL.Funzioni importanti col
#Crea un'app chiamata LinuxHint
Spark_app = SparkSession.costruttore.appname ('LinuxHint').getOrCreate ()
# Crea dati studenteschi con 5 righe e 6 attributi
Students = ['rollno': '001', 'name': 'sravan', 'age': 23, 'altezza': 5.79, "peso": 67, "indirizzo": "guntur",
'rollno': '002', 'name': 'ojaswi', 'age': 16, 'altezza': 3.79, 'peso': 34, 'indirizzo': 'hyd',
'rollno': '003', 'name': 'gnanesh chowdary', 'age': 7, 'altezza': 2.79, 'peso': 17,
'indirizzo': 'patna',
'rollno': '004', 'name': 'rohith', 'age': 9, 'altezza': 3.69, 'peso': 28, 'indirizzo': 'hyd',
'rollno': '005', 'name': 'sridevi', 'age': 37, 'altezza': 5.59, 'peso': 54, 'indirizzo': 'hyd']
# Crea il frame dati
df = spark_app.CreatedataFrame (Students)
#display il frame dati
df.spettacolo()

Produzione:

lit () - sintassi

Lit ("Value").alias ("column_name")

Dove,

  1. column_name è la nuova colonna.
  2. Il valore è il valore costante aggiunto alla nuova colonna.

Dobbiamo importare questo metodo da Pyspark.SQL.modulo funzioni.

Nota: Possiamo aggiungere più colonne alla volta

Usando il metodo Select (), possiamo usare il metodo Lit ().

Select () viene utilizzato per visualizzare le colonne dal frame dati. Insieme a ciò possiamo aggiungere la colonna/e il metodo Lit ().

Sintassi:

DataFrame.Seleziona (col ("colonna"), ..., lit ("valore").alias ("new_column"))

Dove,

  1. la colonna è il nome della colonna esistente da visualizzare.
  2. new_column è il nuovo nome di colonna da aggiungere.
  3. Il valore è il valore costante aggiunto alla nuova colonna.

Esempio 1:

In questo esempio, aggiungeremo una nuova colonna denominata - Pincode e aggiungeremo un valore costante - 522112 a questa colonna e seleziona la colonna Rollno insieme a Pincode dal Frame dati PysPark.

#import il modulo pyspark
importare pyspark
#IMPORT SPARKSESSION per la creazione di una sessione
da pyspark.SQL Importazione di importazione
#import la funzione Col, illuminata
da pyspark.SQL.funzioni importanti col, acceso
#Crea un'app chiamata LinuxHint
Spark_app = SparkSession.costruttore.appname ('LinuxHint').getOrCreate ()
# Crea dati studenteschi con 5 righe e 6 attributi
Students = ['rollno': '001', 'name': 'sravan', 'age': 23, 'altezza': 5.79, "peso": 67, "indirizzo": "guntur",
'rollno': '002', 'name': 'ojaswi', 'age': 16, 'altezza': 3.79, 'peso': 34, 'indirizzo': 'hyd',
'rollno': '003', 'name': 'gnanesh chowdary', 'age': 7, 'altezza': 2.79, 'peso': 17,
'indirizzo': 'patna',
'rollno': '004', 'name': 'rohith', 'age': 9, 'altezza': 3.69, 'peso': 28, 'indirizzo': 'hyd',
'rollno': '005', 'name': 'sridevi', 'age': 37, 'altezza': 5.59, 'peso': 54, 'indirizzo': 'hyd']
# Crea il frame dati
df = spark_app.CreatedataFrame (Students)
# Aggiungi un nuovo pincode colonna con valore costante - 522112
finale = df.Seleziona (col ("rollno"), lit ("522112").alias ("pincode"))
#display il frame dati finale
finale.spettacolo()

Produzione:

Esempio 2:

In questo esempio, aggiungeremo nuove colonne denominate - Pincode e City e aggiungeremo un valore costante - 522112 e Guntur a queste colonne e seleziona la colonna Rollno insieme a Pincode e City dal Pyspark DataFrame.

#import il modulo pyspark
importare pyspark
#IMPORT SPARKSESSION per la creazione di una sessione
da pyspark.SQL Importazione di importazione
#import la funzione Col, illuminata
da pyspark.SQL.funzioni importanti col, acceso
#Crea un'app chiamata LinuxHint
Spark_app = SparkSession.costruttore.appname ('LinuxHint').getOrCreate ()
# Crea dati studenteschi con 5 righe e 6 attributi
Students = ['rollno': '001', 'name': 'sravan', 'age': 23, 'altezza': 5.79, "peso": 67, "indirizzo": "guntur",
'rollno': '002', 'name': 'ojaswi', 'age': 16, 'altezza': 3.79, 'peso': 34, 'indirizzo': 'hyd',
'rollno': '003', 'name': 'gnanesh chowdary', 'age': 7, 'altezza': 2.79, 'peso': 17,
'indirizzo': 'patna',
'rollno': '004', 'name': 'rohith', 'age': 9, 'altezza': 3.69, 'peso': 28, 'indirizzo': 'hyd',
'rollno': '005', 'name': 'sridevi', 'age': 37, 'altezza': 5.59, 'peso': 54, 'indirizzo': 'hyd']
# Crea il frame dati
df = spark_app.CreatedataFrame (Students)
# Aggiungi una nuova colonne: Pincode con valore costante - 522112
# città con valore costante - Guntur
finale = df.Seleziona (col ("rollno"), lit ("522112").alias ("pincode"), lit ("guntur").alias ("città"))
#display il frame dati finale
finale.spettacolo()

Produzione:

Possiamo anche aggiungere valori alla nuova colonna dalle valori di colonna esistenti. Dobbiamo solo fornire il nome della colonna all'interno del parametro LIT (Value).

Sintassi:

DataFrame.Seleziona (col ("colonna"), ..., lit (data frame.colonna).alias ("new_column"))

Dove,

  1. DataFrame è il Frame dati Pyspark input.
  2. la colonna è il nome della colonna esistente da visualizzare.
  3. new_column è il nuovo nome di colonna da aggiungere.
  4. Il valore è il valore costante aggiunto alla nuova colonna.

Esempio:

In questo esempio, aggiungeremo una colonna: "Pincode City" e assegneremo i valori dalla colonna di indirizzo.

#import il modulo pyspark
importare pyspark
#IMPORT SPARKSESSION per la creazione di una sessione
da pyspark.SQL Importazione di importazione
#import la funzione Col, illuminata
da pyspark.SQL.funzioni importanti col, acceso
#Crea un'app chiamata LinuxHint
Spark_app = SparkSession.costruttore.appname ('LinuxHint').getOrCreate ()
# Crea dati studenteschi con 5 righe e 6 attributi
Students = ['rollno': '001', 'name': 'sravan', 'age': 23, 'altezza': 5.79, "peso": 67, "indirizzo": "guntur",
'rollno': '002', 'name': 'ojaswi', 'age': 16, 'altezza': 3.79, 'peso': 34, 'indirizzo': 'hyd',
'rollno': '003', 'name': 'gnanesh chowdary', 'age': 7, 'altezza': 2.79, 'peso': 17,
'indirizzo': 'patna',
'rollno': '004', 'name': 'rohith', 'age': 9, 'altezza': 3.69, 'peso': 28, 'indirizzo': 'hyd',
'rollno': '005', 'name': 'sridevi', 'age': 37, 'altezza': 5.59, 'peso': 54, 'indirizzo': 'hyd']
# Crea il frame dati
df = spark_app.CreatedataFrame (Students)
# Aggiungi una nuova colonna: "Pincode City dalla colonna dell'indirizzo
finale = df.Seleziona (Col ("Rollno"), LIT (DF.indirizzo).alias ("Pincode City"))
#display il frame dati finale
finale.spettacolo()

Produzione:

Possiamo anche aggiungere valori di colonna esistenti attraverso l'indice della colonna - L'indicizzazione della colonna inizia con - 0.

Esempio:

In questo esempio, aggiungeremo una colonna: "Pincode City" e assegneremo i valori dalla colonna indirizzo tramite l'indice della colonna dell'indirizzo I.e., - 4.

#import il modulo pyspark
importare pyspark
#IMPORT SPARKSESSION per la creazione di una sessione
da pyspark.SQL Importazione di importazione
#import la funzione Col, illuminata
da pyspark.SQL.funzioni importanti col, acceso
#Crea un'app chiamata LinuxHint
Spark_app = SparkSession.costruttore.appname ('LinuxHint').getOrCreate ()
# Crea dati studenteschi con 5 righe e 6 attributi
Students = ['rollno': '001', 'name': 'sravan', 'age': 23, 'altezza': 5.79, "peso": 67, "indirizzo": "guntur",
'rollno': '002', 'name': 'ojaswi', 'age': 16, 'altezza': 3.79, 'peso': 34, 'indirizzo': 'hyd',
'rollno': '003', 'name': 'gnanesh chowdary', 'age': 7, 'altezza': 2.79, 'peso': 17,
'indirizzo': 'patna',
'rollno': '004', 'name': 'rohith', 'age': 9, 'altezza': 3.69, 'peso': 28, 'indirizzo': 'hyd',
'rollno': '005', 'name': 'sridevi', 'age': 37, 'altezza': 5.59, 'peso': 54, 'indirizzo': 'hyd']
# Crea il frame dati
df = spark_app.CreatedataFrame (Students)
# Aggiungi una nuova colonna: "Pincode City dalla colonna dell'indirizzo
finale = df.Seleziona (col ("rollno"), lit (df [4]).alias ("Pincode City"))
#display il frame dati finale
finale.spettacolo()

Produzione:

Conclusione

In questo tutorial, abbiamo discusso del metodo Lit () per la creazione di una nuova colonna con valori costanti. Può essere possibile assegnare i valori dalla colonna esistente specificando la colonna al posto del parametro del valore tramite il nome della colonna e un indice della colonna.