In Python, Pyspark è un modulo Spark utilizzato per fornire un tipo di elaborazione simile come Spark utilizzando DataFrame. Discuteremo diversi metodi per modificare i nomi delle colonne di Pyspark DataFrame. Creeremo PysPark DataFrame prima di passare ai metodi.
Esempio:
Qui creeremo Pyspark DataFrame con 5 righe e 6 colonne.
#import il modulo pyspark
importare pyspark
#IMPORT SPARKSESSION per la creazione di una sessione
da pyspark.SQL Importazione di importazione
#importa la funzione Col
da pyspark.SQL.Funzioni importanti col
#Crea un'app chiamata LinuxHint
Spark_app = SparkSession.costruttore.appname ('LinuxHint').getOrCreate ()
# Crea dati studenteschi con 5 righe e 6 attributi
Students = ['rollno': '001', 'name': 'sravan', 'age': 23, 'altezza': 5.79, "peso": 67, "indirizzo": "guntur",
'rollno': '002', 'name': 'ojaswi', 'age': 16, 'altezza': 3.79, 'peso': 34, 'indirizzo': 'hyd',
'rollno': '003', 'name': 'gnanesh chowdary', 'age': 7, 'altezza': 2.79, 'peso': 17, 'indirizzo': 'patna',
'rollno': '004', 'name': 'rohith', 'age': 9, 'altezza': 3.69, 'peso': 28, 'indirizzo': 'hyd',
'rollno': '005', 'name': 'sridevi', 'age': 37, 'altezza': 5.59, 'peso': 54, 'indirizzo': 'hyd']
# Crea il frame dati
df = spark_app.CreatedataFrame (Students)
#display il frame dati
df.spettacolo()
Produzione:
Metodo 1: usando withColumnReNamed ()
Possiamo modificare il nome della colonna nel Frame dati PysPark utilizzando questo metodo.
Sintassi:
DataFrame.withColumnReNaMED ("Old_Column", "New_column")
Parametri:
- Old_column è la colonna esistente
- new_column è la nuova colonna che sostituisce il vecchio_column
Esempio:
In questo esempio, stiamo sostituendo la colonna dell'indirizzo con "Città" e visualizzando l'intero metodo Show () di Show ().
#import il modulo pyspark
importare pyspark
#IMPORT SPARKSESSION per la creazione di una sessione
da pyspark.SQL Importazione di importazione
#importa la funzione Col
da pyspark.SQL.Funzioni importanti col
#Crea un'app chiamata LinuxHint
Spark_app = SparkSession.costruttore.appname ('LinuxHint').getOrCreate ()
# Crea dati studenteschi con 5 righe e 6 attributi
Students = ['rollno': '001', 'name': 'sravan', 'age': 23, 'altezza': 5.79, "peso": 67, "indirizzo": "guntur",
'rollno': '002', 'name': 'ojaswi', 'age': 16, 'altezza': 3.79, 'peso': 34, 'indirizzo': 'hyd',
'rollno': '003', 'name': 'gnanesh chowdary', 'age': 7, 'altezza': 2.79, 'peso': 17, 'indirizzo': 'patna',
'rollno': '004', 'name': 'rohith', 'age': 9, 'altezza': 3.69, 'peso': 28, 'indirizzo': 'hyd',
'rollno': '005', 'name': 'sridevi', 'age': 37, 'altezza': 5.59, 'peso': 54, 'indirizzo': 'hyd']
# Crea il frame dati
df = spark_app.CreatedataFrame (Students)
#rename la colonna dell'indirizzo con città
df.withColumnReNaMED ("Indirizzo", "City").spettacolo()
Produzione:
Possiamo anche sostituire più nomi di colonne alla volta usando questo metodo.
Sintassi:
DataFrame.withColumnReNaMED ("Old_Column", "New_column") .WithColumnReNamed ("Old_Column", "new_column") .. .withColumnReNaMED ("Old_Column", "New_column")
Esempio:
In questo esempio, stiamo sostituendo la colonna dell'indirizzo con "Città", colonna di altezza con "altezza", colonna Rollno con "ID" e visualizzando l'intero metodo Show ().
#import il modulo pyspark
importare pyspark
#IMPORT SPARKSESSION per la creazione di una sessione
da pyspark.SQL Importazione di importazione
#Crea un'app chiamata LinuxHint
Spark_app = SparkSession.costruttore.appname ('LinuxHint').getOrCreate ()
# Crea dati studenteschi con 5 righe e 6 attributi
Students = ['rollno': '001', 'name': 'sravan', 'age': 23, 'altezza': 5.79, "peso": 67, "indirizzo": "guntur",
'rollno': '002', 'name': 'ojaswi', 'age': 16, 'altezza': 3.79, 'peso': 34, 'indirizzo': 'hyd',
'rollno': '003', 'name': 'gnanesh chowdary', 'age': 7, 'altezza': 2.79, 'peso': 17, 'indirizzo': 'patna',
'rollno': '004', 'name': 'rohith', 'age': 9, 'altezza': 3.69, 'peso': 28, 'indirizzo': 'hyd',
'rollno': '005', 'name': 'sridevi', 'age': 37, 'altezza': 5.59, 'peso': 54, 'indirizzo': 'hyd']
# Crea il frame dati
df = spark_app.CreatedataFrame (Students)
#rename la colonna dell'indirizzo con città, colonna di altezza con altezza, colonna Rollno con ID
df.withColumnReNaMED ("Indirizzo", "City").withColumnReNamed ("altezza", "altezza").WithColumnReNaMED ("Rollno", "Id").spettacolo()
Produzione:
Metodo 2: usando selectExpr ()
Questo è un metodo di espressione che cambia il nome della colonna prendendo un'espressione.
Sintassi:
DataFrame.SelectExpr (espressione)
Parametri:
- Ci vorrà un solo parametro che è un'espressione.
- L'espressione viene utilizzata per cambiare la colonna. Quindi, l'espressione sarà: "Old_column come new_column".
Finalmente la sintassi è:
DataFrame.SelectExpr ("Old_Column come new_column")
Dove,
- Old_column è la colonna esistente
- new_column è la nuova colonna che sostituisce il vecchio_column
Nota: possiamo fornire più espressioni separate dalla virgola all'interno di questo metodo.
Esempio 1:
In questo esempio, stiamo sostituendo la colonna dell'indirizzo con "città" e visualizzando questa colonna usando il metodo show ().
#import il modulo pyspark
importare pyspark
#IMPORT SPARKSESSION per la creazione di una sessione
da pyspark.SQL Importazione di importazione
#Crea un'app chiamata LinuxHint
Spark_app = SparkSession.costruttore.appname ('LinuxHint').getOrCreate ()
# Crea dati studenteschi con 5 righe e 6 attributi
Students = ['rollno': '001', 'name': 'sravan', 'age': 23, 'altezza': 5.79, "peso": 67, "indirizzo": "guntur",
'rollno': '002', 'name': 'ojaswi', 'age': 16, 'altezza': 3.79, 'peso': 34, 'indirizzo': 'hyd',
'rollno': '003', 'name': 'gnanesh chowdary', 'age': 7, 'altezza': 2.79, 'peso': 17, 'indirizzo': 'patna',
'rollno': '004', 'name': 'rohith', 'age': 9, 'altezza': 3.69, 'peso': 28, 'indirizzo': 'hyd',
'rollno': '005', 'name': 'sridevi', 'age': 37, 'altezza': 5.59, 'peso': 54, 'indirizzo': 'hyd']
# Crea il frame dati
df = spark_app.CreatedataFrame (Students)
#rename la colonna dell'indirizzo con città
df.SelectExpr ("Indirizzo come città").spettacolo()
Produzione:
Esempio 2:
In questo esempio, stiamo sostituendo la colonna dell'indirizzo con "Città", colonna di altezza con "altezza", colonna Rollno con "ID" e visualizzando l'intero metodo Show ().
#import il modulo pyspark
importare pyspark
#IMPORT SPARKSESSION per la creazione di una sessione
da pyspark.SQL Importazione di importazione
#Crea un'app chiamata LinuxHint
Spark_app = SparkSession.costruttore.appname ('LinuxHint').getOrCreate ()
# Crea dati studenteschi con 5 righe e 6 attributi
Students = ['rollno': '001', 'name': 'sravan', 'age': 23, 'altezza': 5.79, "peso": 67, "indirizzo": "guntur",
'rollno': '002', 'name': 'ojaswi', 'age': 16, 'altezza': 3.79, 'peso': 34, 'indirizzo': 'hyd',
'rollno': '003', 'name': 'gnanesh chowdary', 'age': 7, 'altezza': 2.79, 'peso': 17, 'indirizzo': 'patna',
'rollno': '004', 'name': 'rohith', 'age': 9, 'altezza': 3.69, 'peso': 28, 'indirizzo': 'hyd',
'rollno': '005', 'name': 'sridevi', 'age': 37, 'altezza': 5.59, 'peso': 54, 'indirizzo': 'hyd']
# Crea il frame dati
df = spark_app.CreatedataFrame (Students)
#rename la colonna dell'indirizzo con città, colonna di altezza con altezza, colonna Rollno con ID
df.SelectExpr ("Indirizzo come città", "altezza come altezza", "rollno as id").spettacolo()
Produzione:
Metodo 3: usando Select ()
Possiamo selezionare le colonne dal frame dati modificando i nomi delle colonne tramite Col con alias ().
Sintassi:
DataFrame.Seleziona (Col ("Old_Column").alias ("new_column"))
Parametri:
- Richiederà un solo parametro che è il nome della colonna tramite col ().
col () è un metodo disponibile in pyspark.SQL.Le funzioni prendono old_column come parametro di input e cambieranno in new_column con alias ()
alias () prenderà new_column come parametro
Dove:
- Old_column è la colonna esistente
- new_column è la nuova colonna che sostituisce il vecchio_column
Nota: possiamo fornire più colonne separate dalla virgola all'interno di questo metodo.
Esempio 1:
In questo esempio, stiamo sostituendo la colonna dell'indirizzo con "città" e visualizzando questa colonna usando il metodo show ().
#import il modulo pyspark
importare pyspark
#IMPORT SPARKSESSION per la creazione di una sessione
da pyspark.SQL Importazione di importazione
#importa la funzione Col
da pyspark.SQL.Funzioni importanti col
#Crea un'app chiamata LinuxHint
Spark_app = SparkSession.costruttore.appname ('LinuxHint').getOrCreate ()
# Crea dati studenteschi con 5 righe e 6 attributi
Students = ['rollno': '001', 'name': 'sravan', 'age': 23, 'altezza': 5.79, "peso": 67, "indirizzo": "guntur",
'rollno': '002', 'name': 'ojaswi', 'age': 16, 'altezza': 3.79, 'peso': 34, 'indirizzo': 'hyd',
'rollno': '003', 'name': 'gnanesh chowdary', 'age': 7, 'altezza': 2.79, 'peso': 17, 'indirizzo': 'patna',
'rollno': '004', 'name': 'rohith', 'age': 9, 'altezza': 3.69, 'peso': 28, 'indirizzo': 'hyd',
'rollno': '005', 'name': 'sridevi', 'age': 37, 'altezza': 5.59, 'peso': 54, 'indirizzo': 'hyd']
# Crea il frame dati
df = spark_app.CreatedataFrame (Students)
#rename la colonna dell'indirizzo con città
df.Seleziona (col ("indirizzo").alias ("città")).spettacolo()
Produzione:
Esempio 2:
In questo esempio, stiamo sostituendo la colonna dell'indirizzo con "Città", colonna di altezza con "altezza", colonna Rollno con "ID" e visualizzando l'intero telaio di dati utilizzando ().
#import il modulo pyspark
importare pyspark
#IMPORT SPARKSESSION per la creazione di una sessione
da pyspark.SQL Importazione di importazione
#importa la funzione Col
da pyspark.SQL.Funzioni importanti col
#Crea un'app chiamata LinuxHint
Spark_app = SparkSession.costruttore.appname ('LinuxHint').getOrCreate ()
# Crea dati studenteschi con 5 righe e 6 attributi
Students = ['rollno': '001', 'name': 'sravan', 'age': 23, 'altezza': 5.79, "peso": 67, "indirizzo": "guntur",
'rollno': '002', 'name': 'ojaswi', 'age': 16, 'altezza': 3.79, 'peso': 34, 'indirizzo': 'hyd',
'rollno': '003', 'name': 'gnanesh chowdary', 'age': 7, 'altezza': 2.79, 'peso': 17, 'indirizzo': 'patna',
'rollno': '004', 'name': 'rohith', 'age': 9, 'altezza': 3.69, 'peso': 28, 'indirizzo': 'hyd',
'rollno': '005', 'name': 'sridevi', 'age': 37, 'altezza': 5.59, 'peso': 54, 'indirizzo': 'hyd']
# Crea il frame dati
df = spark_app.CreatedataFrame (Students)
#rename la colonna dell'indirizzo con città, colonna di altezza con altezza, colonna Rollno con ID
df.Seleziona (col ("indirizzo").alias ("città"), col ("altezza").alias ("altezza"), col ("rollno").alias ("id")).spettacolo()
Produzione:
Conclusione
In questo tutorial, abbiamo discusso di come modificare i nomi delle colonne di PysPark DataFrame utilizzando conColumnReNaMED (), Select e SelectExpr () Metodi. Usando questi metodi, possiamo anche cambiare più nomi di colonne alla volta.