Modifica i nomi della colonna di PysPark DataFrame - Rinomina la colonna

In Python, Pyspark è un modulo Spark utilizzato per fornire un tipo di elaborazione simile come Spark utilizzando DataFrame. Discuteremo diversi metodi per modificare i nomi delle colonne di Pyspark DataFrame. Creeremo PysPark DataFrame prima di passare ai metodi.

Esempio:
Qui creeremo Pyspark DataFrame con 5 righe e 6 colonne.

#import il modulo pyspark
importare pyspark
#IMPORT SPARKSESSION per la creazione di una sessione
da pyspark.SQL Importazione di importazione
#importa la funzione Col
da pyspark.SQL.Funzioni importanti col
#Crea un'app chiamata LinuxHint
Spark_app = SparkSession.costruttore.appname ('LinuxHint').getOrCreate ()
# Crea dati studenteschi con 5 righe e 6 attributi
Students = ['rollno': '001', 'name': 'sravan', 'age': 23, 'altezza': 5.79, "peso": 67, "indirizzo": "guntur",
'rollno': '002', 'name': 'ojaswi', 'age': 16, 'altezza': 3.79, 'peso': 34, 'indirizzo': 'hyd',
'rollno': '003', 'name': 'gnanesh chowdary', 'age': 7, 'altezza': 2.79, 'peso': 17, 'indirizzo': 'patna',
'rollno': '004', 'name': 'rohith', 'age': 9, 'altezza': 3.69, 'peso': 28, 'indirizzo': 'hyd',
'rollno': '005', 'name': 'sridevi', 'age': 37, 'altezza': 5.59, 'peso': 54, 'indirizzo': 'hyd']
# Crea il frame dati
df = spark_app.CreatedataFrame (Students)
#display il frame dati
df.spettacolo()

Produzione:

Metodo 1: usando withColumnReNamed ()

Possiamo modificare il nome della colonna nel Frame dati PysPark utilizzando questo metodo.

Sintassi:
DataFrame.withColumnReNaMED ("Old_Column", "New_column")

Parametri:

Old_column è la colonna esistente
new_column è la nuova colonna che sostituisce il vecchio_column

Esempio:
In questo esempio, stiamo sostituendo la colonna dell'indirizzo con "Città" e visualizzando l'intero metodo Show () di Show ().

Produzione:

Possiamo anche sostituire più nomi di colonne alla volta usando questo metodo.

Sintassi:
DataFrame.withColumnReNaMED ("Old_Column", "New_column") .WithColumnReNamed ("Old_Column", "new_column") .. .withColumnReNaMED ("Old_Column", "New_column")

Esempio:
In questo esempio, stiamo sostituendo la colonna dell'indirizzo con "Città", colonna di altezza con "altezza", colonna Rollno con "ID" e visualizzando l'intero metodo Show ().

#import il modulo pyspark
importare pyspark
#IMPORT SPARKSESSION per la creazione di una sessione
da pyspark.SQL Importazione di importazione
#Crea un'app chiamata LinuxHint
Spark_app = SparkSession.costruttore.appname ('LinuxHint').getOrCreate ()
# Crea dati studenteschi con 5 righe e 6 attributi
Students = ['rollno': '001', 'name': 'sravan', 'age': 23, 'altezza': 5.79, "peso": 67, "indirizzo": "guntur",
'rollno': '002', 'name': 'ojaswi', 'age': 16, 'altezza': 3.79, 'peso': 34, 'indirizzo': 'hyd',
'rollno': '003', 'name': 'gnanesh chowdary', 'age': 7, 'altezza': 2.79, 'peso': 17, 'indirizzo': 'patna',
'rollno': '004', 'name': 'rohith', 'age': 9, 'altezza': 3.69, 'peso': 28, 'indirizzo': 'hyd',
'rollno': '005', 'name': 'sridevi', 'age': 37, 'altezza': 5.59, 'peso': 54, 'indirizzo': 'hyd']
# Crea il frame dati
df = spark_app.CreatedataFrame (Students)
#rename la colonna dell'indirizzo con città, colonna di altezza con altezza, colonna Rollno con ID
df.withColumnReNaMED ("Indirizzo", "City").withColumnReNamed ("altezza", "altezza").WithColumnReNaMED ("Rollno", "Id").spettacolo()

Produzione:

Metodo 2: usando selectExpr ()

Questo è un metodo di espressione che cambia il nome della colonna prendendo un'espressione.

Sintassi:
DataFrame.SelectExpr (espressione)

Parametri:

Ci vorrà un solo parametro che è un'espressione.
L'espressione viene utilizzata per cambiare la colonna. Quindi, l'espressione sarà: "Old_column come new_column".

Finalmente la sintassi è:

DataFrame.SelectExpr ("Old_Column come new_column")

Dove,

Old_column è la colonna esistente
new_column è la nuova colonna che sostituisce il vecchio_column

Nota: possiamo fornire più espressioni separate dalla virgola all'interno di questo metodo.

Esempio 1:
In questo esempio, stiamo sostituendo la colonna dell'indirizzo con "città" e visualizzando questa colonna usando il metodo show ().

#import il modulo pyspark
importare pyspark
#IMPORT SPARKSESSION per la creazione di una sessione
da pyspark.SQL Importazione di importazione
#Crea un'app chiamata LinuxHint
Spark_app = SparkSession.costruttore.appname ('LinuxHint').getOrCreate ()
# Crea dati studenteschi con 5 righe e 6 attributi
Students = ['rollno': '001', 'name': 'sravan', 'age': 23, 'altezza': 5.79, "peso": 67, "indirizzo": "guntur",
'rollno': '002', 'name': 'ojaswi', 'age': 16, 'altezza': 3.79, 'peso': 34, 'indirizzo': 'hyd',
'rollno': '003', 'name': 'gnanesh chowdary', 'age': 7, 'altezza': 2.79, 'peso': 17, 'indirizzo': 'patna',
'rollno': '004', 'name': 'rohith', 'age': 9, 'altezza': 3.69, 'peso': 28, 'indirizzo': 'hyd',
'rollno': '005', 'name': 'sridevi', 'age': 37, 'altezza': 5.59, 'peso': 54, 'indirizzo': 'hyd']
# Crea il frame dati
df = spark_app.CreatedataFrame (Students)
#rename la colonna dell'indirizzo con città
df.SelectExpr ("Indirizzo come città").spettacolo()

Produzione:

Esempio 2:

In questo esempio, stiamo sostituendo la colonna dell'indirizzo con "Città", colonna di altezza con "altezza", colonna Rollno con "ID" e visualizzando l'intero metodo Show ().

#import il modulo pyspark
importare pyspark
#IMPORT SPARKSESSION per la creazione di una sessione
da pyspark.SQL Importazione di importazione
#Crea un'app chiamata LinuxHint
Spark_app = SparkSession.costruttore.appname ('LinuxHint').getOrCreate ()
# Crea dati studenteschi con 5 righe e 6 attributi
Students = ['rollno': '001', 'name': 'sravan', 'age': 23, 'altezza': 5.79, "peso": 67, "indirizzo": "guntur",
'rollno': '002', 'name': 'ojaswi', 'age': 16, 'altezza': 3.79, 'peso': 34, 'indirizzo': 'hyd',
'rollno': '003', 'name': 'gnanesh chowdary', 'age': 7, 'altezza': 2.79, 'peso': 17, 'indirizzo': 'patna',
'rollno': '004', 'name': 'rohith', 'age': 9, 'altezza': 3.69, 'peso': 28, 'indirizzo': 'hyd',
'rollno': '005', 'name': 'sridevi', 'age': 37, 'altezza': 5.59, 'peso': 54, 'indirizzo': 'hyd']
# Crea il frame dati
df = spark_app.CreatedataFrame (Students)
#rename la colonna dell'indirizzo con città, colonna di altezza con altezza, colonna Rollno con ID
df.SelectExpr ("Indirizzo come città", "altezza come altezza", "rollno as id").spettacolo()

Produzione:

Metodo 3: usando Select ()

Possiamo selezionare le colonne dal frame dati modificando i nomi delle colonne tramite Col con alias ().

Sintassi:
DataFrame.Seleziona (Col ("Old_Column").alias ("new_column"))

Parametri:

Richiederà un solo parametro che è il nome della colonna tramite col ().

col () è un metodo disponibile in pyspark.SQL.Le funzioni prendono old_column come parametro di input e cambieranno in new_column con alias ()

alias () prenderà new_column come parametro

Dove:

Old_column è la colonna esistente
new_column è la nuova colonna che sostituisce il vecchio_column

Nota: possiamo fornire più colonne separate dalla virgola all'interno di questo metodo.

Esempio 1:
In questo esempio, stiamo sostituendo la colonna dell'indirizzo con "città" e visualizzando questa colonna usando il metodo show ().

Produzione:

Esempio 2:

In questo esempio, stiamo sostituendo la colonna dell'indirizzo con "Città", colonna di altezza con "altezza", colonna Rollno con "ID" e visualizzando l'intero telaio di dati utilizzando ().

Produzione:

Conclusione

In questo tutorial, abbiamo discusso di come modificare i nomi delle colonne di PysPark DataFrame utilizzando conColumnReNaMED (), Select e SelectExpr () Metodi. Usando questi metodi, possiamo anche cambiare più nomi di colonne alla volta.

Pitone

Eccursioni del conteggio dei pitone nell'elenco

Per contare le occorrenze in un elenco in Python, applicare il metodo Count (), la classe Counter, i...

Dante Palumbo

Pitone

Etichette dell'asse di Seaborn

Gli assi.Funzione set () , funzioni della libreria Matplotlib o le funzioni set_xlabel () e set_ylab...

Dr. Folco Leone

Pitone

Python non tutti gli argomenti convertiti durante la formattazione della stringa

Questo errore può essere risolto correggendo la sintassi dell'operatore %, utilizzando la funzione f...

Dr. Ursula Marini