Modifica i nomi della colonna di PysPark DataFrame - Rinomina la colonna

Modifica i nomi della colonna di PysPark DataFrame - Rinomina la colonna
In Python, Pyspark è un modulo Spark utilizzato per fornire un tipo di elaborazione simile come Spark utilizzando DataFrame. Discuteremo diversi metodi per modificare i nomi delle colonne di Pyspark DataFrame. Creeremo PysPark DataFrame prima di passare ai metodi.

Esempio:
Qui creeremo Pyspark DataFrame con 5 righe e 6 colonne.

#import il modulo pyspark
importare pyspark
#IMPORT SPARKSESSION per la creazione di una sessione
da pyspark.SQL Importazione di importazione
#importa la funzione Col
da pyspark.SQL.Funzioni importanti col
#Crea un'app chiamata LinuxHint
Spark_app = SparkSession.costruttore.appname ('LinuxHint').getOrCreate ()
# Crea dati studenteschi con 5 righe e 6 attributi
Students = ['rollno': '001', 'name': 'sravan', 'age': 23, 'altezza': 5.79, "peso": 67, "indirizzo": "guntur",
'rollno': '002', 'name': 'ojaswi', 'age': 16, 'altezza': 3.79, 'peso': 34, 'indirizzo': 'hyd',
'rollno': '003', 'name': 'gnanesh chowdary', 'age': 7, 'altezza': 2.79, 'peso': 17, 'indirizzo': 'patna',
'rollno': '004', 'name': 'rohith', 'age': 9, 'altezza': 3.69, 'peso': 28, 'indirizzo': 'hyd',
'rollno': '005', 'name': 'sridevi', 'age': 37, 'altezza': 5.59, 'peso': 54, 'indirizzo': 'hyd']
# Crea il frame dati
df = spark_app.CreatedataFrame (Students)
#display il frame dati
df.spettacolo()

Produzione:

Metodo 1: usando withColumnReNamed ()

Possiamo modificare il nome della colonna nel Frame dati PysPark utilizzando questo metodo.

Sintassi:
DataFrame.withColumnReNaMED ("Old_Column", "New_column")

Parametri:

  1. Old_column è la colonna esistente
  2. new_column è la nuova colonna che sostituisce il vecchio_column

Esempio:
In questo esempio, stiamo sostituendo la colonna dell'indirizzo con "Città" e visualizzando l'intero metodo Show () di Show ().

#import il modulo pyspark
importare pyspark
#IMPORT SPARKSESSION per la creazione di una sessione
da pyspark.SQL Importazione di importazione
#importa la funzione Col
da pyspark.SQL.Funzioni importanti col
#Crea un'app chiamata LinuxHint
Spark_app = SparkSession.costruttore.appname ('LinuxHint').getOrCreate ()
# Crea dati studenteschi con 5 righe e 6 attributi
Students = ['rollno': '001', 'name': 'sravan', 'age': 23, 'altezza': 5.79, "peso": 67, "indirizzo": "guntur",
'rollno': '002', 'name': 'ojaswi', 'age': 16, 'altezza': 3.79, 'peso': 34, 'indirizzo': 'hyd',
'rollno': '003', 'name': 'gnanesh chowdary', 'age': 7, 'altezza': 2.79, 'peso': 17, 'indirizzo': 'patna',
'rollno': '004', 'name': 'rohith', 'age': 9, 'altezza': 3.69, 'peso': 28, 'indirizzo': 'hyd',
'rollno': '005', 'name': 'sridevi', 'age': 37, 'altezza': 5.59, 'peso': 54, 'indirizzo': 'hyd']
# Crea il frame dati
df = spark_app.CreatedataFrame (Students)
#rename la colonna dell'indirizzo con città
df.withColumnReNaMED ("Indirizzo", "City").spettacolo()

Produzione:

Possiamo anche sostituire più nomi di colonne alla volta usando questo metodo.

Sintassi:
DataFrame.withColumnReNaMED ("Old_Column", "New_column") .WithColumnReNamed ("Old_Column", "new_column") .. .withColumnReNaMED ("Old_Column", "New_column")

Esempio:
In questo esempio, stiamo sostituendo la colonna dell'indirizzo con "Città", colonna di altezza con "altezza", colonna Rollno con "ID" e visualizzando l'intero metodo Show ().

#import il modulo pyspark
importare pyspark
#IMPORT SPARKSESSION per la creazione di una sessione
da pyspark.SQL Importazione di importazione
#Crea un'app chiamata LinuxHint
Spark_app = SparkSession.costruttore.appname ('LinuxHint').getOrCreate ()
# Crea dati studenteschi con 5 righe e 6 attributi
Students = ['rollno': '001', 'name': 'sravan', 'age': 23, 'altezza': 5.79, "peso": 67, "indirizzo": "guntur",
'rollno': '002', 'name': 'ojaswi', 'age': 16, 'altezza': 3.79, 'peso': 34, 'indirizzo': 'hyd',
'rollno': '003', 'name': 'gnanesh chowdary', 'age': 7, 'altezza': 2.79, 'peso': 17, 'indirizzo': 'patna',
'rollno': '004', 'name': 'rohith', 'age': 9, 'altezza': 3.69, 'peso': 28, 'indirizzo': 'hyd',
'rollno': '005', 'name': 'sridevi', 'age': 37, 'altezza': 5.59, 'peso': 54, 'indirizzo': 'hyd']
# Crea il frame dati
df = spark_app.CreatedataFrame (Students)
#rename la colonna dell'indirizzo con città, colonna di altezza con altezza, colonna Rollno con ID
df.withColumnReNaMED ("Indirizzo", "City").withColumnReNamed ("altezza", "altezza").WithColumnReNaMED ("Rollno", "Id").spettacolo()

Produzione:

Metodo 2: usando selectExpr ()

Questo è un metodo di espressione che cambia il nome della colonna prendendo un'espressione.

Sintassi:
DataFrame.SelectExpr (espressione)

Parametri:

  • Ci vorrà un solo parametro che è un'espressione.
  • L'espressione viene utilizzata per cambiare la colonna. Quindi, l'espressione sarà: "Old_column come new_column".

Finalmente la sintassi è:

DataFrame.SelectExpr ("Old_Column come new_column")

Dove,

  • Old_column è la colonna esistente
  • new_column è la nuova colonna che sostituisce il vecchio_column

Nota: possiamo fornire più espressioni separate dalla virgola all'interno di questo metodo.

Esempio 1:
In questo esempio, stiamo sostituendo la colonna dell'indirizzo con "città" e visualizzando questa colonna usando il metodo show ().

#import il modulo pyspark
importare pyspark
#IMPORT SPARKSESSION per la creazione di una sessione
da pyspark.SQL Importazione di importazione
#Crea un'app chiamata LinuxHint
Spark_app = SparkSession.costruttore.appname ('LinuxHint').getOrCreate ()
# Crea dati studenteschi con 5 righe e 6 attributi
Students = ['rollno': '001', 'name': 'sravan', 'age': 23, 'altezza': 5.79, "peso": 67, "indirizzo": "guntur",
'rollno': '002', 'name': 'ojaswi', 'age': 16, 'altezza': 3.79, 'peso': 34, 'indirizzo': 'hyd',
'rollno': '003', 'name': 'gnanesh chowdary', 'age': 7, 'altezza': 2.79, 'peso': 17, 'indirizzo': 'patna',
'rollno': '004', 'name': 'rohith', 'age': 9, 'altezza': 3.69, 'peso': 28, 'indirizzo': 'hyd',
'rollno': '005', 'name': 'sridevi', 'age': 37, 'altezza': 5.59, 'peso': 54, 'indirizzo': 'hyd']
# Crea il frame dati
df = spark_app.CreatedataFrame (Students)
#rename la colonna dell'indirizzo con città
df.SelectExpr ("Indirizzo come città").spettacolo()

Produzione:

Esempio 2:

In questo esempio, stiamo sostituendo la colonna dell'indirizzo con "Città", colonna di altezza con "altezza", colonna Rollno con "ID" e visualizzando l'intero metodo Show ().

#import il modulo pyspark
importare pyspark
#IMPORT SPARKSESSION per la creazione di una sessione
da pyspark.SQL Importazione di importazione
#Crea un'app chiamata LinuxHint
Spark_app = SparkSession.costruttore.appname ('LinuxHint').getOrCreate ()
# Crea dati studenteschi con 5 righe e 6 attributi
Students = ['rollno': '001', 'name': 'sravan', 'age': 23, 'altezza': 5.79, "peso": 67, "indirizzo": "guntur",
'rollno': '002', 'name': 'ojaswi', 'age': 16, 'altezza': 3.79, 'peso': 34, 'indirizzo': 'hyd',
'rollno': '003', 'name': 'gnanesh chowdary', 'age': 7, 'altezza': 2.79, 'peso': 17, 'indirizzo': 'patna',
'rollno': '004', 'name': 'rohith', 'age': 9, 'altezza': 3.69, 'peso': 28, 'indirizzo': 'hyd',
'rollno': '005', 'name': 'sridevi', 'age': 37, 'altezza': 5.59, 'peso': 54, 'indirizzo': 'hyd']
# Crea il frame dati
df = spark_app.CreatedataFrame (Students)
#rename la colonna dell'indirizzo con città, colonna di altezza con altezza, colonna Rollno con ID
df.SelectExpr ("Indirizzo come città", "altezza come altezza", "rollno as id").spettacolo()

Produzione:

Metodo 3: usando Select ()

Possiamo selezionare le colonne dal frame dati modificando i nomi delle colonne tramite Col con alias ().

Sintassi:
DataFrame.Seleziona (Col ("Old_Column").alias ("new_column"))

Parametri:

  • Richiederà un solo parametro che è il nome della colonna tramite col ().

col () è un metodo disponibile in pyspark.SQL.Le funzioni prendono old_column come parametro di input e cambieranno in new_column con alias ()

alias () prenderà new_column come parametro

Dove:

  1. Old_column è la colonna esistente
  2. new_column è la nuova colonna che sostituisce il vecchio_column

Nota: possiamo fornire più colonne separate dalla virgola all'interno di questo metodo.

Esempio 1:
In questo esempio, stiamo sostituendo la colonna dell'indirizzo con "città" e visualizzando questa colonna usando il metodo show ().

#import il modulo pyspark
importare pyspark
#IMPORT SPARKSESSION per la creazione di una sessione
da pyspark.SQL Importazione di importazione
#importa la funzione Col
da pyspark.SQL.Funzioni importanti col
#Crea un'app chiamata LinuxHint
Spark_app = SparkSession.costruttore.appname ('LinuxHint').getOrCreate ()
# Crea dati studenteschi con 5 righe e 6 attributi
Students = ['rollno': '001', 'name': 'sravan', 'age': 23, 'altezza': 5.79, "peso": 67, "indirizzo": "guntur",
'rollno': '002', 'name': 'ojaswi', 'age': 16, 'altezza': 3.79, 'peso': 34, 'indirizzo': 'hyd',
'rollno': '003', 'name': 'gnanesh chowdary', 'age': 7, 'altezza': 2.79, 'peso': 17, 'indirizzo': 'patna',
'rollno': '004', 'name': 'rohith', 'age': 9, 'altezza': 3.69, 'peso': 28, 'indirizzo': 'hyd',
'rollno': '005', 'name': 'sridevi', 'age': 37, 'altezza': 5.59, 'peso': 54, 'indirizzo': 'hyd']
# Crea il frame dati
df = spark_app.CreatedataFrame (Students)
#rename la colonna dell'indirizzo con città
df.Seleziona (col ("indirizzo").alias ("città")).spettacolo()

Produzione:

Esempio 2:

In questo esempio, stiamo sostituendo la colonna dell'indirizzo con "Città", colonna di altezza con "altezza", colonna Rollno con "ID" e visualizzando l'intero telaio di dati utilizzando ().

#import il modulo pyspark
importare pyspark
#IMPORT SPARKSESSION per la creazione di una sessione
da pyspark.SQL Importazione di importazione
#importa la funzione Col
da pyspark.SQL.Funzioni importanti col
#Crea un'app chiamata LinuxHint
Spark_app = SparkSession.costruttore.appname ('LinuxHint').getOrCreate ()
# Crea dati studenteschi con 5 righe e 6 attributi
Students = ['rollno': '001', 'name': 'sravan', 'age': 23, 'altezza': 5.79, "peso": 67, "indirizzo": "guntur",
'rollno': '002', 'name': 'ojaswi', 'age': 16, 'altezza': 3.79, 'peso': 34, 'indirizzo': 'hyd',
'rollno': '003', 'name': 'gnanesh chowdary', 'age': 7, 'altezza': 2.79, 'peso': 17, 'indirizzo': 'patna',
'rollno': '004', 'name': 'rohith', 'age': 9, 'altezza': 3.69, 'peso': 28, 'indirizzo': 'hyd',
'rollno': '005', 'name': 'sridevi', 'age': 37, 'altezza': 5.59, 'peso': 54, 'indirizzo': 'hyd']
# Crea il frame dati
df = spark_app.CreatedataFrame (Students)
#rename la colonna dell'indirizzo con città, colonna di altezza con altezza, colonna Rollno con ID
df.Seleziona (col ("indirizzo").alias ("città"), col ("altezza").alias ("altezza"), col ("rollno").alias ("id")).spettacolo()

Produzione:

Conclusione

In questo tutorial, abbiamo discusso di come modificare i nomi delle colonne di PysPark DataFrame utilizzando conColumnReNaMED (), Select e SelectExpr () Metodi. Usando questi metodi, possiamo anche cambiare più nomi di colonne alla volta.