In Python, Pyspark è un modulo Spark utilizzato per fornire un tipo di elaborazione simile come Spark utilizzando DataFrame.
conColumnReNamed () Metodo in Pyspark viene utilizzato per rinominare le colonne esistenti nel frame dati PysPark.
Sintassi:
DataFrame.withColumnReNaMED ('Old_Column', 'new_column')
Parametri:
- Old_Column è il vecchio nome di colonna
- new_column è il nuovo nome per la vecchia colonna
Creiamo il frame dati PysPark con 5 righe e 6 colonne e visualizziamolo utilizzando il metodo show ()
Esempio:
#IMPORT Il modulo PYSPRK
importare pyspark
#IMPORT SPARKSESSION per la creazione di una sessione
da pyspark.SQL Importazione di importazione
#importa la funzione Col
da pyspark.SQL.Funzioni importanti col
#Crea un'app chiamata LinuxHint
Spark_app = SparkSession.costruttore.appname ('LinuxHint').getOrCreate ()
# Crea dati studenteschi con 5 righe e 6 attributi
Students = ['rollno': '001', 'name': 'sravan', 'age': 23, 'altezza': 5.79, "peso": 67, "indirizzo": "guntur",
'rollno': '002', 'name': 'ojaswi', 'age': 16, 'altezza': 3.79, 'peso': 34, 'indirizzo': 'hyd',
'rollno': '003', 'name': 'gnanesh chowdary', 'age': 7, 'altezza': 2.79, 'peso': 17, 'indirizzo': 'patna',
'rollno': '004', 'name': 'rohith', 'age': 9, 'altezza': 3.69, 'peso': 28, 'indirizzo': 'hyd',
'rollno': '005', 'name': 'sridevi', 'age': 37, 'altezza': 5.59, 'peso': 54, 'indirizzo': 'hyd']
# Crea il frame dati
df = spark_app.CreatedataFrame (Students)
#display il frame dati
df.spettacolo()
Produzione:
Modificheremo il nome della colonna "Indirizzo" in "Indirizzo degli studenti", "Rollno" colonna in "ID Studenti" e "Nome" su "Nome degli studenti".
Esempio:
#IMPORT Il modulo PYSPRK
importare pyspark
#IMPORT SPARKSESSION per la creazione di una sessione
da pyspark.SQL Importazione di importazione
#Crea un'app chiamata LinuxHint
Spark_app = SparkSession.costruttore.appname ('LinuxHint').getOrCreate ()
# Crea dati studenteschi con 5 righe e 6 attributi
Students = ['rollno': '001', 'name': 'sravan', 'age': 23, 'altezza': 5.79, "peso": 67, "indirizzo": "guntur",
'rollno': '002', 'name': 'ojaswi', 'age': 16, 'altezza': 3.79, 'peso': 34, 'indirizzo': 'hyd',
'rollno': '003', 'name': 'gnanesh chowdary', 'age': 7, 'altezza': 2.79, 'peso': 17, 'indirizzo': 'patna',
'rollno': '004', 'name': 'rohith', 'age': 9, 'altezza': 3.69, 'peso': 28, 'indirizzo': 'hyd',
'rollno': '005', 'name': 'sridevi', 'age': 37, 'altezza': 5.59, 'peso': 54, 'indirizzo': 'hyd']
# Crea il frame dati
df = spark_app.CreatedataFrame (Students)
#rename name colonna al nome degli studenti
df = df.withColumnReNamed ("Nome", "Nome degli studenti")
#Rename Indirizzo colonna al nome degli studenti
df = df.withColumnReNaMED ("Indirizzo", "Indirizzo degli studenti")
#rename rollno colonna per gli studenti id
df = df.WithColumnReNaMED ("Rollno", "Students ID")
#LETS Visualizza lo schema
df.printschema ()
Produzione:
radice
|- Indirizzo degli studenti: String (Nullable = True)
|- Age: Long (Nullable = True)
|- altezza: doppio (nulllable = true)
|- Nome degli studenti: String (Nullable = True)
|- Studenti ID: String (Nullable = True)
|- Peso: lungo (Nullable = True)
Se vogliamo più nomi di colonne alla volta, allora dobbiamo usare la funzione WithColumnReNaMED () più volte separata dal punto (.) operatore
Sintassi:
DataFrame.withColumnReNamed ("old_column1", "new_column") ... conColumnReNaMED ("Old_Column2", "new_column") ... withColumnReNamed ("Old_Column3", "new_column").
.WithColumnReNaMED ('Old_Column n', 'new_column')
Esempio:
In questo esempio cambierà il nome della colonna "Indirizzo" in "Indirizzo degli studenti", "Rollno" colonna in "ID Studenti" e "Nome" Colonna in "Nome degli studenti" e infine visualizzare lo schema.
#IMPORT Il modulo PYSPRK
importare pyspark
#IMPORT SPARKSESSION per la creazione di una sessione
da pyspark.SQL Importazione di importazione
#Crea un'app chiamata LinuxHint
Spark_app = SparkSession.costruttore.appname ('LinuxHint').getOrCreate ()
# Crea dati studenteschi con 5 righe e 6 attributi
Students = ['rollno': '001', 'name': 'sravan', 'age': 23, 'altezza': 5.79, "peso": 67, "indirizzo": "guntur",
'rollno': '002', 'name': 'ojaswi', 'age': 16, 'altezza': 3.79, 'peso': 34, 'indirizzo': 'hyd',
'rollno': '003', 'name': 'gnanesh chowdary', 'age': 7, 'altezza': 2.79, 'peso': 17, 'indirizzo': 'patna',
'rollno': '004', 'name': 'rohith', 'age': 9, 'altezza': 3.69, 'peso': 28, 'indirizzo': 'hyd',
'rollno': '005', 'name': 'sridevi', 'age': 37, 'altezza': 5.59, 'peso': 54, 'indirizzo': 'hyd']
# Crea il frame dati
df = spark_app.CreatedataFrame (Students)
#rename name colonna al nome degli studenti,
#colonna addice per il nome degli studenti
#rename rollno colonna per gli studenti id
df = df.withColumnReNamed ("Nome", "Nome degli studenti").withColumnReNaMED ("Indirizzo", "Indirizzo degli studenti").WithColumnReNaMED ("Rollno", "Students ID")
#LETS Visualizza lo schema
df.printschema ()
Produzione:
radice
|- Indirizzo degli studenti: String (Nullable = True)
|- Age: Long (Nullable = True)
|- altezza: doppio (nulllable = true)
|- Nome degli studenti: String (Nullable = True)
|- Studenti ID: String (Nullable = True)
|- Peso: lungo (Nullable = True)
Conclusione
In questo articolo, abbiamo discusso di come rinominare i nomi delle colonne usando la funzione WithColumnReNaMED () e abbiamo visto come rinominare più colonne.