Discuteremo diversi scenari per modificare l'ordine delle colonne in Pyspark DataFrame.
Per tutti gli scenari, stiamo usando il metodo Select (). Prima di passare agli scenari, creeremo prima Pyspark DataFrame.
Esempio:
Qui creeremo Pyspark DataFrame con 5 righe e 6 colonne.
#import il modulo pyspark
importare pyspark
#IMPORT SPARKSESSION per la creazione di una sessione
da pyspark.SQL Importazione di importazione
#Crea un'app chiamata LinuxHint
Spark_app = SparkSession.costruttore.appname ('LinuxHint').getOrCreate ()
# Crea dati studenteschi con 5 righe e 6 attributi
Students = ['rollno': '001', 'name': 'sravan', 'age': 23, 'altezza': 5.79, "peso": 67, "indirizzo": "guntur",
'rollno': '002', 'name': 'ojaswi', 'age': 16, 'altezza': 3.79, 'peso': 34, 'indirizzo': 'hyd',
'rollno': '003', 'name': 'gnanesh chowdary', 'age': 7, 'altezza': 2.79, 'peso': 17, 'indirizzo': 'patna',
'rollno': '004', 'name': 'rohith', 'age': 9, 'altezza': 3.69, 'peso': 28, 'indirizzo': 'hyd',
'rollno': '005', 'name': 'sridevi', 'age': 37, 'altezza': 5.59, 'peso': 54, 'indirizzo': 'hyd']
# Crea il frame dati
df = spark_app.CreatedataFrame (Students)
#display il frame dati
df.spettacolo()
Produzione:
Scenario 1: riorganizzare le colonne
In questo scenario, utilizzeremo solo il metodo seleziona () per ordinare/riorganizzare le colonne nel telaio di dati Pyspark fornito fornendo una colonna uno per una colonna.
Sintassi:
DataFrame.Seleziona ("Column1", ... "Colonna")
Dove:
Esempio:
In questo esempio, riorganizzeremo le colonne in questo ordine - "indirizzo", "altezza", "rollno", "nome", "peso" ed "età". Quindi, visualizza il metodo di dati utilizzando show ().
#import il modulo pyspark
importare pyspark
#IMPORT SPARKSESSION per la creazione di una sessione
da pyspark.SQL Importazione di importazione
#Crea un'app chiamata LinuxHint
Spark_app = SparkSession.costruttore.appname ('LinuxHint').getOrCreate ()
# Crea dati studenteschi con 5 righe e 6 attributi
Students = ['rollno': '001', 'name': 'sravan', 'age': 23, 'altezza': 5.79, "peso": 67, "indirizzo": "guntur",
'rollno': '002', 'name': 'ojaswi', 'age': 16, 'altezza': 3.79, 'peso': 34, 'indirizzo': 'hyd',
'rollno': '003', 'name': 'gnanesh chowdary', 'age': 7, 'altezza': 2.79, 'peso': 17, 'indirizzo': 'patna',
'rollno': '004', 'name': 'rohith', 'age': 9, 'altezza': 3.69, 'peso': 28, 'indirizzo': 'hyd',
'rollno': '005', 'name': 'sridevi', 'age': 37, 'altezza': 5.59, 'peso': 54, 'indirizzo': 'hyd']
# Crea il frame dati
df = spark_app.CreatedataFrame (Students)
#rearrange le colonne nell'ordine - "indirizzo", "altezza", "rollno", "nome", "peso", "età"
df = df.Seleziona ("Indirizzo", "altezza", "rollno", "nome", "peso", "età")
#dispay il frame dati
df.spettacolo()
Produzione:
Scenario 2: riorganizzare le colonne in ordine crescente
In questo scenario, utilizzeremo il metodo Ordined () insieme al metodo Select () per riorganizzare le colonne nell'ordine ascendente tramite metodo Ordined ().
Sintassi:
DataFrame.Seleziona (Ordinati (DataFrame.colonne, inversa = false))
Dove:
Esempio:
In questo esempio, riorganizzeremo le colonne in ordine crescente per visualizzare il metodo Show () di DataFrame utilizzando Show ().
#import il modulo pyspark
importare pyspark
#IMPORT SPARKSESSION per la creazione di una sessione
da pyspark.SQL Importazione di importazione
#importa la funzione Col
da pyspark.SQL.Funzioni importanti col
#Crea un'app chiamata LinuxHint
Spark_app = SparkSession.costruttore.appname ('LinuxHint').getOrCreate ()
# Crea dati studenteschi con 5 righe e 6 attributi
Students = ['rollno': '001', 'name': 'sravan', 'age': 23, 'altezza': 5.79, "peso": 67, "indirizzo": "guntur",
'rollno': '002', 'name': 'ojaswi', 'age': 16, 'altezza': 3.79, 'peso': 34, 'indirizzo': 'hyd',
'rollno': '003', 'name': 'gnanesh chowdary', 'age': 7, 'altezza': 2.79, 'peso': 17, 'indirizzo': 'patna',
'rollno': '004', 'name': 'rohith', 'age': 9, 'altezza': 3.69, 'peso': 28, 'indirizzo': 'hyd',
'rollno': '005', 'name': 'sridevi', 'age': 37, 'altezza': 5.59, 'peso': 54, 'indirizzo': 'hyd']
# Crea il frame dati
df = spark_app.CreatedataFrame (Students)
#rearrange le colonne in ordine crescente
df = df.Seleziona (ordinato (DF.colonne, inversa = false))
#dispay il frame dati
df.spettacolo()
Produzione:
Scenario 3: riorganizzare le colonne in ordine decrescente
In questo scenario, useremo il metodo Ordined () insieme al metodo Select () per riorganizzare le colonne nell'ordine decrescente tramite metodo Ordined ().
Sintassi:
DataFrame.Seleziona (Ordinati (DataFrame.colonne, inversa = true))
Dove:
Esempio:
In questo esempio, riorganizzeremo le colonne in ordine decrescente per visualizzare il metodo di dati utilizzando show ().
#import il modulo pyspark
importare pyspark
#IMPORT SPARKSESSION per la creazione di una sessione
da pyspark.SQL Importazione di importazione
#importa la funzione Col
da pyspark.SQL.Funzioni importanti col
#Crea un'app chiamata LinuxHint
Spark_app = SparkSession.costruttore.appname ('LinuxHint').getOrCreate ()
# Crea dati studenteschi con 5 righe e 6 attributi
Students = ['rollno': '001', 'name': 'sravan', 'age': 23, 'altezza': 5.79, "peso": 67, "indirizzo": "guntur",
'rollno': '002', 'name': 'ojaswi', 'age': 16, 'altezza': 3.79, 'peso': 34, 'indirizzo': 'hyd',
'rollno': '003', 'name': 'gnanesh chowdary', 'age': 7, 'altezza': 2.79, 'peso': 17, 'indirizzo': 'patna',
'rollno': '004', 'name': 'rohith', 'age': 9, 'altezza': 3.69, 'peso': 28, 'indirizzo': 'hyd',
'rollno': '005', 'name': 'sridevi', 'age': 37, 'altezza': 5.59, 'peso': 54, 'indirizzo': 'hyd']
# Crea il frame dati
df = spark_app.CreatedataFrame (Students)
#rearrange le colonne in ordine decrescente
df = df.Seleziona (ordinato (DF.colonne, inversa = true))
#dispay il frame dati
df.spettacolo()
Produzione:
Conclusione
In questo tutorial, abbiamo discusso di come riorganizzare le colonne in Pyspark DataFrame con tre scenari applicando il metodo Select (). Abbiamo usato il metodo Ordined () insieme al metodo Select () per riorganizzare le colonne.