Riorganizzare le colonne in Pyspark DataFrame

Riorganizzare le colonne in Pyspark DataFrame
In Python, Pyspark è un modulo Spark utilizzato per fornire un tipo di elaborazione simile come Spark utilizzando DataFrame.

Discuteremo diversi scenari per modificare l'ordine delle colonne in Pyspark DataFrame.

Per tutti gli scenari, stiamo usando il metodo Select (). Prima di passare agli scenari, creeremo prima Pyspark DataFrame.

Esempio:
Qui creeremo Pyspark DataFrame con 5 righe e 6 colonne.

#import il modulo pyspark
importare pyspark
#IMPORT SPARKSESSION per la creazione di una sessione
da pyspark.SQL Importazione di importazione
#Crea un'app chiamata LinuxHint
Spark_app = SparkSession.costruttore.appname ('LinuxHint').getOrCreate ()
# Crea dati studenteschi con 5 righe e 6 attributi
Students = ['rollno': '001', 'name': 'sravan', 'age': 23, 'altezza': 5.79, "peso": 67, "indirizzo": "guntur",
'rollno': '002', 'name': 'ojaswi', 'age': 16, 'altezza': 3.79, 'peso': 34, 'indirizzo': 'hyd',
'rollno': '003', 'name': 'gnanesh chowdary', 'age': 7, 'altezza': 2.79, 'peso': 17, 'indirizzo': 'patna',
'rollno': '004', 'name': 'rohith', 'age': 9, 'altezza': 3.69, 'peso': 28, 'indirizzo': 'hyd',
'rollno': '005', 'name': 'sridevi', 'age': 37, 'altezza': 5.59, 'peso': 54, 'indirizzo': 'hyd']
# Crea il frame dati
df = spark_app.CreatedataFrame (Students)
#display il frame dati
df.spettacolo()

Produzione:

Scenario 1: riorganizzare le colonne

In questo scenario, utilizzeremo solo il metodo seleziona () per ordinare/riorganizzare le colonne nel telaio di dati Pyspark fornito fornendo una colonna uno per una colonna.

Sintassi:
DataFrame.Seleziona ("Column1", ... "Colonna")

Dove:

  1. DataFrame è il Frame dati Pyspark input
  2. le colonne sono i nomi delle colonne da riorganizzare.

Esempio:
In questo esempio, riorganizzeremo le colonne in questo ordine - "indirizzo", "altezza", "rollno", "nome", "peso" ed "età". Quindi, visualizza il metodo di dati utilizzando show ().

#import il modulo pyspark
importare pyspark
#IMPORT SPARKSESSION per la creazione di una sessione
da pyspark.SQL Importazione di importazione
#Crea un'app chiamata LinuxHint
Spark_app = SparkSession.costruttore.appname ('LinuxHint').getOrCreate ()
# Crea dati studenteschi con 5 righe e 6 attributi
Students = ['rollno': '001', 'name': 'sravan', 'age': 23, 'altezza': 5.79, "peso": 67, "indirizzo": "guntur",
'rollno': '002', 'name': 'ojaswi', 'age': 16, 'altezza': 3.79, 'peso': 34, 'indirizzo': 'hyd',
'rollno': '003', 'name': 'gnanesh chowdary', 'age': 7, 'altezza': 2.79, 'peso': 17, 'indirizzo': 'patna',
'rollno': '004', 'name': 'rohith', 'age': 9, 'altezza': 3.69, 'peso': 28, 'indirizzo': 'hyd',
'rollno': '005', 'name': 'sridevi', 'age': 37, 'altezza': 5.59, 'peso': 54, 'indirizzo': 'hyd']
# Crea il frame dati
df = spark_app.CreatedataFrame (Students)
#rearrange le colonne nell'ordine - "indirizzo", "altezza", "rollno", "nome", "peso", "età"
df = df.Seleziona ("Indirizzo", "altezza", "rollno", "nome", "peso", "età")
#dispay il frame dati
df.spettacolo()

Produzione:

Scenario 2: riorganizzare le colonne in ordine crescente

In questo scenario, utilizzeremo il metodo Ordined () insieme al metodo Select () per riorganizzare le colonne nell'ordine ascendente tramite metodo Ordined ().

Sintassi:
DataFrame.Seleziona (Ordinati (DataFrame.colonne, inversa = false))

Dove:

  1. DataFrame è il Frame dati Pyspark input
  2. Sorted () è il metodo che ordinerà il frame dati in ordine crescente. Ci vorranno due parametri. Il primo parametro si riferisce al metodo delle colonne per selezionare tutte le colonne dal frame dati. Il secondo parametro viene utilizzato per riorganizzare il frame dati in ordine crescente se è impostato su false.

Esempio:
In questo esempio, riorganizzeremo le colonne in ordine crescente per visualizzare il metodo Show () di DataFrame utilizzando Show ().

#import il modulo pyspark
importare pyspark
#IMPORT SPARKSESSION per la creazione di una sessione
da pyspark.SQL Importazione di importazione
#importa la funzione Col
da pyspark.SQL.Funzioni importanti col
#Crea un'app chiamata LinuxHint
Spark_app = SparkSession.costruttore.appname ('LinuxHint').getOrCreate ()
# Crea dati studenteschi con 5 righe e 6 attributi
Students = ['rollno': '001', 'name': 'sravan', 'age': 23, 'altezza': 5.79, "peso": 67, "indirizzo": "guntur",
'rollno': '002', 'name': 'ojaswi', 'age': 16, 'altezza': 3.79, 'peso': 34, 'indirizzo': 'hyd',
'rollno': '003', 'name': 'gnanesh chowdary', 'age': 7, 'altezza': 2.79, 'peso': 17, 'indirizzo': 'patna',
'rollno': '004', 'name': 'rohith', 'age': 9, 'altezza': 3.69, 'peso': 28, 'indirizzo': 'hyd',
'rollno': '005', 'name': 'sridevi', 'age': 37, 'altezza': 5.59, 'peso': 54, 'indirizzo': 'hyd']
# Crea il frame dati
df = spark_app.CreatedataFrame (Students)
#rearrange le colonne in ordine crescente
df = df.Seleziona (ordinato (DF.colonne, inversa = false))
#dispay il frame dati
df.spettacolo()

Produzione:

Scenario 3: riorganizzare le colonne in ordine decrescente

In questo scenario, useremo il metodo Ordined () insieme al metodo Select () per riorganizzare le colonne nell'ordine decrescente tramite metodo Ordined ().

Sintassi:
DataFrame.Seleziona (Ordinati (DataFrame.colonne, inversa = true))

Dove:

  1. DataFrame è il Frame dati Pyspark input
  2. Sorted () è il metodo che ordinerà il frame dati in ordine crescente. Ci vorranno due parametri. Il primo parametro si riferisce al metodo delle colonne per selezionare tutte le colonne dal frame dati. Il secondo parametro viene utilizzato per riorganizzare il frame dati in ordine decrescente se è impostato su true.

Esempio:
In questo esempio, riorganizzeremo le colonne in ordine decrescente per visualizzare il metodo di dati utilizzando show ().

#import il modulo pyspark
importare pyspark
#IMPORT SPARKSESSION per la creazione di una sessione
da pyspark.SQL Importazione di importazione
#importa la funzione Col
da pyspark.SQL.Funzioni importanti col
#Crea un'app chiamata LinuxHint
Spark_app = SparkSession.costruttore.appname ('LinuxHint').getOrCreate ()
# Crea dati studenteschi con 5 righe e 6 attributi
Students = ['rollno': '001', 'name': 'sravan', 'age': 23, 'altezza': 5.79, "peso": 67, "indirizzo": "guntur",
'rollno': '002', 'name': 'ojaswi', 'age': 16, 'altezza': 3.79, 'peso': 34, 'indirizzo': 'hyd',
'rollno': '003', 'name': 'gnanesh chowdary', 'age': 7, 'altezza': 2.79, 'peso': 17, 'indirizzo': 'patna',
'rollno': '004', 'name': 'rohith', 'age': 9, 'altezza': 3.69, 'peso': 28, 'indirizzo': 'hyd',
'rollno': '005', 'name': 'sridevi', 'age': 37, 'altezza': 5.59, 'peso': 54, 'indirizzo': 'hyd']
# Crea il frame dati
df = spark_app.CreatedataFrame (Students)
#rearrange le colonne in ordine decrescente
df = df.Seleziona (ordinato (DF.colonne, inversa = true))
#dispay il frame dati
df.spettacolo()

Produzione:

Conclusione

In questo tutorial, abbiamo discusso di come riorganizzare le colonne in Pyspark DataFrame con tre scenari applicando il metodo Select (). Abbiamo usato il metodo Ordined () insieme al metodo Select () per riorganizzare le colonne.