Pyspark - drop, drop colonna

Nestore Caruso

In Python, Pyspark è un modulo Spark utilizzato per fornire un tipo di elaborazione simile come Spark utilizzando DataFrame. drop () in pyspark viene utilizzato per rimuovere le colonne dal frame dati. Usando Drop (), possiamo rimuovere più di una colonna alla volta nel Frame dati Pyspark. Possiamo abbandonare le colonne dal frame dati in tre modi. Prima di allora, dobbiamo creare il telaio di dati pyspark per la dimostrazione.

Esempio:

Creeremo un frame dati con 5 righe e 6 colonne e lo mostreremo usando il metodo show ().

#import il modulo pyspark
importare pyspark
#IMPORT SPARKSESSION per la creazione di una sessione
da pyspark.SQL Importazione di importazione
#Crea un'app chiamata LinuxHint
Spark_app = SparkSession.costruttore.appname ('LinuxHint').getOrCreate ()
# Crea dati studenteschi con 5 righe e 6 attributi
Students = ['rollno': '001', 'name': 'sravan', 'age': 23, 'altezza': 5.79, "peso": 67, "indirizzo": "guntur",
'rollno': '002', 'name': 'ojaswi', 'age': 16, 'altezza': 3.79, 'peso': 34, 'indirizzo': 'hyd',
'rollno': '003', 'name': 'gnanesh chowdary', 'age': 7, 'altezza': 2.79, 'peso': 17, 'indirizzo': 'patna',
'rollno': '004', 'name': 'rohith', 'age': 9, 'altezza': 3.69, 'peso': 28, 'indirizzo': 'hyd',
'rollno': '005', 'name': 'sridevi', 'age': 37, 'altezza': 5.59, 'peso': 54, 'indirizzo': 'hyd']
# Crea il frame dati
df = spark_app.CreatedataFrame (Students)
#Display DataFrame
df.spettacolo()

Produzione:

Ora, visualizza lo schema di dati dati utilizzando il metodo Printschema () per controllare le colonne prima di rimuovere le colonne.

Questo metodo restituirà i nomi delle colonne insieme al loro tipo di dati.

#import il modulo pyspark
importare pyspark
#IMPORT SPARKSESSION per la creazione di una sessione
da pyspark.SQL Importazione di importazione
#Import the CountFunction
da pyspark.SQL.Funzioni Conteggio delle importazioni
#Crea un'app chiamata LinuxHint
Spark_app = SparkSession.costruttore.appname ('LinuxHint').getOrCreate ()
# Crea dati studenteschi con 5 righe e 6 attributi
Students = ['rollno': '001', 'name': 'sravan', 'age': 23, 'altezza': 5.79, "peso": 67, "indirizzo": "guntur",
'rollno': '002', 'name': 'ojaswi', 'age': 16, 'altezza': 3.79, 'peso': 34, 'indirizzo': 'hyd',
'rollno': '003', 'name': 'gnanesh chowdary', 'age': 7, 'altezza': 2.79, 'peso': 17, 'indirizzo': 'patna',
'rollno': '004', 'name': 'rohith', 'age': 9, 'altezza': 3.69, 'peso': 28, 'indirizzo': 'hyd',
'rollno': '005', 'name': 'sridevi', 'age': 37, 'altezza': 5.59, 'peso': 54, 'indirizzo': 'hyd']
# Crea il frame dati
df = spark_app.CreatedataFrame (Students)
#display lo schema
df.printschema ()

Produzione:

Metodo -1: drop singolo colonna

Rimuoveremo una sola colonna alla volta usando la funzione Drop () passando la colonna all'interno della funzione Drop.

Sintassi:

df.drop ('column_name')

Dove,

DF è il frame dati pyspark input
column_name è la colonna da far cadere.

Esempio :

In questo esempio, elimineremo la colonna del nome e visualizzeremo il frame dati risultante e lo schema.

Produzione:

[Riga (indirizzo = 'guntur', età = 23, altezza = 5.79, rollno = '001', peso = 67), riga (indirizzo = 'hyd', età = 16, altezza = 3.79, rollno = '002', peso = 34), riga (indirizzo = 'patna', età = 7, altezza = 2.79, rollno = '003', peso = 17), riga (indirizzo = 'hyd', età = 9, altezza = 3.69, rollno = '004', peso = 28), riga (indirizzo = 'hyd', età = 37, altezza = 5.59, rollno = '005', peso = 54)]
radice
|- Indirizzo: String (Nullable = True)
|- Age: Long (Nullable = True)
|- altezza: doppio (nulllable = true)
|- rollno: string (nulllable = true)
|- Peso: lungo (Nullable = True)

Nell'esempio sopra, vedremo che la colonna Nome non è presente nel frame dati

Metodo - 2: drop mutiple colonne

Rimuoveremo una sola colonna alla volta usando la funzione Drop () passando la colonna all'interno della funzione Drop. Se dobbiamo rimuovere più colonne, dobbiamo aggiungere * prima dei nomi delle colonne da rimuovere all'interno ().

Sintassi:

df.drop (*('column_name', 'column_name',…, 'column_name'))

Dove,

DF è il frame dati pyspark input
column_name è la colonna da far cadere.

Esempio :

In questo esempio, elimineremo le colonne di nome, altezza e peso e visualizzeremo il frame dati risultante insieme allo schema.

Produzione:

[Riga (indirizzo = 'guntur', età = 23, rollno = '001'), riga (indirizzo = 'hyd', età = 16, rollno = '002'), riga (indirizzo = 'patna', età = 7 , rollno = '003'), riga (indirizzo = 'hyd', età = 9, rollno = '004'), riga (indirizzo = 'hyd', età = 37, rollno = '005')]
radice
|- Indirizzo: String (Nullable = True)
|- Age: Long (Nullable = True)
|- rollno: string (nulllable = true)

Nell'esempio sopra, vedremo che il nome, l'altezza e le colonne di peso non sono presenti nel frame dati.

Metodo - 3: drop mutiple colonne da un elenco

Sintassi:

df.drop (*elenco)

Qui, l'elenco avrà più colonne

list = (column_name ',' column_name ',…,' column_name ')

Dove,

DF è il frame dati pyspark input
column_name è la colonna da far cadere.

Esempio :

In questo esempio, abbandoneremo le colonne del nome, dell'altezza e del peso tramite List1 e visualizzeremo il frame dati risultante insieme allo schema.

Produzione:

Nell'esempio sopra, vedremo che il nome, l'altezza e le colonne di peso non sono presenti nel frame dati.

Conclusione:

Abbiamo discusso di come abbandonare le colonne usando la funzione Drop () e abbiamo anche discusso di come rimuovere più colonne alla volta con Drop passando un elenco di colonne e passando più colonne.

Pitone

Python Chmod

Il sistema operativo.La funzione chmod () del modulo OS viene utilizzata per modificare la proprietà...

Dr. Evita Damico

Docker

Qual è lo scopo di una doccia.File YML in Docker?

Lo scopo principale di un docker.Il file YML è quello di semplificare il processo di distribuzione e...

Artemide Ricci

OS Windows

Qual è la differenza tra Windows Top 10 Home e Pro

La versione Pro è per gli utenti professionisti e ha più strumenti amministrativi, mentre la version...

Cristyn De Santis