Pyspark - Dropna

Pyspark - Dropna

In Python, Pyspark è un modulo Spark utilizzato per fornire un tipo di elaborazione simile come Spark utilizzando DataFrame.

dropna () in pyspark viene utilizzato per rimuovere i valori null dal frame dati. Prima di discutere di questo metodo, dobbiamo creare Frame Data Pyspark per la dimostrazione. Possiamo creare valori null usando nessuno valore.

Esempio:

Creeremo un frame dati con 5 righe e 6 colonne con valori null e visualizzeremo il metodo show ().

#import il modulo pyspark
importare pyspark
#IMPORT SPARKSESSION per la creazione di una sessione
da pyspark.SQL Importazione di importazione
#importa la funzione Col
da pyspark.SQL.Funzioni importanti col
#Crea un'app chiamata LinuxHint
Spark_app = SparkSession.costruttore.appname ('LinuxHint').getOrCreate ()
# Crea dati studenteschi con 5 righe e 6 attributi
Students = ['rollno': '001', 'name': 'sravan', 'age': 23, 'altezza': 5.79, "peso": 67, "indirizzo": "guntur",
'rollno': '002', 'name': no, 'age': 16, 'altezza': 3.79, 'peso': 34, 'indirizzo': 'hyd',
'rollno': '003', 'name': 'gnanesh chowdary', 'age': 56, 'altezza': 2.79, 'peso': 17,
'indirizzo': 'patna',
'rollno': nessuno, 'name': 'rohith', 'age': 9, 'altezza': 3.69, "peso": 28, "indirizzo": nessuno,
'rollno': none, 'name': no, 'age': no, 'height': nessuno, 'peso': nessuno, 'indirizzo': nessuno]
# Crea il frame dati
df = spark_app.CreatedataFrame (Students)
#display il frame dati
df.spettacolo()

Produzione:

Sintassi:

DataFrame.Dropna (come, treh, sottoinsieme)

Dove,

  1. DataFrame è il frame dati pyspark input
  2. Come è il primo parametro opzionale che richiederà due possibili valori
  1. Qualunque - Questo valore calma le righe, se uno qualsiasi del valore è nullo in righe/colonne.
  2. Tutto - Questo valore calma le righe, se tutti i valori sono nulli in righe/colonne.
  1. trebbiare è un secondo parametro opzionale viene utilizzato per eliminare le righe / colonne in base al valore intero assegnato. Se i valori non null presenti in riga/colonna del frame dati Pyspark sono inferiori al valore di soglia menzionato, i valori null possono essere eliminati da tali righe.
  2. sottoinsieme è un terzo parametro opzionale utilizzato per rilasciare i valori dalla colonna/s menzionata. Prenderà colonne singole/multiple come input attraverso una tupla di nomi di colonne.

Esempio 1:

In questo esempio, stiamo eliminando le righe dal telaio di dati sopra creato senza parametri e visualizzando il telaio di dati utilizzando il metodo show (). Quindi, il risultato sarà l'ultima riga perché non contiene valori nulli in quella riga.

#import il modulo pyspark
importare pyspark
#IMPORT SPARKSESSION per la creazione di una sessione
da pyspark.SQL Importazione di importazione
#importa la funzione Col
da pyspark.SQL.Funzioni importanti col
#Crea un'app chiamata LinuxHint
Spark_app = SparkSession.costruttore.appname ('LinuxHint').getOrCreate ()
# Crea dati studenteschi con 5 righe e 6 attributi
Students = ['rollno': '001', 'name': 'sravan', 'age': none, 'non, altezza': 5.79, 'peso': nessuno, 'indirizzo': 'guntur',
'rollno': '002', 'name': no, 'age': 16, 'altezza': 3.79, 'peso': 34, 'indirizzo': 'hyd',
'rollno': '003', 'name': 'gnanesh chowdary', 'age': 56, 'altezza': 2.79, 'peso': 17,
'indirizzo': 'patna',
'rollno': nessuno, 'name': 'rohith', 'age': 9, 'altezza': 3.69, "peso": 28, "indirizzo": nessuno,
'rollno': none, 'name': no, 'age': no, 'height': nessuno, 'peso': nessuno, 'indirizzo': nessuno]
# Crea il frame dati
df = spark_app.CreatedataFrame (Students)
#Drop il telaio dati senza parametri
df.dropna ().spettacolo()

Produzione:

Esempio 2:

In questo esempio, stiamo eliminando le righe dal telaio di dati superato sopra specificando come il parametro e set su "all" e visualizzando il frame dati utilizzando il metodo show (). Quindi, il risultato sarà tutte le righe tranne l'ultima riga perché contiene tutti i valori nulli.

#import il modulo pyspark
importare pyspark
#IMPORT SPARKSESSION per la creazione di una sessione
da pyspark.SQL Importazione di importazione
#importa la funzione Col
da pyspark.SQL.Funzioni importanti col
#Crea un'app chiamata LinuxHint
Spark_app = SparkSession.costruttore.appname ('LinuxHint').getOrCreate ()
# Crea dati studenteschi con 5 righe e 6 attributi
Students = ['rollno': '001', 'name': 'sravan', 'age': none, 'non, altezza': 5.79, 'peso': nessuno, 'indirizzo': 'guntur',
'rollno': '002', 'name': no, 'age': 16, 'altezza': 3.79, 'peso': 34, 'indirizzo': 'hyd',
'rollno': '003', 'name': 'gnanesh chowdary', 'age': 56, 'altezza': 2.79, 'peso': 17,
'indirizzo': 'patna',
'rollno': nessuno, 'name': 'rohith', 'age': 9, 'altezza': 3.69, "peso": 28, "indirizzo": nessuno,
'rollno': none, 'name': no, 'age': no, 'height': nessuno, 'peso': nessuno, 'indirizzo': nessuno]
# Crea il frame dati
df = spark_app.CreatedataFrame (Students)
#Drop il telaio di dati con come il parametro
df.dropna (how = 'all').spettacolo()

Produzione:

Esempio 3:

In questo esempio, stiamo eliminando le righe dal telaio di dati superato sopra specificando come il parametro e set su "qualsiasi" e visualizzando il frame dati utilizzando il metodo show (). Quindi, il risultato sarà una singola riga che non contiene valori nulli.

#import il modulo pyspark
importare pyspark
#IMPORT SPARKSESSION per la creazione di una sessione
da pyspark.SQL Importazione di importazione
#importa la funzione Col
da pyspark.SQL.Funzioni importanti col
#Crea un'app chiamata LinuxHint
Spark_app = SparkSession.costruttore.appname ('LinuxHint').getOrCreate ()
# Crea dati studenteschi con 5 righe e 6 attributi
Students = ['rollno': '001', 'name': 'sravan', 'age': none, 'non, altezza': 5.79, 'peso': nessuno, 'indirizzo': 'guntur',
'rollno': '002', 'name': no, 'age': 16, 'altezza': 3.79, 'peso': 34, 'indirizzo': 'hyd',
'rollno': '003', 'name': 'gnanesh chowdary', 'age': 56, 'altezza': 2.79, 'peso': 17,
'indirizzo': 'patna',
'rollno': nessuno, 'name': 'rohith', 'age': 9, 'altezza': 3.69, "peso": 28, "indirizzo": nessuno,
'rollno': none, 'name': no, 'age': no, 'height': nessuno, 'peso': nessuno, 'indirizzo': nessuno]
# Crea il frame dati
df = spark_app.CreatedataFrame (Students)
#Drop il telaio di dati con come il parametro
df.dropna (how = 'any').spettacolo()

Produzione:

Esempio 4:

In questo esempio, stiamo eliminando le righe dal telaio di dati superato sopra specificando il parametro di soglia e impostata su 5 e visualizzando il frame dati utilizzando il metodo show (). Quindi, il risultato sarà due righe, perché queste righe hanno maggiori di 5 valori non nulli.

#import il modulo pyspark
importare pyspark
#IMPORT SPARKSESSION per la creazione di una sessione
da pyspark.SQL Importazione di importazione
#importa la funzione Col
da pyspark.SQL.Funzioni importanti col
#Crea un'app chiamata LinuxHint
Spark_app = SparkSession.costruttore.appname ('LinuxHint').getOrCreate ()
# Crea dati studenteschi con 5 righe e 6 attributi
Students = ['rollno': '001', 'name': 'sravan', 'age': none, 'non, altezza': 5.79, 'peso': nessuno, 'indirizzo': 'guntur',
'rollno': '002', 'name': no, 'age': 16, 'altezza': 3.79, 'peso': 34, 'indirizzo': 'hyd',
'rollno': '003', 'name': 'gnanesh chowdary', 'age': 56, 'altezza': 2.79, 'peso': 17,
'indirizzo': 'patna',
'rollno': nessuno, 'name': 'rohith', 'age': 9, 'altezza': 3.69, "peso": 28, "indirizzo": nessuno,
'rollno': none, 'name': no, 'age': no, 'height': nessuno, 'peso': nessuno, 'indirizzo': nessuno]
# Crea il frame dati
df = spark_app.CreatedataFrame (Students)
#Drop Il telaio di dati con parametro Thresh
df.dropna (treh = 5).spettacolo()

Produzione:

Esempio 5:

In questo esempio, stiamo eliminando le righe dal telaio dati superato sopra specificando il parametro del sottoinsieme e assegniamo la colonna "peso" e visualizzando il telaio di dati utilizzando il metodo show ().

#import il modulo pyspark
importare pyspark
#IMPORT SPARKSESSION per la creazione di una sessione
da pyspark.SQL Importazione di importazione
#importa la funzione Col
da pyspark.SQL.Funzioni importanti col
#Crea un'app chiamata LinuxHint
Spark_app = SparkSession.costruttore.appname ('LinuxHint').getOrCreate ()
# Crea dati studenteschi con 5 righe e 6 attributi
Students = ['rollno': '001', 'name': 'sravan', 'age': none, 'non, altezza': 5.79, 'peso': nessuno, 'indirizzo': 'guntur',
'rollno': '002', 'name': no, 'age': 16, 'altezza': 3.79, 'peso': 34, 'indirizzo': 'hyd',
'rollno': '003', 'name': 'gnanesh chowdary', 'age': 56, 'altezza': 2.79, 'peso': 17,
'indirizzo': 'patna',
'rollno': nessuno, 'name': 'rohith', 'age': 9, 'altezza': 3.69, "peso": 28, "indirizzo": nessuno,
'rollno': none, 'name': no, 'age': no, 'height': nessuno, 'peso': nessuno, 'indirizzo': nessuno]
# Crea il frame dati
df = spark_app.CreatedataFrame (Students)
#Drop il telaio dati con parametro sottoinsieme
df.dropna (sottoinsieme = "peso").spettacolo()

Produzione:

Esempio 6:

In questo esempio, stiamo eliminando le righe dal telaio dati superato sopra specificando il parametro del sottoinsieme e assegniamo colonne "peso" e "nome" e visualizzando il telaio di dati utilizzando il metodo show ().

#import il modulo pyspark
importare pyspark
#IMPORT SPARKSESSION per la creazione di una sessione
da pyspark.SQL Importazione di importazione
#importa la funzione Col
da pyspark.SQL.Funzioni importanti col
#Crea un'app chiamata LinuxHint
Spark_app = SparkSession.costruttore.appname ('LinuxHint').getOrCreate ()
# Crea dati studenteschi con 5 righe e 6 attributi
Students = ['rollno': '001', 'name': 'sravan', 'age': none, 'non, altezza': 5.79, 'peso': nessuno, 'indirizzo': 'guntur',
'rollno': '002', 'name': no, 'age': 16, 'altezza': 3.79, 'peso': 34, 'indirizzo': 'hyd',
'rollno': '003', 'name': 'gnanesh chowdary', 'age': 56, 'altezza': 2.79, 'peso': 17,
'indirizzo': 'patna',
'rollno': nessuno, 'name': 'rohith', 'age': 9, 'altezza': 3.69, "peso": 28, "indirizzo": nessuno,
'rollno': none, 'name': no, 'age': no, 'height': nessuno, 'peso': nessuno, 'indirizzo': nessuno]
# Crea il frame dati
df = spark_app.CreatedataFrame (Students)
#Drop il telaio dati con parametro sottoinsieme
df.dropna (sottoinsieme = ("peso", "nome")).spettacolo()

Produzione:

Conclusione

In questo articolo, abbiamo elaborato come utilizzare il metodo Dropna () con PysPark DataFrame considerando tutti i parametri. Possiamo anche eliminare tutti i valori null dal frame dati senza specificare questi parametri.