Pyspark - Dropna

Nestore Caruso

In Python, Pyspark è un modulo Spark utilizzato per fornire un tipo di elaborazione simile come Spark utilizzando DataFrame.

dropna () in pyspark viene utilizzato per rimuovere i valori null dal frame dati. Prima di discutere di questo metodo, dobbiamo creare Frame Data Pyspark per la dimostrazione. Possiamo creare valori null usando nessuno valore.

Esempio:

Creeremo un frame dati con 5 righe e 6 colonne con valori null e visualizzeremo il metodo show ().

#import il modulo pyspark
importare pyspark
#IMPORT SPARKSESSION per la creazione di una sessione
da pyspark.SQL Importazione di importazione
#importa la funzione Col
da pyspark.SQL.Funzioni importanti col
#Crea un'app chiamata LinuxHint
Spark_app = SparkSession.costruttore.appname ('LinuxHint').getOrCreate ()
# Crea dati studenteschi con 5 righe e 6 attributi
Students = ['rollno': '001', 'name': 'sravan', 'age': 23, 'altezza': 5.79, "peso": 67, "indirizzo": "guntur",
'rollno': '002', 'name': no, 'age': 16, 'altezza': 3.79, 'peso': 34, 'indirizzo': 'hyd',
'rollno': '003', 'name': 'gnanesh chowdary', 'age': 56, 'altezza': 2.79, 'peso': 17,
'indirizzo': 'patna',
'rollno': nessuno, 'name': 'rohith', 'age': 9, 'altezza': 3.69, "peso": 28, "indirizzo": nessuno,
'rollno': none, 'name': no, 'age': no, 'height': nessuno, 'peso': nessuno, 'indirizzo': nessuno]
# Crea il frame dati
df = spark_app.CreatedataFrame (Students)
#display il frame dati
df.spettacolo()

Produzione:

Sintassi:

DataFrame.Dropna (come, treh, sottoinsieme)

Dove,

DataFrame è il frame dati pyspark input
Come è il primo parametro opzionale che richiederà due possibili valori

Qualunque - Questo valore calma le righe, se uno qualsiasi del valore è nullo in righe/colonne.
Tutto - Questo valore calma le righe, se tutti i valori sono nulli in righe/colonne.

trebbiare è un secondo parametro opzionale viene utilizzato per eliminare le righe / colonne in base al valore intero assegnato. Se i valori non null presenti in riga/colonna del frame dati Pyspark sono inferiori al valore di soglia menzionato, i valori null possono essere eliminati da tali righe.
sottoinsieme è un terzo parametro opzionale utilizzato per rilasciare i valori dalla colonna/s menzionata. Prenderà colonne singole/multiple come input attraverso una tupla di nomi di colonne.

Esempio 1:

In questo esempio, stiamo eliminando le righe dal telaio di dati sopra creato senza parametri e visualizzando il telaio di dati utilizzando il metodo show (). Quindi, il risultato sarà l'ultima riga perché non contiene valori nulli in quella riga.

#import il modulo pyspark
importare pyspark
#IMPORT SPARKSESSION per la creazione di una sessione
da pyspark.SQL Importazione di importazione
#importa la funzione Col
da pyspark.SQL.Funzioni importanti col
#Crea un'app chiamata LinuxHint
Spark_app = SparkSession.costruttore.appname ('LinuxHint').getOrCreate ()
# Crea dati studenteschi con 5 righe e 6 attributi
Students = ['rollno': '001', 'name': 'sravan', 'age': none, 'non, altezza': 5.79, 'peso': nessuno, 'indirizzo': 'guntur',
'rollno': '002', 'name': no, 'age': 16, 'altezza': 3.79, 'peso': 34, 'indirizzo': 'hyd',
'rollno': '003', 'name': 'gnanesh chowdary', 'age': 56, 'altezza': 2.79, 'peso': 17,
'indirizzo': 'patna',
'rollno': nessuno, 'name': 'rohith', 'age': 9, 'altezza': 3.69, "peso": 28, "indirizzo": nessuno,
'rollno': none, 'name': no, 'age': no, 'height': nessuno, 'peso': nessuno, 'indirizzo': nessuno]
# Crea il frame dati
df = spark_app.CreatedataFrame (Students)
#Drop il telaio dati senza parametri
df.dropna ().spettacolo()

Produzione:

Esempio 2:

In questo esempio, stiamo eliminando le righe dal telaio di dati superato sopra specificando come il parametro e set su "all" e visualizzando il frame dati utilizzando il metodo show (). Quindi, il risultato sarà tutte le righe tranne l'ultima riga perché contiene tutti i valori nulli.

#import il modulo pyspark
importare pyspark
#IMPORT SPARKSESSION per la creazione di una sessione
da pyspark.SQL Importazione di importazione
#importa la funzione Col
da pyspark.SQL.Funzioni importanti col
#Crea un'app chiamata LinuxHint
Spark_app = SparkSession.costruttore.appname ('LinuxHint').getOrCreate ()
# Crea dati studenteschi con 5 righe e 6 attributi
Students = ['rollno': '001', 'name': 'sravan', 'age': none, 'non, altezza': 5.79, 'peso': nessuno, 'indirizzo': 'guntur',
'rollno': '002', 'name': no, 'age': 16, 'altezza': 3.79, 'peso': 34, 'indirizzo': 'hyd',
'rollno': '003', 'name': 'gnanesh chowdary', 'age': 56, 'altezza': 2.79, 'peso': 17,
'indirizzo': 'patna',
'rollno': nessuno, 'name': 'rohith', 'age': 9, 'altezza': 3.69, "peso": 28, "indirizzo": nessuno,
'rollno': none, 'name': no, 'age': no, 'height': nessuno, 'peso': nessuno, 'indirizzo': nessuno]
# Crea il frame dati
df = spark_app.CreatedataFrame (Students)
#Drop il telaio di dati con come il parametro
df.dropna (how = 'all').spettacolo()

Produzione:

Esempio 3:

In questo esempio, stiamo eliminando le righe dal telaio di dati superato sopra specificando come il parametro e set su "qualsiasi" e visualizzando il frame dati utilizzando il metodo show (). Quindi, il risultato sarà una singola riga che non contiene valori nulli.

#import il modulo pyspark
importare pyspark
#IMPORT SPARKSESSION per la creazione di una sessione
da pyspark.SQL Importazione di importazione
#importa la funzione Col
da pyspark.SQL.Funzioni importanti col
#Crea un'app chiamata LinuxHint
Spark_app = SparkSession.costruttore.appname ('LinuxHint').getOrCreate ()
# Crea dati studenteschi con 5 righe e 6 attributi
Students = ['rollno': '001', 'name': 'sravan', 'age': none, 'non, altezza': 5.79, 'peso': nessuno, 'indirizzo': 'guntur',
'rollno': '002', 'name': no, 'age': 16, 'altezza': 3.79, 'peso': 34, 'indirizzo': 'hyd',
'rollno': '003', 'name': 'gnanesh chowdary', 'age': 56, 'altezza': 2.79, 'peso': 17,
'indirizzo': 'patna',
'rollno': nessuno, 'name': 'rohith', 'age': 9, 'altezza': 3.69, "peso": 28, "indirizzo": nessuno,
'rollno': none, 'name': no, 'age': no, 'height': nessuno, 'peso': nessuno, 'indirizzo': nessuno]
# Crea il frame dati
df = spark_app.CreatedataFrame (Students)
#Drop il telaio di dati con come il parametro
df.dropna (how = 'any').spettacolo()

Produzione:

Esempio 4:

In questo esempio, stiamo eliminando le righe dal telaio di dati superato sopra specificando il parametro di soglia e impostata su 5 e visualizzando il frame dati utilizzando il metodo show (). Quindi, il risultato sarà due righe, perché queste righe hanno maggiori di 5 valori non nulli.

#import il modulo pyspark
importare pyspark
#IMPORT SPARKSESSION per la creazione di una sessione
da pyspark.SQL Importazione di importazione
#importa la funzione Col
da pyspark.SQL.Funzioni importanti col
#Crea un'app chiamata LinuxHint
Spark_app = SparkSession.costruttore.appname ('LinuxHint').getOrCreate ()
# Crea dati studenteschi con 5 righe e 6 attributi
Students = ['rollno': '001', 'name': 'sravan', 'age': none, 'non, altezza': 5.79, 'peso': nessuno, 'indirizzo': 'guntur',
'rollno': '002', 'name': no, 'age': 16, 'altezza': 3.79, 'peso': 34, 'indirizzo': 'hyd',
'rollno': '003', 'name': 'gnanesh chowdary', 'age': 56, 'altezza': 2.79, 'peso': 17,
'indirizzo': 'patna',
'rollno': nessuno, 'name': 'rohith', 'age': 9, 'altezza': 3.69, "peso": 28, "indirizzo": nessuno,
'rollno': none, 'name': no, 'age': no, 'height': nessuno, 'peso': nessuno, 'indirizzo': nessuno]
# Crea il frame dati
df = spark_app.CreatedataFrame (Students)
#Drop Il telaio di dati con parametro Thresh
df.dropna (treh = 5).spettacolo()

Produzione:

Esempio 5:

In questo esempio, stiamo eliminando le righe dal telaio dati superato sopra specificando il parametro del sottoinsieme e assegniamo la colonna "peso" e visualizzando il telaio di dati utilizzando il metodo show ().

#import il modulo pyspark
importare pyspark
#IMPORT SPARKSESSION per la creazione di una sessione
da pyspark.SQL Importazione di importazione
#importa la funzione Col
da pyspark.SQL.Funzioni importanti col
#Crea un'app chiamata LinuxHint
Spark_app = SparkSession.costruttore.appname ('LinuxHint').getOrCreate ()
# Crea dati studenteschi con 5 righe e 6 attributi
Students = ['rollno': '001', 'name': 'sravan', 'age': none, 'non, altezza': 5.79, 'peso': nessuno, 'indirizzo': 'guntur',
'rollno': '002', 'name': no, 'age': 16, 'altezza': 3.79, 'peso': 34, 'indirizzo': 'hyd',
'rollno': '003', 'name': 'gnanesh chowdary', 'age': 56, 'altezza': 2.79, 'peso': 17,
'indirizzo': 'patna',
'rollno': nessuno, 'name': 'rohith', 'age': 9, 'altezza': 3.69, "peso": 28, "indirizzo": nessuno,
'rollno': none, 'name': no, 'age': no, 'height': nessuno, 'peso': nessuno, 'indirizzo': nessuno]
# Crea il frame dati
df = spark_app.CreatedataFrame (Students)
#Drop il telaio dati con parametro sottoinsieme
df.dropna (sottoinsieme = "peso").spettacolo()

Produzione:

Esempio 6:

In questo esempio, stiamo eliminando le righe dal telaio dati superato sopra specificando il parametro del sottoinsieme e assegniamo colonne "peso" e "nome" e visualizzando il telaio di dati utilizzando il metodo show ().

#import il modulo pyspark
importare pyspark
#IMPORT SPARKSESSION per la creazione di una sessione
da pyspark.SQL Importazione di importazione
#importa la funzione Col
da pyspark.SQL.Funzioni importanti col
#Crea un'app chiamata LinuxHint
Spark_app = SparkSession.costruttore.appname ('LinuxHint').getOrCreate ()
# Crea dati studenteschi con 5 righe e 6 attributi
Students = ['rollno': '001', 'name': 'sravan', 'age': none, 'non, altezza': 5.79, 'peso': nessuno, 'indirizzo': 'guntur',
'rollno': '002', 'name': no, 'age': 16, 'altezza': 3.79, 'peso': 34, 'indirizzo': 'hyd',
'rollno': '003', 'name': 'gnanesh chowdary', 'age': 56, 'altezza': 2.79, 'peso': 17,
'indirizzo': 'patna',
'rollno': nessuno, 'name': 'rohith', 'age': 9, 'altezza': 3.69, "peso": 28, "indirizzo": nessuno,
'rollno': none, 'name': no, 'age': no, 'height': nessuno, 'peso': nessuno, 'indirizzo': nessuno]
# Crea il frame dati
df = spark_app.CreatedataFrame (Students)
#Drop il telaio dati con parametro sottoinsieme
df.dropna (sottoinsieme = ("peso", "nome")).spettacolo()

Produzione:

Conclusione

In questo articolo, abbiamo elaborato come utilizzare il metodo Dropna () con PysPark DataFrame considerando tutti i parametri. Possiamo anche eliminare tutti i valori null dal frame dati senza specificare questi parametri.

Docker

Cos'è il bind Docker Bind?

Un supporto Docker Bind è un tipo di supporto che consente agli utenti di mappare una directory o un...

Cristyn De Santis

Docker

Come vengono definiti i volumi in Docker composi yaml?

I volumi sono definiti utilizzando il tasto Volumi nel file YAML di Docker. Gli utenti possono defin...

Nunzia Martini

Sqlite

Come utilizzare l'app Web SQLite Viewer

L'app Web SQLite Viewer fornisce funzionalità eccellenti per visualizzare i database SQLite online s...

Sig. Valdo Marchetti