In Python, Pyspark è un modulo Spark utilizzato per fornire un tipo di elaborazione simile come Spark utilizzando DataFrame.
dropna () in pyspark viene utilizzato per rimuovere i valori null dal frame dati. Prima di discutere di questo metodo, dobbiamo creare Frame Data Pyspark per la dimostrazione. Possiamo creare valori null usando nessuno valore.
Esempio:
Creeremo un frame dati con 5 righe e 6 colonne con valori null e visualizzeremo il metodo show ().
#import il modulo pyspark
importare pyspark
#IMPORT SPARKSESSION per la creazione di una sessione
da pyspark.SQL Importazione di importazione
#importa la funzione Col
da pyspark.SQL.Funzioni importanti col
#Crea un'app chiamata LinuxHint
Spark_app = SparkSession.costruttore.appname ('LinuxHint').getOrCreate ()
# Crea dati studenteschi con 5 righe e 6 attributi
Students = ['rollno': '001', 'name': 'sravan', 'age': 23, 'altezza': 5.79, "peso": 67, "indirizzo": "guntur",
'rollno': '002', 'name': no, 'age': 16, 'altezza': 3.79, 'peso': 34, 'indirizzo': 'hyd',
'rollno': '003', 'name': 'gnanesh chowdary', 'age': 56, 'altezza': 2.79, 'peso': 17,
'indirizzo': 'patna',
'rollno': nessuno, 'name': 'rohith', 'age': 9, 'altezza': 3.69, "peso": 28, "indirizzo": nessuno,
'rollno': none, 'name': no, 'age': no, 'height': nessuno, 'peso': nessuno, 'indirizzo': nessuno]
# Crea il frame dati
df = spark_app.CreatedataFrame (Students)
#display il frame dati
df.spettacolo()
Produzione:
Sintassi:
DataFrame.Dropna (come, treh, sottoinsieme)
Dove,
- DataFrame è il frame dati pyspark input
- Come è il primo parametro opzionale che richiederà due possibili valori
- Qualunque - Questo valore calma le righe, se uno qualsiasi del valore è nullo in righe/colonne.
- Tutto - Questo valore calma le righe, se tutti i valori sono nulli in righe/colonne.
- trebbiare è un secondo parametro opzionale viene utilizzato per eliminare le righe / colonne in base al valore intero assegnato. Se i valori non null presenti in riga/colonna del frame dati Pyspark sono inferiori al valore di soglia menzionato, i valori null possono essere eliminati da tali righe.
- sottoinsieme è un terzo parametro opzionale utilizzato per rilasciare i valori dalla colonna/s menzionata. Prenderà colonne singole/multiple come input attraverso una tupla di nomi di colonne.
Esempio 1:
In questo esempio, stiamo eliminando le righe dal telaio di dati sopra creato senza parametri e visualizzando il telaio di dati utilizzando il metodo show (). Quindi, il risultato sarà l'ultima riga perché non contiene valori nulli in quella riga.
#import il modulo pyspark
importare pyspark
#IMPORT SPARKSESSION per la creazione di una sessione
da pyspark.SQL Importazione di importazione
#importa la funzione Col
da pyspark.SQL.Funzioni importanti col
#Crea un'app chiamata LinuxHint
Spark_app = SparkSession.costruttore.appname ('LinuxHint').getOrCreate ()
# Crea dati studenteschi con 5 righe e 6 attributi
Students = ['rollno': '001', 'name': 'sravan', 'age': none, 'non, altezza': 5.79, 'peso': nessuno, 'indirizzo': 'guntur',
'rollno': '002', 'name': no, 'age': 16, 'altezza': 3.79, 'peso': 34, 'indirizzo': 'hyd',
'rollno': '003', 'name': 'gnanesh chowdary', 'age': 56, 'altezza': 2.79, 'peso': 17,
'indirizzo': 'patna',
'rollno': nessuno, 'name': 'rohith', 'age': 9, 'altezza': 3.69, "peso": 28, "indirizzo": nessuno,
'rollno': none, 'name': no, 'age': no, 'height': nessuno, 'peso': nessuno, 'indirizzo': nessuno]
# Crea il frame dati
df = spark_app.CreatedataFrame (Students)
#Drop il telaio dati senza parametri
df.dropna ().spettacolo()
Produzione:
Esempio 2:
In questo esempio, stiamo eliminando le righe dal telaio di dati superato sopra specificando come il parametro e set su "all" e visualizzando il frame dati utilizzando il metodo show (). Quindi, il risultato sarà tutte le righe tranne l'ultima riga perché contiene tutti i valori nulli.
#import il modulo pyspark
importare pyspark
#IMPORT SPARKSESSION per la creazione di una sessione
da pyspark.SQL Importazione di importazione
#importa la funzione Col
da pyspark.SQL.Funzioni importanti col
#Crea un'app chiamata LinuxHint
Spark_app = SparkSession.costruttore.appname ('LinuxHint').getOrCreate ()
# Crea dati studenteschi con 5 righe e 6 attributi
Students = ['rollno': '001', 'name': 'sravan', 'age': none, 'non, altezza': 5.79, 'peso': nessuno, 'indirizzo': 'guntur',
'rollno': '002', 'name': no, 'age': 16, 'altezza': 3.79, 'peso': 34, 'indirizzo': 'hyd',
'rollno': '003', 'name': 'gnanesh chowdary', 'age': 56, 'altezza': 2.79, 'peso': 17,
'indirizzo': 'patna',
'rollno': nessuno, 'name': 'rohith', 'age': 9, 'altezza': 3.69, "peso": 28, "indirizzo": nessuno,
'rollno': none, 'name': no, 'age': no, 'height': nessuno, 'peso': nessuno, 'indirizzo': nessuno]
# Crea il frame dati
df = spark_app.CreatedataFrame (Students)
#Drop il telaio di dati con come il parametro
df.dropna (how = 'all').spettacolo()
Produzione:
Esempio 3:
In questo esempio, stiamo eliminando le righe dal telaio di dati superato sopra specificando come il parametro e set su "qualsiasi" e visualizzando il frame dati utilizzando il metodo show (). Quindi, il risultato sarà una singola riga che non contiene valori nulli.
#import il modulo pyspark
importare pyspark
#IMPORT SPARKSESSION per la creazione di una sessione
da pyspark.SQL Importazione di importazione
#importa la funzione Col
da pyspark.SQL.Funzioni importanti col
#Crea un'app chiamata LinuxHint
Spark_app = SparkSession.costruttore.appname ('LinuxHint').getOrCreate ()
# Crea dati studenteschi con 5 righe e 6 attributi
Students = ['rollno': '001', 'name': 'sravan', 'age': none, 'non, altezza': 5.79, 'peso': nessuno, 'indirizzo': 'guntur',
'rollno': '002', 'name': no, 'age': 16, 'altezza': 3.79, 'peso': 34, 'indirizzo': 'hyd',
'rollno': '003', 'name': 'gnanesh chowdary', 'age': 56, 'altezza': 2.79, 'peso': 17,
'indirizzo': 'patna',
'rollno': nessuno, 'name': 'rohith', 'age': 9, 'altezza': 3.69, "peso": 28, "indirizzo": nessuno,
'rollno': none, 'name': no, 'age': no, 'height': nessuno, 'peso': nessuno, 'indirizzo': nessuno]
# Crea il frame dati
df = spark_app.CreatedataFrame (Students)
#Drop il telaio di dati con come il parametro
df.dropna (how = 'any').spettacolo()
Produzione:
Esempio 4:
In questo esempio, stiamo eliminando le righe dal telaio di dati superato sopra specificando il parametro di soglia e impostata su 5 e visualizzando il frame dati utilizzando il metodo show (). Quindi, il risultato sarà due righe, perché queste righe hanno maggiori di 5 valori non nulli.
#import il modulo pyspark
importare pyspark
#IMPORT SPARKSESSION per la creazione di una sessione
da pyspark.SQL Importazione di importazione
#importa la funzione Col
da pyspark.SQL.Funzioni importanti col
#Crea un'app chiamata LinuxHint
Spark_app = SparkSession.costruttore.appname ('LinuxHint').getOrCreate ()
# Crea dati studenteschi con 5 righe e 6 attributi
Students = ['rollno': '001', 'name': 'sravan', 'age': none, 'non, altezza': 5.79, 'peso': nessuno, 'indirizzo': 'guntur',
'rollno': '002', 'name': no, 'age': 16, 'altezza': 3.79, 'peso': 34, 'indirizzo': 'hyd',
'rollno': '003', 'name': 'gnanesh chowdary', 'age': 56, 'altezza': 2.79, 'peso': 17,
'indirizzo': 'patna',
'rollno': nessuno, 'name': 'rohith', 'age': 9, 'altezza': 3.69, "peso": 28, "indirizzo": nessuno,
'rollno': none, 'name': no, 'age': no, 'height': nessuno, 'peso': nessuno, 'indirizzo': nessuno]
# Crea il frame dati
df = spark_app.CreatedataFrame (Students)
#Drop Il telaio di dati con parametro Thresh
df.dropna (treh = 5).spettacolo()
Produzione:
Esempio 5:
In questo esempio, stiamo eliminando le righe dal telaio dati superato sopra specificando il parametro del sottoinsieme e assegniamo la colonna "peso" e visualizzando il telaio di dati utilizzando il metodo show ().
#import il modulo pyspark
importare pyspark
#IMPORT SPARKSESSION per la creazione di una sessione
da pyspark.SQL Importazione di importazione
#importa la funzione Col
da pyspark.SQL.Funzioni importanti col
#Crea un'app chiamata LinuxHint
Spark_app = SparkSession.costruttore.appname ('LinuxHint').getOrCreate ()
# Crea dati studenteschi con 5 righe e 6 attributi
Students = ['rollno': '001', 'name': 'sravan', 'age': none, 'non, altezza': 5.79, 'peso': nessuno, 'indirizzo': 'guntur',
'rollno': '002', 'name': no, 'age': 16, 'altezza': 3.79, 'peso': 34, 'indirizzo': 'hyd',
'rollno': '003', 'name': 'gnanesh chowdary', 'age': 56, 'altezza': 2.79, 'peso': 17,
'indirizzo': 'patna',
'rollno': nessuno, 'name': 'rohith', 'age': 9, 'altezza': 3.69, "peso": 28, "indirizzo": nessuno,
'rollno': none, 'name': no, 'age': no, 'height': nessuno, 'peso': nessuno, 'indirizzo': nessuno]
# Crea il frame dati
df = spark_app.CreatedataFrame (Students)
#Drop il telaio dati con parametro sottoinsieme
df.dropna (sottoinsieme = "peso").spettacolo()
Produzione:
Esempio 6:
In questo esempio, stiamo eliminando le righe dal telaio dati superato sopra specificando il parametro del sottoinsieme e assegniamo colonne "peso" e "nome" e visualizzando il telaio di dati utilizzando il metodo show ().
#import il modulo pyspark
importare pyspark
#IMPORT SPARKSESSION per la creazione di una sessione
da pyspark.SQL Importazione di importazione
#importa la funzione Col
da pyspark.SQL.Funzioni importanti col
#Crea un'app chiamata LinuxHint
Spark_app = SparkSession.costruttore.appname ('LinuxHint').getOrCreate ()
# Crea dati studenteschi con 5 righe e 6 attributi
Students = ['rollno': '001', 'name': 'sravan', 'age': none, 'non, altezza': 5.79, 'peso': nessuno, 'indirizzo': 'guntur',
'rollno': '002', 'name': no, 'age': 16, 'altezza': 3.79, 'peso': 34, 'indirizzo': 'hyd',
'rollno': '003', 'name': 'gnanesh chowdary', 'age': 56, 'altezza': 2.79, 'peso': 17,
'indirizzo': 'patna',
'rollno': nessuno, 'name': 'rohith', 'age': 9, 'altezza': 3.69, "peso": 28, "indirizzo": nessuno,
'rollno': none, 'name': no, 'age': no, 'height': nessuno, 'peso': nessuno, 'indirizzo': nessuno]
# Crea il frame dati
df = spark_app.CreatedataFrame (Students)
#Drop il telaio dati con parametro sottoinsieme
df.dropna (sottoinsieme = ("peso", "nome")).spettacolo()
Produzione:
Conclusione
In questo articolo, abbiamo elaborato come utilizzare il metodo Dropna () con PysPark DataFrame considerando tutti i parametri. Possiamo anche eliminare tutti i valori null dal frame dati senza specificare questi parametri.