Pyspark - Pandas DataFrame isna, notna, notnull

Pyspark - Pandas DataFrame isna, notna, notnull
“In Python, Pyspark è un modulo Spark utilizzato per fornire un tipo di elaborazione simile come Spark usando DataFrame, che memorizzerà i dati forniti in formato di riga e colonna.

PysPark - Pandas DataFrame rappresenta il Frame Data Pandas, ma contiene il Frame dati PysPark internamente.

Panda Support DataFrame Data Structure e Panda viene importato dal modulo PysPark.

Prima di allora, devi installare il modulo PysPark."

Comando

PIP Installa Pyspark

Sintassi all'importazione

da Pyspark Import Panda

Successivamente, possiamo creare o utilizzare il frame dati dal modulo Pandas.

Sintassi per creare Pandas DataFrame:

pyspark.panda.DataFrame ()

Possiamo passare un dizionario o un elenco di elenchi con valori.

Creiamo un frame dati Pandas tramite Pyspark che ha quattro colonne e cinque righe.

#import panda dal modulo pyspark
da Pyspark Import Panda
#Crea DataFrame da Pandas Pyspark
pyspark_pandas = pandas.DataFrame ('Student_LastName': ['Manasa', None, 'Lehara', 'Kapila', 'Hyna'], 'Mark1': [90, None, None, 54,67], 'Mark2': [100, 67,96,89, nessuno], 'mark3': [91,92,98,97,87])
Print (pyspark_pandas)

Produzione

Ora andremo nel nostro tutorial.

Le funzioni di isna (), notna () e notnull () vengono utilizzate per verificare se non si sono verificati valori non si sono verificati in Pyspark Panda DataFrame. Sono rappresentati da NAN (non un numero); In Python, possiamo crearli usando nessuno.

Vediamoli uno per uno.

pyspark.panda.DataFrame.isna

isna viene utilizzato per verificare se il valore è nullo. Se è nullo, restituirà vero a quel valore. Altrimenti, restituisce falso. Non ci vogliono parametri.

Sintassi

pyspark_pandas.isna

Dove pyspark_pandas è il frame dati Pyspark Pandas.

Possiamo anche controllare in particolare colonne.

Sintassi

pyspark_pandas.colonna.isna

Dove la colonna è il nome della colonna.

Esempio 1
In questo esempio, verificheremo i valori NAN nella colonna Mark1 usando ISNA.

#import panda dal modulo pyspark
da Pyspark Import Panda
#Crea DataFrame da Pandas Pyspark
pyspark_pandas = pandas.DataFrame ('Student_LastName': ['Manasa', None, 'Lehara', 'Kapila', 'Hyna'], 'Mark1': [90, None, None, 54,67], 'Mark2': [100, 67,96,89, nessuno], 'mark3': [91,92,98,97,87])
#Check per nessuno valori nella colonna Mark1
Print (pyspark_pandas.Mark1.isna ())

Produzione

0 Falso
1 vero
2 vero
3 Falso
4 Falso
Nome: Mark1, Dtype: Bool

Possiamo vedere che nella seconda e terza fila - NAN è disponibile, quindi in queste posizioni, Isna è tornato vero. In altri casi, è tornato falso.

Esempio 2
In questo esempio, verificheremo i valori NAN in tutto il frame dati Pandas Pyspark utilizzando ISNA.

#import panda dal modulo pyspark
da Pyspark Import Panda
#Crea DataFrame da Pandas Pyspark
pyspark_pandas = pandas.DataFrame ('Student_LastName': ['Manasa', None, 'Lehara', 'Kapila', 'Hyna'], 'Mark1': [90, None, None, 54,67], 'Mark2': [100, 67,96,89, nessuno], 'mark3': [91,92,98,97,87])
#Check per nessuno valori nell'intero frame dati
Print (pyspark_pandas.isna ())

Produzione

Student_LastName Mark1 Mark2 Mark3
0 falso falso falso
1 vero vero falso falso
2 falso vero falso falso
3 falso falso falso
4 falso falso vero falso

Possiamo vedere che Isna restituisce vero ovunque esista.

pyspark.panda.DataFrame.notna

notna viene utilizzato per verificare se il valore non è nullo. Se è nullo, restituirà falso a quel valore. Altrimenti, restituisce vero. Non ci vogliono parametri.

Sintassi

pyspark_pandas.notna

Dove pyspark_pandas è il frame dati Pyspark Pandas.

Possiamo anche controllare in particolare colonne.

Sintassi

pyspark_pandas.colonna.notna

Dove la colonna è il nome della colonna.

Esempio 1
In questo esempio, verificheremo i valori NAN nella colonna Mark1 usando NOTNA.

#import panda dal modulo pyspark
da Pyspark Import Panda
#Crea DataFrame da Pandas Pyspark
pyspark_pandas = pandas.DataFrame ('Student_LastName': ['Manasa', None, 'Lehara', 'Kapila', 'Hyna'], 'Mark1': [90, None, None, 54,67], 'Mark2': [100, 67,96,89, nessuno], 'mark3': [91,92,98,97,87])
#Check per nessuno valori nella colonna Mark1
Print (pyspark_pandas.Mark1.notna ())

Produzione

0 vero
1 falso
2 falso
3 vero
4 vero
Nome: Mark1, Dtype: Bool

Possiamo vedere che nella seconda e terza fila - NAN non è disponibile, quindi in queste posizioni, notna ha restituito falso. In altri casi, è tornato vero.

Esempio 2
In questo esempio, verificheremo i valori NAN in tutto il frame dati Pandas Pyspark utilizzando ISNA.

#import panda dal modulo pyspark
da Pyspark Import Panda
#Crea DataFrame da Pandas Pyspark
pyspark_pandas = pandas.DataFrame ('Student_LastName': ['Manasa', None, 'Lehara', 'Kapila', 'Hyna'], 'Mark1': [90, None, None, 54,67], 'Mark2': [100, 67,96,89, nessuno], 'mark3': [91,92,98,97,87])
#Check per nessuno valori nell'intero frame dati
Print (pyspark_pandas.notna ())

Produzione

Student_LastName Mark1 Mark2 Mark3
0 vero vero vero vero
1 falso falso vero vero
2 True False True True
3 vero vero vero vero
4 Vero vero falso vero

Possiamo vedere che notna restituisce falso ovunque esista.

pyspark.panda.DataFrame.non nullo

NotNull è simile a notna utilizzato per verificare se il valore non è nullo. Se è nullo, restituirà falso a quel valore. Altrimenti, restituisce vero. Non ci vogliono parametri.

Sintassi

pyspark_pandas.non nullo

Dove pyspark_pandas è il frame dati Pyspark Pandas.

Possiamo anche controllare in particolare colonne.

Sintassi

pyspark_pandas.colonna.non nullo

Dove la colonna è il nome della colonna.

Esempio 1
In questo esempio, verificheremo i valori NAN nella colonna Mark1 usando notNull.

#import panda dal modulo pyspark
da Pyspark Import Panda
#Crea DataFrame da Pandas Pyspark
pyspark_pandas = pandas.DataFrame ('Student_LastName': ['Manasa', None, 'Lehara', 'Kapila', 'Hyna'], 'Mark1': [90, None, None, 54,67], 'Mark2': [100, 67,96,89, nessuno], 'mark3': [91,92,98,97,87])
#Check per nessuno valori nella colonna Mark1
Print (pyspark_pandas.Mark1.non nullo())

Produzione

0 vero
1 falso
2 falso
3 vero
4 vero
Nome: Mark1, Dtype: Bool

Possiamo vedere che nella seconda e terza fila - Nan non è disponibile, quindi in queste posizioni, non ha restituito Falso. In altri casi, è tornato vero.

Esempio 2
In questo esempio, verificheremo i valori NAN nell'intero Frame di dati di Pyspark Pandas utilizzando notNull.

#import panda dal modulo pyspark
da Pyspark Import Panda
#Crea DataFrame da Pandas Pyspark
pyspark_pandas = pandas.DataFrame ('Student_LastName': ['Manasa', None, 'Lehara', 'Kapila', 'Hyna'], 'Mark1': [90, None, None, 54,67], 'Mark2': [100, 67,96,89, nessuno], 'mark3': [91,92,98,97,87])
#Check per nessuno valori nell'intero frame dati
Print (pyspark_pandas.non nullo())

Produzione

Student_LastName Mark1 Mark2 Mark3
0 vero vero vero vero
1 falso falso vero vero
2 True False True True
3 vero vero vero vero
4 Vero vero falso vero

Possiamo vedere che NOTnull ritorna falso ovunque esista.

Conclusione

In questo tutorial Pyspark Pandas DataFrame, abbiamo visto come controllare i valori NAN nel frame dati. isna viene utilizzato per restituire vero se è nan e notna e notnull funzionano allo stesso modo restituendo true se il valore non è nan.