PysPark - Pandas DataFrame rappresenta il Frame Data Pandas, ma contiene il Frame dati PysPark internamente.
Panda Support DataFrame Data Structure e Panda viene importato dal modulo PysPark.
Prima di allora, devi installare il modulo PysPark."
Comando
PIP Installa PysparkSintassi all'importazione
da Pyspark Import PandaSuccessivamente, possiamo creare o utilizzare il frame dati dal modulo Pandas.
Sintassi per creare Pandas DataFrame:
pyspark.panda.DataFrame ()Possiamo passare un dizionario o un elenco di elenchi con valori.
Creiamo un frame dati Pandas tramite Pyspark che ha quattro colonne e cinque righe.
#import panda dal modulo pysparkProduzione
Ora andremo nel nostro tutorial.
Le funzioni di isna (), notna () e notnull () vengono utilizzate per verificare se non si sono verificati valori non si sono verificati in Pyspark Panda DataFrame. Sono rappresentati da NAN (non un numero); In Python, possiamo crearli usando nessuno.
Vediamoli uno per uno.
pyspark.panda.DataFrame.isna
isna viene utilizzato per verificare se il valore è nullo. Se è nullo, restituirà vero a quel valore. Altrimenti, restituisce falso. Non ci vogliono parametri.
Sintassi
pyspark_pandas.isnaDove pyspark_pandas è il frame dati Pyspark Pandas.
Possiamo anche controllare in particolare colonne.
Sintassi
pyspark_pandas.colonna.isnaDove la colonna è il nome della colonna.
Esempio 1
In questo esempio, verificheremo i valori NAN nella colonna Mark1 usando ISNA.
Produzione
0 FalsoPossiamo vedere che nella seconda e terza fila - NAN è disponibile, quindi in queste posizioni, Isna è tornato vero. In altri casi, è tornato falso.
Esempio 2
In questo esempio, verificheremo i valori NAN in tutto il frame dati Pandas Pyspark utilizzando ISNA.
Produzione
Student_LastName Mark1 Mark2 Mark3Possiamo vedere che Isna restituisce vero ovunque esista.
pyspark.panda.DataFrame.notna
notna viene utilizzato per verificare se il valore non è nullo. Se è nullo, restituirà falso a quel valore. Altrimenti, restituisce vero. Non ci vogliono parametri.
Sintassi
pyspark_pandas.notnaDove pyspark_pandas è il frame dati Pyspark Pandas.
Possiamo anche controllare in particolare colonne.
Sintassi
pyspark_pandas.colonna.notnaDove la colonna è il nome della colonna.
Esempio 1
In questo esempio, verificheremo i valori NAN nella colonna Mark1 usando NOTNA.
Produzione
0 veroPossiamo vedere che nella seconda e terza fila - NAN non è disponibile, quindi in queste posizioni, notna ha restituito falso. In altri casi, è tornato vero.
Esempio 2
In questo esempio, verificheremo i valori NAN in tutto il frame dati Pandas Pyspark utilizzando ISNA.
Produzione
Student_LastName Mark1 Mark2 Mark3Possiamo vedere che notna restituisce falso ovunque esista.
pyspark.panda.DataFrame.non nullo
NotNull è simile a notna utilizzato per verificare se il valore non è nullo. Se è nullo, restituirà falso a quel valore. Altrimenti, restituisce vero. Non ci vogliono parametri.
Sintassi
pyspark_pandas.non nulloDove pyspark_pandas è il frame dati Pyspark Pandas.
Possiamo anche controllare in particolare colonne.
Sintassi
pyspark_pandas.colonna.non nulloDove la colonna è il nome della colonna.
Esempio 1
In questo esempio, verificheremo i valori NAN nella colonna Mark1 usando notNull.
Produzione
0 veroPossiamo vedere che nella seconda e terza fila - Nan non è disponibile, quindi in queste posizioni, non ha restituito Falso. In altri casi, è tornato vero.
Esempio 2
In questo esempio, verificheremo i valori NAN nell'intero Frame di dati di Pyspark Pandas utilizzando notNull.
Produzione
Student_LastName Mark1 Mark2 Mark3Possiamo vedere che NOTnull ritorna falso ovunque esista.
Conclusione
In questo tutorial Pyspark Pandas DataFrame, abbiamo visto come controllare i valori NAN nel frame dati. isna viene utilizzato per restituire vero se è nan e notna e notnull funzionano allo stesso modo restituendo true se il valore non è nan.