Pandas drop na

Pandas drop na
Panda, una biblioteca open source per Python, è senza dubbio il kit di strumenti più popolare per la ricerca e la valutazione dei dati. È anche una buona scelta per le attività di trasformazione dei dati ad hoc. A causa della sua rappresentazione di dati eccezionalmente flessibile che utilizza i frame dati e la pletora di metodi disponibili per la modifica dei dati memorizzati in questi frame di dati. Eventuali problemi di dati del mondo reale potrebbero comportare i dati mancanti e questi set di dati devono essere gestiti correttamente. I dati potrebbero mancare per molte ragioni. Non è insolito quando si tratta di dati gravemente incasinati. Comprendere come far fronte ai valori mancanti è una competenza essenziale per qualsiasi professionista dei dati. In questo tutorial, imparerai come gestire i valori null utilizzando i Panda "DataFrame.Dropna () "Metodo.

Metodo Pandas dropna ()

In un frame dati Panda, potrebbe essere necessario rimuovere le righe con i valori NAN. Fortunatamente, questo sarebbe semplice da realizzare con il metodo Pandas "Dropna ()". La sintassi per l'impiego del metodo "dropna ()" è la seguente:

Il primo parametro è l '"asse". Per colonne e righe, "Asse" accetta i valori int o stringa. Gli ingressi interi possono essere 1 o 0 e gli ingressi della stringa possono essere "colonne" o "indice". Il parametro "Come" accetta solo valori di stringa di due tipi (o "qualsiasi" o "tutto"). Il 'qualsiasi' rimuove la riga/colonna se un valore è nullo e 'tutto' rimuove la riga/colonna quando tutte le voci sono null. IL "trebbiare" accetta un valore intero che specifica il numero minimo di voci NA da rilasciare. IL "Sottoinsieme" è un array che limita l'operazione di caduta alle righe/colonne fornite attraverso l'elenco. L'ultimo parametro "a posto" è un booleano che, se vero, modifica il frame di dati stesso.

Esempio n. 1: utilizzo del metodo Panda dropna () per eliminare le righe con eventuali valori nulli

In questa illustrazione, vedremo come abbandonare qualsiasi valori nulli nelle righe di un telaio di dati utilizzando il metodo Panda "Dropna ()".

Abbiamo lanciato lo strumento "Spyder" e iniziamo il programma. Nel file Python, importiamo le due librerie richieste. Il primo toolkit che cariciamo nel file è i panda come "PD" e il secondo pacchetto è la libreria numpy come "NP". Ora abbiamo aliasmo entrambe queste librerie e possiamo accedervi usando queste abbreviazioni. La libreria Pandas viene importata per essere in grado di utilizzare i metodi Pandas, mentre la libreria Numpy aiuterà a gestire i valori NAN nel frame dati.

Dobbiamo creare un frame dati con alcuni valori null. Per questo, Pandas ci fornisce un metodo “PD.DataFrame () ". Invochiamo questo metodo per creare un frame dati con quattro colonne "prima", "secondo", "terzo" e "quarto". La colonna "First" ha questi valori "NP.Nan "," 98 "," 66 "," NP.Nan "," 14 "," 30 "," 26 "," 79 "e" 11 ". La colonna "Second" sta archiviando i valori "NP.Nan "," 29 "," 14 "," 16 "," 27 "," 10 "," 32 "," 19 "e" 21 ". La colonna "Terzo" è in possesso di valori che sono "10", "45", "7", "13", "5", "7", "8", "9" e "18". L'ultima colonna "Quarta" ha voci "16", "7", "10", "NP.Nan "," 6 "," 7 "," 9 "," 20 "e" 30 ". Tutte le colonne tengono nove voci.

Costruiamo un oggetto DataFrame "Counter" e lo assegniamo il risultato di invocare il "PD.Funzione DataFrame () ". Quindi, il frame dati viene archiviato nella variabile "contatore". Visualizziamo il frame dati sulla console Python utilizzando il metodo "Print ()" di Python.

Per eseguire il programma, prendiamo l'opzione "Esegui file" sullo strumento Spyder. Il frame dati risultante visualizzato sul terminale mostra che la colonna "prima" ha due valori NAN, la colonna "seconda" e "quarta" hanno un valore NAN in ciascuno, mentre la colonna "terzo" non ha valori NAN.

Ora impariamo la tecnica per eliminare le righe con i valori NAN in un frame di dati utilizzando i pandas “DataFrame.Dropna () "Metodo.

Chiamiamo il metodo Pandas "Dropna ()" con il nome del Frame Data "Counter". Qui passiamo due parametri a questa funzione "Asse" e "Come". I valori per il parametro "Asse" sono impostati su "0" che indica le righe, mentre il "come" è specificato nei valori "qualsiasi" perché vogliamo rilasciare righe che hanno un valore NAN in esse. Viene creata una variabile "mancante" per archiviare l'output del metodo "dropna ()". Infine, invochiamo il metodo "Print ()" per mostrare il contenuto della variabile "mancante".

Qui abbiamo il telaio di dati risultante. In questo frame dati, possiamo osservare che le righe contenenti valori null vengono scartati dal frame dati. Le righe con gli indici 0 e 3 vengono eliminate perché hanno valori NAN.

Possiamo anche controllare le dimensioni del telaio dati utilizzando il metodo "len ()". Invochiamo il metodo "print ()" e forniamo la funzione "len ()" come parametro. Nella prima funzione "len ()" abbiamo trovato la dimensione del frame dati "contatore" e nella funzione "len ()" successiva La lunghezza del telaio di dati "mancante" viene calcolata. Quindi, infine, abbiamo sottratto entrambe le lunghezze per trovare il numero di righe con valori nulli.

Qui, possiamo vedere che il vecchio telaio di dati "contatore" aveva 9 righe, mentre il nuovo frame dati "mancante" ha 7 righe. E il numero di righe che hanno valori nulli sono 2.

Esempio n. 2: utilizzando il metodo Pandas dropna () per eliminare le righe con valori null al di sotto di una soglia specificata

Per questo istanza, abbiamo utilizzato il frame dati creato nell'esempio precedente. Utilizziamo un'altra proprietà fornita dalla funzione "dropna ()".

Invochiamo il "dati di dati.Dropna () "Metodo. Come afferma la sintassi, il nome del frame dati viene fornito con la funzione "dropna ()" come "contatore.dropna () ". I parametri che utilizziamo qui sono "Asse" e "Thresh". Impostamo l '"asse" su "0" per la caduta di riga e la "soglia" è impostata su "4", il che significa che la funzione "dropna ()" verificherà le righe in cui è il numero di valori non null meno di 4. Qualunque riga abbia il numero di valori non nulli al di sotto di quattro, li farà cadere. Memorizziamo l'output nella variabile "mancante" e lo visualizziamo semplicemente utilizzando il metodo "print ()".

Nell'immagine di output, viene mostrato un frame dati. Qui, la riga 0 e la riga 3 vengono scartati perché questi avevano un conteggio di valori non nulli al di sotto di 4.

Esempio n. 3: utilizzando il metodo Panda dropna () per eliminare le righe con valori null per una colonna specificata

Utilizzando il telaio dati dalla prima illustrazione, invochiamo il metodo "dropna ()". Questa volta, lo stiamo utilizzando per far cadere le righe in una colonna particolare. Per eliminare le righe con valori nulli in una colonna specificata, abbiamo un parametro "sottoinsieme" della funzione "dropna ()". La proprietà "sottoinsieme" passa la colonna o la riga fornita come elenco al metodo "Dropna ()". Qui, abbiamo selezionato la colonna "Second" per questo parametro. Quindi, mostriamo semplicemente il nuovo frame dati sulla console.

La colonna "Second" ha la prima riga contenente il valore NAN, quindi viene scartata nel nuovo frame dati.

Conclusione

Lavorare sui gesti di dati e incontrare il problema di trovare valori mancanti rende le cose disordinate. Affrontare questi valori mancanti è un'abilità di apprendimento fondamentale. Ogni volta che siamo bloccati in una tale sfida, i panda entrano in gioco. I panda ci forniscono la funzione “DataFrame.dropna () "per affrontare queste voci nulle. Questo tutorial ha dimostrato la sintassi di questa funzione con tutti i suoi parametri. Abbiamo eseguito l'implementazione pratica dei codici di esempio Python per far cadere i valori null utilizzando il metodo "Dropna ()" con argomenti diversi.