Funzione di Panda ffill

Funzione di Panda ffill
Gestire i dati mancanti è una componente integrale di ogni strategia di scienze dei dati. I modi comuni di trattare i dati mancanti implicano l'ignorare i valori mancanti, la caduta delle voci con i record mancanti e la compilazione dei dati mancanti. In questo tutorial, esamineremo la funzione Pandas “DataFrame.ffill () "per compilare i dati mancanti.

Metodo Pandas ffill ()

Il metodo Pandas ffill () ci consente di inserire il valore NAN nel frame di dati. Il FFIFL sta per il riempimento di inoltro, il che significa che i valori null vengono sostituiti con i dati dalla colonna o dalla riga precedente.

La sintassi per l'utilizzo di questo metodo è riportata qui:


L '"asse" è l'asse lungo il quale riempire i valori NAN. Il suo valore predefinito è 0. Questo parametro verrà utilizzato nei nostri esempi qui.

Con l'aiuto degli esempi di codice del programma Python, esamineremo come utilizzare "ffill ()" per inoltrare i valori mancanti in tutte le colonne di un telaio di dati Panda in questo articolo.

Esempio n. 1: utilizzando il metodo ffill () per riempire i valori lungo le righe

In questa illustrazione, vedrai come riempiremo i valori NAN in un frame di dati lungo l'asse indice utilizzando il metodo "ffill ()".

L'implementazione pratica di qualsiasi programma inizia con la selezione di uno strumento di esecuzione appropriato. Per questo tutorial, abbiamo scelto lo strumento "Spyder" per mettere in pratica lo script Python del campione. Il caricamento della libreria Pandas nel nostro file Python ci renderà in grado di utilizzare tutte le funzionalità fornite da Panda. "PD" verrà utilizzato nel codice ovunque dobbiamo usare "panda" come alias.

La seconda parte del codice possiede due operazioni; Per creare un frame di dati con alcuni valori NAN utilizzando il PD PANDAS.Metodo DataFrame () "e quindi riempire questi valori NAN utilizzando la funzione Pandas" ffill () ". Prendendo le mani sulla prima operazione, che è creare un frame di dati con alcuni valori NAN, abbiamo invocato il PDA "PD.Metodo DataFrame () "qui. Questo metodo genererà un frame di dati con valori specificati o un file CSV.

Qui stiamo costruendo il frame di dati con dati definiti dall'utente invece di importare un file CSV. La cornice dei dati è inizializzata da quattro colonne con titoli come menzionato: "verde", "bianco", "marrone" e "arancione."La lunghezza di ogni colonna che abbiamo creato qui è quattro. Siamo tenuti a rendere tutte le colonne della stessa dimensione per un frame di dati. La nostra prima colonna di frame di dati, "Green", contiene i valori "7", "1", "Nessuno" e "3". La colonna "bianca" contiene voci che sono "7", "2", "1" e "9". La colonna "Brown" ha valori "2", "6", "8" e "Nessuno", mentre la colonna "Orange" memorizza "None", "6", "9" e "2".

Per preservare questo frame di dati, abbiamo bisogno di un oggetto Frame di dati. Quindi l'abbiamo creato con il nome "Visual" e l'abbiamo fatto per archiviare la cornice di dati che abbiamo costruito dal "PD.Metodo DataFrame () ". Ora per visualizzare questo frame di dati l'abbiamo appena archiviato nell'oggetto "visivo", che abbiamo chiamato il metodo "Print ()" della programmazione Python.


Quando eseguiamo questo script Python, che abbiamo elaborato sopra, premendo l'opzione "Esegui file", viene visualizzato un frame di dati di quattro colonne sulla console. Qui puoi vedere che questo frame dati ha tre valori NAN.


Abbiamo completato la prima operazione di generazione del frame di dati. Ora passeremo all'altra parte, che è riempire questi valori NAN. Lo faremo utilizzando il metodo "ffill" di Pandas.

Abbiamo invocato "DataFrame.ffill () "per riempire tutti i valori NAN nel nostro telaio di dati. Abbiamo fornito il nome del nostro telaio di dati che abbiamo appena creato sopra "visivo" con ".FILL () "Metodo. Tra le parentesi di questa funzione, viene utilizzato un parametro "asse". Lo abbiamo impostato su "0", che rappresenta l'asse di riga o indice. Perché abbiamo usato il metodo "Fill ()" per riempire i valori NAN lungo l'asse della riga per questa illustrazione. Quindi abbiamo scritto tutto come "visivo.ffill (axis = 0) "e quindi posizionato nel metodo" print () "per stampare il frame di dati con i valori NAN riempiti lungo l'asse di riga.


Ecco il frame di dati di output. Ogni valore NAN viene popolato usando il valore corrispondente dalla riga precedente quando ffill () viene eseguito attraverso l'indice o l'asse della riga. Hai osservato che le voci nella prima riga sono ancora valori NAN perché non c'è una riga su di essa, da cui si propagano i valori non nai. Tutti gli altri valori NAN vengono sostituiti correttamente copiando i valori di riga corrispondenti in esso.

Esempio n. 1: utilizzando il metodo ffill () per riempire i valori lungo le colonne

Questa illustrazione ti dirà come riempire i valori NAN in una cornice di dati lungo l'asse della colonna utilizzando il metodo PANDAS “FILL ()”. Cominciamo a lavorare su questa tecnica.

Abbiamo lanciato lo strumento "Spyder" e abbiamo iniziato a scrivere il codice Python. Innanzitutto, dobbiamo ottenere il prerequisito per il programma, che sta caricando la biblioteca Pandas. Dobbiamo importare questa libreria in un file Python perché useremo Pandas “PD.DataFrame () "e" DataFrame.Metodi ffill () "in questa illustrazione, che possono essere impiegati solo se abbiamo accesso a questa libreria.

Dobbiamo generare un frame di dati utilizzando Pandas “PD.Metodo DataFrame () ". Il metodo è chiamato e inizializzato da quattro colonne, che sono "P1", "P2", "P3" e "P4". La prima colonna qui, "P1" ha valori di "1", "12", "7", "4" e "Nessuno". I record "P2" sono "13", "9", "Nessuno", "4" e "3". "P3" ha voci "nessuna", "14", "1", "8" e "7". I valori memorizzati in "P4" sono "11", "3", "16", "8" e "Nessuno". Abbiamo archiviato questo frame di dati nell'oggetto del frame di dati "Punteggio". Ora per visualizzare questo frame dati sulla console, abbiamo chiamato il metodo "Print ()".


Questo frammento di codice viene eseguito per visualizzare il frame di dati creato. Qui, puoi osservare che il frame di dati ha quattro colonne e in ogni colonna abbiamo trovato un valore NAN. Nel complesso, abbiamo quattro voci nulle nel frame di dati.


Per riempire questi valori null lungo l'asse della colonna nel frame dei dati, abbiamo utilizzato i Pandas “DataFrame.ffill () "metodo. Abbiamo invocato il "dati di dati.FIFF () ”FUNZIONE. Qui l'abbiamo usato con il parametro "Asse" e lo abbiamo impostato su "1", che si riferisce all'asse della colonna perché stiamo riempiendo i valori null lungo le colonne per questa dimostrazione. L'intera riga di script è scritta come "SCOPO.ffill (axis = 1) ”e quindi, per la necessità di mostrare questo frame di dati riempito risultante sulla console, abbiamo messo questa funzione tra le parentesi graffe del metodo" Print () "e lo abbiamo invocato.


Questo ci porta il telaio di dati di seguito. Come puoi vedere, il valore della prima colonna è NAN poiché non è rimasta la colonna per riempirlo con il valore dalla colonna precedente lungo l'asse della colonna.

Conclusione:

Lavorare con i frame di dati e la gestione dei valori null in essi è un bisogno fondamentale e fondamentale nei processi di analisi dei dati. In questo tutorial, abbiamo appreso che i Pandas hanno fornito "DataFrame.Metodo ffill () "per riempire i record NAN nel frame di dati. Ti abbiamo fatto familiarità con le due tecniche per riempire la cornice di dati. Ogni strategia è elaborata con esempi praticamente implementati script di Python eseguiti utilizzando lo strumento "Spyder". Puoi usare ogni tecnica in base alle tue esigenze.