contano i panda

contano i panda
Il grande ecosistema di pacchetti Python guidati dall'informazione è un fattore significativo nel motivo per cui Python è una piattaforma fantastica per condurre la ricerca sui dati. Uno di questi pacchetti, Panda, semplifica l'assunzione e l'analisi dei dati.

I valori mancanti potrebbero essere problematici in alcune circostanze. Pertanto, occasionalmente dobbiamo specificare gli oggetti con valori non misteriosi. Un metodo per individuare le colonne con molti dati mancanti è utilizzare il metodo del conteggio Pandas.

La funzione Panda Count () è un metodo per calcolare il numero di cellule non Na in ciascun segmento o colonna. Inoltre, è rilevante lavorare con dati non scremati. Quando si tratta di set di dati, un'enorme abilità è la capacità di presentare risultati comprensibilmente. L'uso di un grafico basato sull'asse è un modo comune per visualizzare i dati. Il conteggio delle funzioni Python () restituisce il numero di volte in cui la sottostringa appare nella stringa e il numero di valori nelle colonne o nelle righe di un frame dati. Esamineremo così come utilizzare la funzione di conteggio su dati di dati in questa parte.

Sintassi per la funzione panda count ()

Il metodo di conteggio ha una sintassi relativamente semplice; Tuttavia, ci sono alcuni approcci diversi per utilizzarlo e alcune opzioni che possono cambiare il modo in cui funziona. Devi solo specificare il nome del data frame seguito da ".count () "per invocare la funzione di conteggio per un frame dati. Pertanto, supponendo che il tuo frame dati sia chiamato "dati di dati", è possibile utilizzare lo script "DataFrame.count () "per determinare la quantità di voci non misteriose per tutte le colonne. All'interno delle parentesi, potresti anche utilizzare alcuni argomenti opzionali che spiegheremo tra poco.

Qui, il "livello" indica i vari indicizzazione dell'asse e se l'asse è gerarchico, il metodo del conteggio () del Frame DataFrame alla fine si blocca e smette di rispondere alle chiamate del programma, lasciando il programma sospeso. Il termine "numerico" si riferisce alla compatibilità del programma con i dati numerici, inclusi i valori interi, galleggianti e logici. Poiché deve sempre tornare al telaio dati quando viene fornito il livello, prende il falso valore come impostazione predefinita. La valutazione del programma delle righe e delle colonne è fornita sul "asse". Il metodo Count () utilizza l'argomento Axis per specificare colonne e righe specifiche da tenere in considerazione ogni volta che il risultato deve essere prodotto dall'applicazione utilizzando panda.

Dopo aver esaminato la sintassi, diamo un'occhiata ad alcune dimostrazioni dell'approccio del conteggio di Panda in pratica. Esploreremo alcune istanze di modi per contare i valori all'interno di un telaio di dati, conterremo le voci in una colonna particolare e alcune ulteriori applicazioni.

Esempio 1: conta il numero di record in tutte le colonne di un telaio di dati utilizzando il metodo Pandas Count ()

Ti verrà richiesto di eseguire un po 'di codice preparatorio prima di poter compilare tutte le istanze. Dobbiamo importare le librerie pertinenti e quindi caricare/creare un telaio di dati, in particolare.

Innanzitutto, importa la libreria Numpy come Biblioteca NP e Pandas e diamo il nome PD nel programma precedente. Ora possiamo iniziare a costruire il nostro telaio di dati fondamentali man mano che otteniamo l'accessibilità alla Biblioteca Pandas.

A partire dal codice principale, qui puoi vedere che abbiamo usato un NP.Proprietà NAN e lo ha reso uguale a Nan. L'acronimo nan, che si riferisce a "non un numero", indica numeri che non sono dichiarati. Inoltre, le voci mancanti in un set di dati sono rappresentate utilizzandolo.

Ora costruiremo un frame dati con alcuni valori null utilizzando la funzione Panda DataFrame. Il codice qui ha creato una variabile denominata "DF" e il risultato di invocare il PD.La funzione DataFrame () viene quindi assegnata a questa variabile creata. All'interno delle parentesi del PD.Funzione DataFrame (), abbiamo utilizzato le parentesi graffe e scriviamo i nomi delle colonne che vogliamo avere nel Frame Data. Abbiamo creato quattro colonne: nome, chimica, inglese e scienza. Quindi, abbiamo assegnato tutte le colonne con valori diversi. Dobbiamo mantenere tutte le colonne della stessa dimensione. La funzione di stampa è invocata per stampare il frame dati.

L'output mostra i seguenti dati di dati:

Ora, per ogni colonna nel nostro telaio dati, calcoleremo la quantità di record non nulli. La funzione Count () per un frame dati viene applicata in questo modo nell'approccio più semplice.

In questo caso, stiamo applicando il conteggio () qui sul frame dati "DF" complessivo. Per raggiungere questo obiettivo, abbiamo inserito il nome del frame dati, "DF", seguito dal .count () funzione.

Quando eseguiamo il codice precedente, ci produrrà il risultato mostrato nella seguente immagine:

È possibile ottenere la quantità totale di voci non misteriose per ciascuna colonna nel risultato.

Il nostro telaio di dati comprende un totale di sei righe. Puoi notare che il "nome" variabile ha sei valori in questa istanza. Non ci sono spazi vuoti in questa variabile. Tuttavia, valori specifici contengono meno di sei. Ad esempio, la scienza ha quattro voci non mutevoli, mentre la chimica ha cinque. Per questa istanza, applica le sue impostazioni predefinite al parametro.

Avere questa conoscenza potrebbe essere utile quando si pulisce i dati. Lo sviluppo di un algoritmo di apprendimento automatico potrebbe anche essere vantaggioso perché le categorie di modelli specifiche non accettano dati mancanti.

Esempio 2: conta il numero di record in tutte le righe di un telaio di dati utilizzando il metodo Pandas Count ()

Ora, determiniamo quante voci non misterili ci sono nelle righe del telaio di dati specificato.

Il metodo Count () viene generalmente impiegato per elencare le voci non misteriose delle colonne. Tuttavia, ci possono essere situazioni in cui dovresti invece guardare le file. Utilizzeremo la proprietà dell'asse per raggiungere questo obiettivo.

Seguendo la costruzione di dati di dati, il DF.Il metodo Count () calcola il numero di valori in ogni riga mentre ignora eventuali voci null o NAN. Le righe sono rappresentate dall'asse = 1. Quindi, istruiamo il codice di calcolare solo le voci nelle righe del frame dati.

Di conseguenza, questo programma considera il metodo Count (), emette la riga di dati come visualizzato nello screenshot seguente, quindi torna alla funzione Panda.

Abbiamo esaminato i dati, quindi sappiamo che quattro colonne sono nel nostro telaio. Quindi, una riga completamente popolata dovrebbe avere quattro valori non misteriosi. Tuttavia, è possibile osservare che alcune righe hanno tre o due dati non mutevoli. Ci sono quattro voci nella prima, seconda e ultima riga. Ciò indica che ci sono dati mancanti in alcune righe. Potrebbe andare bene, ma forse no, a seconda delle tue azioni.

Impostazione axis = "colonne" invece raggiungerà lo stesso risultato. Poiché l'asse = 1 e l'asse = "colonne" sono equivalenti, viene fornita la quantità di dati non mutevoli per le righe quando si sceglie Axis = "Colonne."

Ciò produrrà lo stesso risultato di quello precedentemente mostrato.

Tuttavia, consigliamo vivamente di usare questa sintassi alternativa e invece usiamo l'asse = 1 perché è piuttosto difficile afferrare e ha a malapena senso se si ha familiarità con gli assi.

Conclusione

In questo articolo, abbiamo imparato a contare i valori in un frame dati Panda. Il Frame di dati Panda.Conte () il metodo aiuta nella nostra analisi dei numeri nel frame dati Python. Per prima cosa abbiamo creato un frame dati utilizzando la funzione Pandas DataFrame e quindi applicato il metodo di conteggio dei frame dati ad esso. Successivamente, ti abbiamo spiegato contando i dati in colonne e righe. Speriamo che questo articolo aumenterà le tue conoscenze.