Conte di frequenza dei panda

Conte di frequenza dei panda
Imparerai come contare le occorrenze di dati o valore in una colonna in questo tutorial Panda. Nella scienza dei dati, ci sono casi in cui dobbiamo determinare la frequenza con cui si verifica un valore specifico in una colonna specifica di un telaio di dati. Ciò potrebbe accadere, ad esempio, quando si desidera confrontare solo una piccola gamma di valori potenziali. Se si desidera contare la quantità di valori duplicati o ripetuti in una colonna, questo è un altro esempio. Inoltre, potremmo dover contare le osservazioni che compongono un fattore o devono conoscere la proporzione di uomini e donne nella raccolta dei dati, ad esempio.

Come utilizzare la funzione media dei panda

Dobbiamo determinare i conteggi di frequenza di dati/valori o elementi in una o più colonne di un frame di dati Panda. Esistono diversi modi per raggiungere questo obiettivo. Discuteremo alcuni metodi per contare le occorrenze o la frequenza di elementi o valori nella colonna di un frame dati.

Esempio 1: contando la frequenza della colonna usando la funzione value_counts ()

Il metodo value_counts () in Panda restituisce una serie con la frequenza di valori univoci. La serie risultante è in ordine decrescente per impostazione predefinita e priva di eventuali valori. I "panda.L'oggetto serie "è adatto per l'uso con questa funzione (value_counts ()). I conteggi di frequenza dei valori in una singola colonna possono essere ottenuti usando questo metodo poiché gli oggetti Pandas DataFrame sono il gruppo di oggetti in serie. Dobbiamo prima creare un telaio di dati per dimostrare questo esempio. I "panda.La funzione DataFrame () ”viene utilizzata per generare DataFrame. Pertanto, dobbiamo prima importare il pacchetto Pandas.


All'interno del PD.Funzione DataFrame (), abbiamo usato un dizionario Python per generare il nostro Frame Data. Abbiamo assegnato le colonne nel nostro telaio di dati con le etichette "X" e "Y". Visualizziamo il nostro telaio dati "DF" utilizzando il metodo Print ().


Nel frame dati "DF" appena creato, ci sono due colonne: la colonna “X” memorizza i valori interi (1, 1, 4, 3, 5, 1, 4, 3, 5, 4) e la colonna “Y” Valori stringa ("Q", "r", "t", "q", "q", "t", "r", "q", "t", "r"). Puoi osservare che esiste una ripetizione nei dati di entrambe le colonne. Possiamo utilizzare la funzione value_counts () per calcolare la frequenza dei dati in una colonna specifica. Contiamo la frequenza dei dati nella colonna "Y".


La funzione ha restituito una serie che ha il conteggio di valori distinti. Il valore "Q" si verifica 4 volte e i valori "R" e "T" si verificano 3 volte nella colonna "Y". Contiamo anche i valori univoci nella colonna X.


Si può vedere che i valori "1" e "4" si verificano 3 volte nella colonna "X", mentre i valori "3" e "5" si verificano 2 volte.

Esempio 2: contando la frequenza della colonna usando il gruppo.Contes () funzione

In questo esempio, raggruppiamo le righe per colonna utilizzando il frame dati Pandas.groupBy () funzionare e utilizzare il metodo Count () per determinare il numero di valori distinti per ciascun gruppo, ignorando i valori nessuno e NAN. Creiamo prima un frame dati in cui applichiamo il gruppo.Contes () funzione.


Abbiamo usato un dizionario Pandas per creare il nostro telaio dati dopo aver importato il modulo Panda. I nomi delle nostre colonne sono specificati come "Col1" e "Col2".


Nella colonna "Col1", abbiamo i dati interi (8, 6, 5, 8, 8, 7, 7, 9, 5, 7). Nella colonna "Col2", abbiamo i dati di stringa ("Boy", "Boy", "Girl", "Boy", "Boy", "Girl", "Girl", "Girl", "Boy", " ragazzo"). Ora applichiamo il gruppo.conteggi () funzionano per calcolare la frequenza dei valori in ciascuna colonna.


Per effettuare calcoli, abbiamo diviso i dati in vari gruppi utilizzando la funzione GroupBy (). Quindi, la funzione Count () viene applicata per contare le frequenze di valori distinti nella colonna specificata del frame dati. Il valore "5" si verifica 2 volte. I valori "6" e "9" si verificano una volta. Mentre i valori "7" e "8" si verificano 2 volte nella colonna "Col1". Ora applichiamo il gruppo.Count () funzione nella colonna "Col2".


La funzione ha determinato la frequenza dei valori "ragazzo" e "ragazza" come 6 e 4 volte, rispettivamente.

Esempio 3: contando la frequenza della colonna usando il gruppo.Dimensione () funzione

La frequenza degli elementi all'interno delle singole colonne può essere conteggiata usando questo metodo. Per ottenere un oggetto Frame Data con un conteggio di frequenza, possiamo applicare il metodo Count () a un oggetto DataFrame raggruppato da una singola colonna. Innanzitutto, viene creato un telaio di dati che contiene almeno una colonna ripetitiva in modo da poter utilizzare la funzione Count () per determinare la frequenza dei valori. Per prima cosa importa il modulo Pandas prima di creare un telaio di dati. Quindi, usando il PD.Funzione dataframe (), creiamo il nostro dati dati.


Nel precedente Frame Data, abbiamo due colonne: la colonna "Nome" con valori ("Alex", "Jack", "Alex", "Ali", "Jack", "Jack", "Alex", "Alex", "Ali", "Alex", "Ali", "Ali", "Jack", "Alex") e la colonna "Grade" che contiene i gradi di individui ("A", "A", "B", " B "," b "," b "," a "," c "," a "," c "," c "," c "," a "," b "). Ora, per trovare i conteggi di frequenza di queste colonne, usiamo il gruppo.Dimensione () funzione. Un int che rappresenta il numero di elementi in questo oggetto può essere ottenuto usando l'attributo dimensione. Se la serie fornisce il numero di righe e se il frame dati restituisce le righe totali moltiplicate per il numero di colonne.


Mostra che ci sono due occorrenze in cui "Alex" ha un valore di grado di "A". Ci sono anche due occorrenze in cui "Alex" ha un valore di grado di "B" e "C". "ALI" si è verificato 1 volta con i gradi "A" e "B", mentre 2 volte con il valore di grado di "C". "Jack" si è verificato due volte con i voti "A" e "B".

Esempio 4: contando la frequenza della colonna creando una tabella di frequenza per una riga specifica

Possiamo applicare il metodo CrossStab () per determinare le frequenze in un Frame di dati Pandas.

Ora, supponiamo che dobbiamo creare un telaio di dati con dettagli sul sesso, l'età e il grado di lettere di dieci studenti distinti.


Abbiamo creato il frame dati richiesto con tre colonne: la colonna di grado ("A", "B", "A", "B", "C", "B", "B", "C", "A", " A "), colonna di età (17, 19, 18, 17, 19, 17, 18, 18, 17, 19) e la colonna di genere (" F "," M "," F "," M ", "F", "F", "M", "M", "F", "F"). Ora utilizziamo la funzione crosstab () per creare una tabella di frequenza. Una tabella cross-tabulazione creata dal metodo crosstab () può essere utilizzata per visualizzare la frequenza con cui compaiono i diversi raggruppamenti di dati.


All'interno del PD.FUNZIONE CROSSTAB (), abbiamo specificato la colonna "Grado" nel parametro dell'indice per calcolare la frequenza dei dati nella colonna e specificato il parametro delle colonne come "frequenza" per archiviare i valori/frequenze di ritorno dei dati del gruppo.

Conclusione

In questo tutorial di Pandas, abbiamo discusso di come contare le occorrenze di dati o valore in una colonna di Panda DataFrame. Abbiamo cercato di insegnare come utilizzare le funzioni "value_counts ()" e "groupby ()" insieme agli attributi "size ()" e "count ()" per contare la frequenza dei dati nella colonna specificata. Abbiamo anche visto come contare la frequenza di una colonna creando una tabella di frequenza usando la funzione crosstab ().