PANDAS GROUPBY MEDIA

PANDAS GROUPBY MEDIA

Quando aggiungiamo due o più valori insieme e la loro somma è divisa per il numero totale di valori aggiunti insieme, il risultato è una media. I panda medio restituiscono la media dei dati o del valore lungo un determinato asse. Una serie con la media su un asse verrà restituita da panda se il metodo medio () viene applicato a un frame di dati. I panda restituiscono un valore numerico (numero singolo) se “mean ()” viene utilizzato su una serie. Le funzioni possono essere applicate alle categorie dopo aver creato i gruppi di categorie. È un'idea semplice ma una tecnica altamente efficace che viene spesso applicata nella scienza dei dati. Ci consente di creare un riepilogo dei dati per ciascun gruppo, applicare modifiche specifiche del gruppo ed eseguire la filtrazione dei dati. Con la funzione GroupBy (), l'oggetto può essere diviso, una funzione può essere applicata e i prodotti possono quindi essere combinati. I set di dati di grandi dimensioni possono essere raggruppati con questo e le operazioni possono essere eseguite sui gruppi.

Come usare il gruppo.Metodo medio () nei panda?

Per calcolare la media di un telaio di dati o la media di colonne specifiche di un telaio di dati, possiamo utilizzare GroupBy.funzione media (). Dimostreremo come usarlo nei seguenti esempi.

Esempio # 01: determinare la media di una singola colonna intero raggruppando i dati di una singola colonna

Usando il PD.Funzione DataFrame (), creeremo innanzitutto un frame dati in modo da poter dividere i dati della colonna o delle colonne del frame dati in gruppi e quindi trovare il loro valore medio. Prima di creare il frame di dati, dobbiamo importare il modulo Pandas insieme alla libreria Numpy.

Come si può vedere, abbiamo creato il nostro telaio di dati utilizzando il dizionario Pandas. Abbiamo 3 colonne nel nostro DF DataFrame, i.e., "articoli", "produttore" e "quantità". Nella colonna "Articoli", abbiamo memorizzato i valori ("Shirt", "Tie", "Pants", "Shirt", "Tie", "Pants", "Shirt", "Pants", "Pants", " pareggio "), mentre il" produttore "delle colonne e" quantità "contenente i valori (" Italia "," Francia "," Cina "," Francia "," Cina "," Italia "," China "," Italia ", 'Francia', 'Cina') e (13, 16, 21, 32, 26, 41, 24, 42, 12, 15). Raggruppiamo i valori nella colonna del produttore e determiniamo il valore di quantità media per ciascun produttore distinto.

Il valore del produttore "China" ha un valore medio di quantità di 21.5, il valore medio di quantità per "Francia" è 20.0, e il valore medio di quantità per "Italia" è 32.0. Possiamo anche specificare un indice per l'output utilizzando la funzione reset_index con GroupBy.funzione media ().

Esempio # 02: Trova la media di una singola colonna galleggiante raggruppando i dati di una singola colonna

Abbiamo visto come possiamo trovare la media della colonna intero dopo aver raggruppato i dati. Ora proviamo un'altra colonna di tipi di dati come Float. Verrà creato un frame dati con almeno una colonna con valori float utilizzando il PD.Funzione dataframe ().

Mettendo un dizionario all'interno del PD.DataFrame (), abbiamo creato un dati dati con tre colonne. La colonna "Nome" sta archiviando i nomi di alcuni giocatori casuali ("Sam", "Jay", "Leo", "Mike", "Will", "Billy", "Jhonny", "Lara", "Hanna" 'Tony'), la colonna 'team' che rappresenta la squadra da cui ogni giocatore appartiene a ('a', 'a', 'b', 'a', 'b', 'a', 'c', 'b ',' C ',' c ') e la colonna' altezza 'sta memorizzando le altezze di ciascun giocatore come valore float (5.6, 5.4, 6.3, 5.2, 5.5, 6.4, 5.6, 5.8, 6.0, 5.2). Raggruppiamo i dati nella colonna "team" e determiniamo il valore medio di altezza per ciascun valore distinto "team".

Puoi vedere che il valore medio di altezza della squadra di una squadra è 5.65, mentre le altezze medie dei giocatori nelle squadre B e C sono 5.866 e 5.6, rispettivamente.

Esempio # 03: determinare la media di più colonne usando il gruppo.funzione media ()

Negli esempi precedenti, abbiamo determinato la media di una singola colonna. Tuttavia, è possibile determinare la media di numerose colonne per ciascun gruppo. Creiamo un frame dati con più di una colonna numerica, dopo aver importato i moduli panda e numpy.

Nel frame dati appena creato, ci sono tre colonne con le etichette "nome", "punteggio" e "corrispondenze". I nomi della colonna che hanno i valori dei dati come stringa ("Ron", "Jim", "Dany", "Jim", "Jim", "Dany", "Ron", "Ron", "Dany", "Jim" ), mentre il "punteggio" e le "corrispondenze" consistono in dati numerici come (3, 4, 2, 4, 1, 5, 2, 3, 1, 2) e (2, 3, 1, 2, 1, 3 , 4, 1, 2, 1). Ora troviamo la media del "punteggio" della colonna e "corrispondenze" dopo aver raggruppato i dati del "nome" della colonna. Il gruppo.La funzione media () verrà utilizzata per questo.

Si può notare che il gruppo "Dany" ha un punteggio medio di 2.66 in 2.00 corrispondenze. Il gruppo Jim ha un punteggio medio di 2.75 e il valore medio delle partite giocate è 1.75. Mentre il gruppo "Ron" ha un valore di punteggio medio di 2.66 e il valore medio delle partite giocate è 2.33.

La media di un gruppo di categorie per oggetto può anche essere calcolata usando il metodo Agg (). Forniremo la media come argomento alla funzione Agg (). Per aggregare utilizzando operazioni singole o multiple attraverso l'asse dato, possiamo usare la funzione Agg ().

L'output è uguale a prima.

Esempio # 04: determinare la media di colonne specifiche raggruppando le colonne più

Negli esempi 1, 2 e 3, abbiamo raggruppato i valori o i dati di una singola colonna. Ora raggrupperemo più colonne utilizzando l'elenco delle etichette di colonne all'interno della funzione GroupBy (), quindi troveremo il valore medio per ciascun gruppo. Un dizionario "D" sarà passato all'interno del PD.DataFrame () funziona come un input per creare DataFrame.

Abbiamo creato il telaio dati richiesto. La colonna "Sports" sta immagazzinando il nome di alcuni sport ("Badminton", "Football", "Tennis", "Basketball", "Football", "Tennis", "Basketball", "Football", "Badminton", " basket "," basket "," tennis "), i nomi dei paesi (" Cina "," Russia "," Italia "," Spagna "," Russia "," Italia "," Cina "," Italia "," Spagna "," Cina "," Russia "," Italia ") sono conservate nella colonna" Paese ". Mentre nella colonna "Win" abbiamo immagazzinato il numero di partite vinte da ogni paese in ogni sport (13, 10, 6, 7, 10, 12, 7, 11, 8, 13, 11, 6). Usiamo il gruppo.funzione media () per trovare la media dei valori di colonna "vinci" raggruppando le colonne "sport" e "paese".

La funzione ha determinato con successo le medie dei valori di colonna "Win" per ogni sport nel paese. Il frame dati raggruppato può essere ripristinato utilizzando la funzione reset_index (), che genera anche un nuovo indice, dandogli una struttura di dati di dati appropriata.

Viene aggiunto un indice per la riga di ciascun Frame Data. Per organizzare i risultati in una tabella attraente, possiamo anche usare la funzione pivot ().

Conclusione

In questo tutorial, abbiamo discusso di quale sia la media o la media dei numeri e come trovare la media di una colonna specifica (una o più) dopo aver raggruppato la colonna o le colonne di un telaio di dati. Abbiamo implementato alcuni esempi in questo articolo per insegnarti come determinare la media di un singolo numero intero o float raggruppando i dati di una singola colonna; Come determinare la media di più colonne usando il gruppo.funzione media (); e anche come determinare la media di colonne specifiche raggruppando le più colonne.