Statistiche di riepilogo dei panda

Statistiche di riepilogo dei panda
"Pandas" è un grande linguaggio per eseguire l'analisi dei dati a causa del suo grande ecosistema di pacchetti Python incentrati sui dati. Ciò semplifica l'analisi e l'importazione di entrambi i fattori. Panda DataFrame fornisce modi anche per sintetizzare i valori numerici presenti nel frame dati. Si noti che è importante ottenere il riepilogo delle statistiche in qualsiasi campo per ulteriori analisi delle prestazioni dei dati secondo le statistiche. I calcoli delle statistiche includono la media aritmetica come le posizioni o le tendenze che si rivivono, la deviazione standard, la deviazione media in base alla forma dei dati e le misure di valutazione in base al frame dati che lavora. Discuteremo tutti i metodi del calcolo delle statistiche di sintesi in Panda. Useremo lo strumento "Spyder" per l'implementazione del codice, che è un ambiente "Python".

Sintassi:

“Statistiche = DF.Descrivi (valore) "

La sintassi precedente viene utilizzata per calcolare le statistiche di riepilogo in panda. Il "DF" nella sintassi rappresenta il "Frame dati". Mentre il "descrivere" è usato nella riga specifica o nella colonna che definisce il "DF". Il "valore" è il valore della riga o la colonna in cui è necessario eseguire la funzione che è stata assegnata alle statistiche. La funzione ".Descrive () ”fornisce i risultati di output come ottimo formato visualizzato nel frame dati. Il metodo esegue le statistiche di riepilogo nel frame dati delle colonne numeriche incluse. I metodi includono "Media", "Valori unici", "Min", "Max" e "Count".

Qui, sono mostrati i seguenti modi in cui si possono fare le statistiche di riepilogo sui panda. Implementeremo ciascuno di essi nell'esempio per una migliore comprensione del metodo:

  • Calcoli delle statistiche di riepilogo nei panda per tutte le variabili numeriche
  • Calcolo delle statistiche di riepilogo in panda raggruppati da una variabile
  • Calcoli delle statistiche di riepilogo in panda per tutte le variabili di stringa

Creazione di un telaio di dati per l'esecuzione di esempio dei calcoli nelle statistiche di riepilogo di Pandas

Innanzitutto, apri lo strumento "spyder" per implementare il codice. Quindi, importa la Biblioteca Panadas come "PD" e la libreria Numpy come "NP". Il numpy viene utilizzato per il calcolo numerico. Inizia a creare il team di dati, che consiste nel team come "N" e "W" con i loro punteggi come "44", "41", "42", "43", "45", "47", "48", e "50". Gli assist sono come "2", "NP. Nan "," 4 "," 5 "," 6 "," 7 "," 8 "e" 9 ". Il valore dei rimbalzi sarà come "18", "20", "17", "16", "11", "12", "29", "NP.nan "e" 25 ". Il "np.NAN "è il NP per" Numpy "e Nan rappresenta" non un valore ", il che significa che non c'è valore assegnato lì. Quindi dare la condizione "stampare" il frame dati. La funzione "Print ()" funziona per stampare i risultati del codice e scrivere i risultati secondo il messaggio.

L'output visualizza il frame dati creato di conseguenza ai valori assegnati nel codice. Ci sono le "quattro" colonne: la squadra, i punteggi, gli assist e i rimbalzi.

Esempio # 01: calcoli delle statistiche di riepilogo nei panda per tutte le variabili numeriche

In questo esempio, impareremo come calcolare le statistiche di riepilogo in Panda per tutte le variabili numeriche. Il telaio di dati è costituito dal team come "O" e "V"; Hanno segnato "45", "88", "25", "55", "24", "78", "87", "40" e "20". Gli assist sono "2", "11", "1", "3", "6", "4", "2", "10" e "NP.Nan ". I rimbalzi sono "31", "32", "33", "34", "35", "37", "38", "null" e "39". La funzione "Descrivi" del telaio dati calcolerà la variabile numerica nel frame dati delle statistiche di riepilogo di Panda.

L'output visualizza le colonne di colonne numeriche, che sono "punteggi", "assist" e "rimbalzi". Il conteggio fa il lavoro di contare i valori "non null". La media è per i valori "medi", std per il calcolo dei valori di deviazione standard, il min è per il valore min che significa il calcolo dei valori minimi e il massimo per il calcolo del valore massimo, il 25 percento, 50 percento, e il 75 percento è per le considerazioni sui valori.

Esempio # 02: calcolo delle statistiche di riepilogo nei panda per il raggruppato da una variabile:

In questo esempio eseguiremo il calcolo del gruppo per una variabile nel frame dati delle statistiche di riepilogo. Il telaio di dati è costituito dalle due squadre come "M" e "Q" con i loro punteggi come "59", "58", "56", "50", "51", "53", "54" e "55 ". Gli assist valori come "null", "7", "17", "18", "5", "3", "6", "21" e "15". I rimbalzi valori come "81", "82", "60", "30", "24", "97", "56", "Null" e "71". La funzione GroupBy con le entrate del team è la condizione approvata con il calcolo "medio ()" dot "che ci porta ai risultati delle statistiche di riepilogo di Panda. Qui, la media verrà calcolata con il "numpy", per calcolare l'array numpy in esecuzione.

L'output visualizza il calcolo delle statistiche di riepilogo in panda. I team "M 'e" Q "che mostrano con i calcoli in quanto la parte superiore ha i valori che si verificano più frequentemente nel" DF ", la" freq "è il conteggio delle frequenze del valore più che si verifica nel" DF "e nel "Unique" viene utilizzato per i valori più univoci nel frame dati. Questo è le operazioni di fondo eseguite per il calcolo del gruppo per tutte le variabili nelle statistiche riassuntive dei panda.

Esempio # 03: calcoli delle statistiche di riepilogo in panda per tutte le variabili di stringa

In questo esempio, implementeremo il calcolo di tutte le variabili di stringa nei panda per le statistiche di riepilogo. Il frame dati ha i team come "S" e "D". I punteggi delle squadre sono "59", "53", "96", "80", "85", "62", "27", "22" e "21". Gli assist valori come "null", "8", "27", "50", "15", "31", "61", "11" e "17", e i rimbalzi sono costituiti dai valori "70 "," 84 "," 30 "," 20 "," 94 "," 95 "," 90 "," Null "e" 91 "rispettivamente. La condizione verrà distribuita per il calcolo eseguito nel frame dati specificando la funzione "descrivi" e nella parentesi "include" uguale a "oggetto". Questo ci fornirà il frame dati calcolato di tutte le variabili di stringa nelle statistiche di riepilogo dei panda.

I prodotti sono usciti come valore mediano per le colonne di "punti", "rimbalzi" e le variabili di stringa "assist" che sono state raggruppate dalla variabile "squadra". L'output è come "conta, unica, top, freq" i loro valori sono come "9", "2", "D" e "5".

Conclusione

I panda sono veloci e facili da usare in biblioteca. Le statistiche di riepilogo di Panda sono una funzione così utile e utile che abbiamo usato nei panda. Ha escogitato metodi diversi per situazioni diverse. Abbiamo eseguito tutti i modi in cui le statistiche di riepilogo Panda possono essere calcolate nel frame dati. L'esempio precedente ha fornito un'enorme spiegazione su come eseguire ciascuno di essi. Abbiamo completato il calcolo di riepilogo delle statistiche in Panda per la variabile stringa presente nel frame dati, il calcolo delle statistiche in panda per il gruppo di una variabile disponibile nel frame dati e, infine, abbiamo anche eseguito l'esempio del calcolo delle statistiche di riepilogo i valori numerici nel frame dati. I calcoli delle statistiche di riepilogo svolgono un ruolo importante nelle industrie e nelle aziende.