Panda percentuale cumulativa

Panda percentuale cumulativa
La formula matematica standard per il calcolo della percentuale cumulativa sta calcolando la somma cumulativa per ciascun valore nella colonna e dividendo la somma cumulativa di ciascuna cella in una colonna per la somma matematica di tutti i valori nella colonna e quindi moltiplicandola con 100. La domanda ora è come farlo in Python usando panda.

Questo articolo è progettato per farti imparare a trovare percentuali cumulative in Python usando i panda. Cominciamo con la formula di base o la sintassi della percentuale cumulativa e quindi procediamo oltre.

Qual è la sintassi della percentuale cumulativa?

Di seguito è la sintassi della percentuale cumulativa che puoi seguire.

Panda percentuale cumulativa

I frame di dati Panda in Python forniscono due funzioni predefinite, Sum () e cumsum (), per calcolare la percentuale cumulativa con Python. La funzione somma () viene utilizzata per calcolare la somma di tutti i valori nella colonna e la funzione cumsum () viene utilizzata per calcolare la somma cumulativa di ciascun valore nella colonna.

Come funziona la funzione cumsum () per calcolare la somma cumulativa in Python?

Il cumsum () è un frame di dati panda incorporato Python utilizzato per calcolare la somma cumulativa degli elementi dell'array. Prende un array come input e calcola una sequenza di somme parziali o, in altre parole, un totale in esecuzione. Lo scopo principale del calcolo di una somma cumulativa è di aggiornare la somma di un set di dati ogni volta che un nuovo valore viene aggiunto al set di dati.

Ci sono cinque passaggi che devi seguire per calcolare la somma cumulativa con i panda a Python, e qui lo sono:

  1. Crea un frame di dati o fornisci una serie di dati che si desidera calcolare la percentuale cumulativa.
  2. Calcola la somma cumulativa con la funzione cumsum () integrata.
  3. Calcola la somma dell'array con la funzione somma () incorporata.
  4. Dividi il valore cumum () calcolato per il valore di somma () calcolato.
  5. Moltiplica ciascuno valore calcolato per 100 e il valore risultante sarà la percentuale cumulata di un particolare valore nell'array.

Ora vediamo alcuni esempi per capire come funzionano cumsum () e sum () per calcolare la percentuale cumulativa della colonna con una cornice di dati Pandas in Python.

Esempio 1:
Nel primo esempio, inizieremo a calcolare la somma cumulativa di una sola colonna in modo da poter capire facilmente la funzione. Innanzitutto, crea un frame di dati come "data_frame" e fornisci i valori necessari per calcolare la somma cumulativa, quindi passare il parametro "data_frame" in PD.DataFrame () durante la specifica dei valori della colonna e, infine, utilizzare le funzioni integrate di cumsum () e sum () per calcolare la percentuale cumulativa.

Importa panda come PD
Importa Numpy come NP
data_frame =
'Nomi': ['ab', 'bc', 'cd', 'de', 'ef', 'fg', 'gh',
'Mathscore': [152.187.149.174.128.159.148]
data_frame = pd.DataFrame (data_frame, colonne = ['nomi', 'mathscore'])
data_frame ['cum_per'] = 100*(data_frame.Mathscore.cumsum () / data_frame.Mathscore.somma())
data_frame

Ecco l'output del codice sopra:

Esempio 2:
In questo esempio, ti mostreremo la somma cumulativa ad ogni passaggio. Il codice è esattamente lo stesso dell'esempio sopra, con alcune piccole modifiche per stampare la somma cumulativa ad ogni passaggio. Vedere il codice di esempio indicato di seguito:

Importa panda come PD
Importa Numpy come NP
data_frame =
'Nomi': ['ab', 'bc', 'cd', 'de', 'ef', 'fg', 'gh',
'Mathscore': [152.187.149.174.128.159.148]
data_frame = pd.DataFrame (data_frame, colonne = ['nomi', 'mathscore'])
data_frame ['cumulative Sum'] = data_frame.Mathscore.cumsum ()
_sum = data_frame.Mathscore.somma()
data_frame ['cumulative%'] = 100*(cum_sum / _sum)
data_frame

Ecco l'output. Si noti che la somma cumulativa è mostrata nella colonna "Somma cumulativa" di ciascun valore. E il totale di tutti i valori è 1097. Vedere l'ultima riga dell'output.

Esempio 3:
Abbiamo visto come calcolare la percentuale cumulativa di una colonna contemporaneamente. Ora vediamo come calcolare la somma di due colonne contemporaneamente. La procedura segue gli stessi passaggi degli esempi sopra.

Innanzitutto, è necessario creare un frame di dati e quindi fornire le colonne in cui è necessario calcolare la somma cumulativa. Quindi, trova la somma e la somma cumulativa con la funzione integrata di Sum () e Cumsum (), rispettivamente, e moltiplica i valori per 100. Ora stampano i valori nel frame di dati per vedere l'output. Il codice è riportato di seguito:

Importa panda come PD
Importa Numpy come NP
data_frame =
'Nomi': ['ab', 'bc', 'cd', 'de', 'ef', 'fg', 'gh',
'Mathscore': [152.187.149.174.128.159.148],
'EnglishScore': [134.167.125.189.192.145.186]
data_frame = pd.DataFrame (data_frame, colonne = ['nomi', 'mathscore', 'inglese'])
data_frame ['cum math sum'] = data_frame.Mathscore.cumsum ()
data_frame ['cum eng sum'] = data_frame.Inglese.cumsum ()
Msum = data_frame.Mathscore.somma()
Esum = data_frame.Inglese.somma()
data_frame ['mcumulative%'] = 100*(cum_sum / msum)
data_frame ['ecumulative%'] = 100*(data_frame ['cum ent sum'] / esum)
data_frame

L'output del codice sopra è il seguente:

Esempio 4:
In questo esempio, spiegheremo come gestire i valori "nan" in un array? E come cumsum () si occupa dei valori "nan" nel frame di dati. I passaggi iniziali sono gli stessi di quelli indicati negli esempi; Tuttavia, i passaggi aggiuntivi sono indicati di seguito nel codice:

Importa panda come PD
Importa Numpy come NP
data_frame = pd.DataFrame (
'Nomi': ['ab', 'bc', 'cd', 'de', 'ef', 'fg', 'gh',
'Mathscore': [152.187.149.174.128.159.148],
INDICE = ['1', '2', '3', '4', '5', '6', '7'])
Stampa (data_frame)

L'output mostrerà ora una colonna indice:

Se si noti, è aggiunto un "indice" di colonna aggiuntivo al frame di dati. Il prossimo passo è trovare la somma cumulativa che abbiamo calcolato negli esempi sopra.

data_frame ['cumulative Sum'] = data_frame.Mathscore.cumsum ()
Stampa (data_frame)

Ecco la somma cumulativa prima di fornire un valore "nan":

Dopodiché, lasciamo cadere un valore nell'array e sostituiamolo con il valore "nan". Guarda il codice qui sotto per scoprire come sostituire un valore con "NAN".

data_frame = data_frame.goccia ("somma cumulativa", axis = 1)
data_frame.loc ['3', 'mathscore'] = np.Nan
Stampa (data_frame)

Come puoi vedere nell'output di seguito che il valore di Index 3 viene sostituito con "NAN":

Calcoliamo di nuovo la somma cumulativa per vedere come cumsum () risponde al valore "nan" nell'array.

data_frame ['cumulative Sum'] = data_frame.Mathscore.cumsum ()
Stampa (data_frame)

Ecco l'output della nuova somma cumulativa.

Se noti che cumsum () ha ignorato il "nan" e ha calcolato la somma cumulativa di tutti gli altri valori. Inoltre, il valore totale è anche diverso in quanto l'unico valore nell'array è "nan" e non contribuisce al valore totale.

Conclusione:

Questo articolo è progettato per imparare a trovare la percentuale cumulativa con la cornice di dati Panda in Python. In primo luogo, abbiamo discusso della formula matematica di base della percentuale cumulativa, e poi abbiamo visto le due funzioni di Python integrate, Cumsum () e Sum (), per trovare la percentuale cumulativa con Panda in Python. La somma cumulativa è il totale in esecuzione di una sequenza di somme parziali. Con l'aiuto di esempi, abbiamo mostrato come utilizzare la funzione Python incorporata di Cumsum () e Sum () per calcolare la somma cumulativa di una colonna.