Pyspark - Operazioni cumulative della serie Pandas

Pyspark - Operazioni cumulative della serie Pandas
“In Python, Pyspark è un modulo Spark utilizzato per fornire un tipo di elaborazione simile come Spark Using Series, che memorizzerà i dati dati in un array (colonna in Pyspark internamente).

Pyspark - La serie Pandas rappresenta la serie Pandas, ma contiene la colonna Pyspark internamente.

Struttura dei dati della serie di supporto Panda e Panda viene importato dal modulo Pyspark.

Prima di allora, devi installare il modulo PysPark."

Comando

PIP Installa Pyspark

Sintassi all'importazione

da Pyspark Import Panda

Successivamente, possiamo creare o utilizzare la serie dal modulo Pandas.

Sintassi per creare serie Pandas

pyspark.panda.Serie()

Possiamo passare un elenco o un elenco di elenchi con valori.

Creiamo una serie Pandas tramite Pyspark che ha cinque valori numerici.

#import panda dal modulo pyspark
da Pyspark Import Panda
#create serie con 5 elementi
pyspark_series = panda.Serie ([90,56,78,54,0])
Stampa (pyspark_series)

Produzione

Ora andremo nel nostro tutorial.

Le operazioni cumulative vengono utilizzate per restituire i risultati cumulativi attraverso i valori nella serie Pyspark Pandas.

Vediamoli uno per uno.

pyspark.panda.Serie.cumsum ()

cumsum () restituirà la somma cumulativa della serie per ciascun elemento. Può essere applicato a tutta la serie Pyspark Pandas.

Sintassi

pyspark_series.cumsum ()

Dove pyspark_series è la serie Pyspark Pandas

Esempio
In questo esempio, eseguiremo un'operazione di somma cumulativa sulla serie.

#import panda dal modulo pyspark
da Pyspark Import Panda
#create serie con 5 elementi
pyspark_series = panda.Serie ([90,56,78,54,0])
#return cumulative Sum
Stampa (pyspark_series.cumsum ())

Produzione

Lavorando:
90
90+56 = 146
90+56+78 = 224
90+56+78+54 = 278
90+56+78+54+0 = 278

pyspark.panda.Serie.cumprod ()

CumProd () restituirà il prodotto cumulativo della serie per ogni elemento. Può essere applicato a tutta la serie Pyspark Pandas.

Sintassi

pyspark_series.cumprod ()

Dove pyspark_series è la serie Pyspark Pandas

Esempio
In questo esempio, eseguiremo un'operazione cumulativa del prodotto sulla serie.

#import panda dal modulo pyspark
da Pyspark Import Panda
#create serie con 5 elementi
pyspark_series = panda.Serie ([90,56,78,54,0])
#Return Cumulative Product
Stampa (pyspark_series.cumprod ())

Produzione

Lavorando:
90
90*56 = 5040
90*56*78 = 393120
90*56*78*54 = 21228480
90*56*78*54*0 = 0

pyspark.panda.Serie.cummin ()

cummin () restituirà il valore minimo cumulativo della serie per ciascun elemento. Può essere applicato a tutta la serie Pyspark Pandas.

Sintassi

pyspark_series.cummin ()

Dove pyspark_series è la serie Pyspark Pandas

Esempio
In questo esempio, eseguiremo un'operazione cumulativa Min sulla serie.

#import panda dal modulo pyspark
da Pyspark Import Panda
#create serie con 5 elementi
pyspark_series = panda.Serie ([90,56,78,54,0])
#Return Minimo cumulativo
Stampa (pyspark_series.cummin ())

Produzione

Lavorando:
90
minimo (90,56) = 56
minimo (90,56,78) = 56
minimo (90,56,78,54) = 54
minimo (90,56,78,54,0) = 0

pyspark.panda.Serie.cummin ()

cummin () restituirà il valore minimo cumulativo della serie per ciascun elemento. Può essere applicato a tutta la serie Pyspark Pandas.

Sintassi

pyspark_series.cummax ()

Dove pyspark_series è la serie Pyspark Pandas

Esempio
In questo esempio, eseguiremo un'operazione cumulativa massima sulla serie.

#import panda dal modulo pyspark
da Pyspark Import Panda
#create serie con 5 elementi
pyspark_series = panda.Serie ([90,56,78,54,0])
#return cumulative massimo
Stampa (pyspark_series.cummax ())

Produzione

Lavorando:
90
massimo (90,56) = 90
massimo (90,56,78) = 90
massimo (90,56,78,54) = 90
massimo (90,56,78,54,0) = 90

Conclusione

In questo tutorial di Pyspark Pandas, abbiamo discusso delle operazioni cumulative eseguite nella serie Pyspark Panda. cumsum () viene utilizzato per restituire la somma cumulativa, cumprod () viene utilizzato per restituire il prodotto cumulativo, cummin () viene utilizzato per restituire il valore minimo cumulativo e cummax () viene utilizzato per restituire il valore cumulativo massimo.