Pyspark - Funzioni aggregate della serie Pandas

Pyspark - Funzioni aggregate della serie Pandas
“In Python, Pyspark è un modulo Spark utilizzato per fornire un tipo di elaborazione simile come Spark Using Series, che memorizzerà i dati dati in un array (colonna in Pyspark internamente).

Pyspark - La serie Pandas rappresenta la serie Pandas, ma contiene la colonna Pyspark internamente.

Struttura dei dati della serie di supporto Panda e Panda viene importato dal modulo Pyspark.

Prima di allora, devi installare il modulo PysPark."

Comando

PIP Installa Pyspark

Sintassi all'importazione

da Pyspark Import Panda

Successivamente, possiamo creare o utilizzare la serie dal modulo Pandas.

Sintassi per creare serie Pandas

pyspark.panda.Serie()

Possiamo passare un elenco o un elenco di elenchi con valori.

Creiamo una serie Pandas tramite Pyspark che ha cinque valori numerici.

#import panda dal modulo pyspark
da Pyspark Import Panda
#create serie con 5 elementi
pyspark_series = panda.Serie ([90,56,78,54,0])
Stampa (pyspark_series)

Produzione

Ora andremo nel nostro tutorial.

Le funzioni aggregate vengono utilizzate per eseguire operazioni di aggregazione come Sum (), Min (), Media () e Max ().Queste operazioni funzionano solo su dati numerici come interi, doppio, ecc

Vediamoli uno per uno.

pyspark.panda.Serie.somma()

Sum () nella serie PysPark Pandas viene utilizzato per restituire la somma totale.

Sintassi

pyspark_series.somma()

Dove pyspark_series è la serie Pyspark Pandas.

Esempio
Somma di ritorno della Serie Pandas Pyspark sopra.

#import panda dal modulo pyspark
da Pyspark Import Panda
#create serie con 5 elementi
pyspark_series = panda.Serie ([90,56,78,54,0])
#SOMMA SUGGERIMENTO
Stampa (pyspark_series.somma())

Produzione:

278
Lavorando:
90+56+78+54+0 = 278.

pyspark.panda.Serie.Significare()

Media () nella serie Pyspark Pandas viene utilizzata per restituire la media totale.

Sintassi

pyspark_series.Significare()

Dove pyspark_series è la serie Pyspark Pandas.

Esempio
Return Media della Serie Pandas Pyspark sopra.

#import panda dal modulo pyspark
da Pyspark Import Panda
#create serie con 5 elementi
pyspark_series = panda.Serie ([90,56,78,54,0])
#Return Media
Stampa (pyspark_series.Significare())

Produzione

55.6
Lavorando:
(90+56+78+54+0)/5 = 55.6.

pyspark.panda.Serie.min ()

Min () nella serie Pyspark Pandas viene utilizzato per restituire il valore minimo.

Sintassi

pyspark_series.min ()

Dove pyspark_series è la serie Pyspark Pandas.

Esempio
Restituisci il valore minimo dalla serie Pyspark Pandas sopra.

#import panda dal modulo pyspark
da Pyspark Import Panda
#create serie con 5 elementi
pyspark_series = panda.Serie ([90,56,78,54,0])
#Restituzione minima
Stampa (pyspark_series.min ())

Produzione

0
Lavorando:
minimo (90+56+78+54+0) = 0

pyspark.panda.Serie.max ()

max () nella serie Pyspark Pandas viene utilizzato per restituire il valore massimo.

Sintassi

pyspark_series.max ()

Dove pyspark_series è la serie Pyspark Pandas.

Esempio
Restituisci il valore massimo dalla serie Pyspark Pandas sopra.

#import panda dal modulo pyspark
da Pyspark Import Panda
#create serie con 5 elementi
pyspark_series = panda.Serie ([90,56,78,54,0])
#Restituzione massimo
Stampa (pyspark_series.max ())

Produzione

90
Lavorando:
Massimo (90+56+78+54+0) = 90

Conclusione

In questo tutorial sulla serie Pyspark Pandas, abbiamo visto quattro diverse funzioni di aggregazione eseguite nella serie. Sum () restituirà la somma totale, avg () viene utilizzato per restituire la media totale, min () viene utilizzato per restituire il valore minimo e max () restituirà il valore massimo.