Pyspark - Operazioni cumulative di Panda DataFrame

Pyspark - Operazioni cumulative di Panda DataFrame
“In Python, PysPark è un modulo Spark che fornisce un tipo di elaborazione simile per Spark utilizzando DataFrame, che memorizzerà i dati dati in formato di riga e colonna.

PysPark - Pandas DataFrame rappresenta il Frame Data Pandas, ma contiene il Frame dati PysPark internamente.

Panda Support DataFrame Data Structure e Panda viene importato dal modulo PysPark.

Prima di allora, devi installare il modulo PysPark."

Comando

PIP Installa Pyspark

Sintassi all'importazione

da Pyspark Import Panda

Successivamente, possiamo creare o utilizzare il frame dati dal modulo Pandas.

Sintassi per creare Pandas DataFrame

pyspark.panda.DataFrame ()

Possiamo passare un dizionario o un elenco di elenchi con valori.

Creiamo un frame dati Pandas tramite Pyspark con tre colonne e cinque righe.

#import panda dal modulo pyspark
da Pyspark Import Panda
#Crea DataFrame da Pandas Pyspark
pyspark_pandas = pandas.DataFrame ('Mark1': [90,78,90,54,67], 'Mark2': [100,67,96,89,77], 'Mark3': [91,92,98,97,87] )
#Schermo
Print (pyspark_pandas)

Produzione

Ora andremo nel nostro tutorial.

Le operazioni cumulative vengono utilizzate per restituire i risultati cumulativi attraverso le colonne nel Frame di dati Pyspark Pandas.

Vediamoli uno per uno.

pyspark.panda.DataFrame.cumsum ()

cumsum () restituirà la somma cumulativa in ciascuna colonna. Può essere applicato all'intero Frame di dati Pandas Pyspark o a una singola colonna.

Sintassi

Sull'intero frame dati

pyspark_pandas.cumsum ()

Su una colonna particolare

pyspark_pandas.colonna.cumsum ()

Dove pyspark_pandas è i panda pyspark, i dati e la colonna fare riferimento al nome della colonna.

Esempio 1
In questo esempio, eseguiremo cumsum () nella colonna Mark2.

#import panda dal modulo pyspark
da Pyspark Import Panda
#Crea DataFrame da Pandas Pyspark
pyspark_pandas = pandas.DataFrame ('Mark1': [90,78,90,54,67], 'Mark2': [100,67,96,89,77], 'Mark3': [91,92,98,97,87] )
#Perform Cumsum sulla colonna Mark2
Print (pyspark_pandas.Mark2.cumsum ())

Produzione

Operazione di somma cumulativa che funziona nella colonna Mark2

100 = 100
100+67 = 167
100+67+96 = 263
100+67+96+89 = 352
100+67+96+89+77 = 429

Esempio 2
In questo esempio, eseguiremo Cumsum () sull'intero Frame Data Pandas Pyspark.

#import panda dal modulo pyspark
da Pyspark Import Panda
#Crea DataFrame da Pandas Pyspark
pyspark_pandas = pandas.DataFrame ('Mark1': [90,78,90,54,67], 'Mark2': [100,67,96,89,77], 'Mark3': [91,92,98,97,87] )
#perform cumsum su intero dati di dati Pyspark Pandas
Print (pyspark_pandas.cumsum ())

Produzione

Possiamo vedere che la somma cumulativa viene restituita in ogni colonna.

pyspark.panda.DataFrame.cumprod ()

CumProd () restituirà il prodotto cumulativo in ciascuna colonna. Può essere applicato sull'intero Frame di dati Pyspark Pandas o su una singola colonna.

Sintassi

Sull'intero frame dati

pyspark_pandas.cumprod ()

Su una colonna particolare

pyspark_pandas.colonna.cumprod ()

Dove pyspark_pandas è i panda pyspark, i dati e la colonna fare riferimento al nome della colonna.

Esempio 1
In questo esempio, eseguiremo CumProd () nella colonna Mark2.

#import panda dal modulo pyspark
da Pyspark Import Panda
#Crea DataFrame da Pandas Pyspark
pyspark_pandas = pandas.DataFrame ('Mark1': [90,78,90,54,67], 'Mark2': [100,67,96,89,77], 'Mark3': [91,92,98,97,87] )
#Perform CumProd su intero dati di dati Pyspark Pandas
Print (pyspark_pandas.cumprod ())

Produzione

Operazione cumulativa del prodotto che funziona in colonna Mark2

100 = 100
100*67 = 6700
100*67*96 = 643200
100*67*96*89 = 57244800
100*67*96*89*77 = 4407849600

Esempio 2
In questo esempio, eseguiremo CumProd () sull'intero Frame Data Pandas Pyspark.

#import panda dal modulo pyspark
da Pyspark Import Panda
#Crea DataFrame da Pandas Pyspark
pyspark_pandas = pandas.DataFrame ('Mark1': [90,78,90,54,67], 'Mark2': [100,67,96,89,77], 'Mark3': [91,92,98,97,87] )
#perform cummin sulla colonna Mark2
Print (pyspark_pandas.Mark2.cummin ())

Produzione

Possiamo vedere che il prodotto cumulativo viene restituito in ogni colonna.

pyspark.panda.DataFrame.cummin ()

cummin () restituirà il valore minimo cumulativo in ciascuna colonna. Può essere applicato sull'intero Frame di dati Pyspark Pandas o su una singola colonna.

Sintassi

Sull'intero frame dati

pyspark_pandas.cummin ()

Su una colonna particolare

pyspark_pandas.colonna.cummin ()

Dove pyspark_pandas è i panda pyspark, i dati e la colonna fare riferimento al nome della colonna.

Esempio 1
In questo esempio, eseguiremo cummin () nella colonna Mark2.

#import panda dal modulo pyspark
da Pyspark Import Panda
#Crea DataFrame da Pandas Pyspark
pyspark_pandas = pandas.DataFrame ('Mark1': [90,78,90,54,67], 'Mark2': [100,67,96,89,77], 'Mark3': [91,92,98,97,87] )
#perform cummin su intero dati di dati Pyspark Pandas
Print (pyspark_pandas.cummin ())

Produzione

Operazione minima cumulativa che lavora nella colonna Mark2

100 = 100
min (100,67) = 67
min (100,67,96) = 67
min (100,67,96,89) = 67
min (100,67,96,89,77) = 67

Esempio 2
In questo esempio, eseguiremo Cummin () sull'intero Frame Data Pandas Pyspark.

#import panda dal modulo pyspark
da Pyspark Import Panda
#Crea DataFrame da Pandas Pyspark
pyspark_pandas = pandas.DataFrame ('Mark1': [90,78,90,54,67], 'Mark2': [100,67,96,89,77], 'Mark3': [91,92,98,97,87] )
#Perform Cummax sulla colonna Mark2
Print (pyspark_pandas.Mark2.cummax ())

Produzione

Possiamo vedere che il valore minimo cumulativo viene restituito in ogni colonna.

pyspark.panda.DataFrame.cummax ()

cummax () restituirà il valore massimo cumulativo in ciascuna colonna. Può essere applicato sull'intero Frame di dati Pyspark Pandas o su una singola colonna.

Sintassi

Sull'intero frame dati

pyspark_pandas.cummax ()

Su una colonna particolare

pyspark_pandas.colonna.cummax ()

Dove pyspark_pandas è i panda pyspark, i dati e la colonna fare riferimento al nome della colonna.

Esempio 1
In questo esempio, eseguiremo cummax () nella colonna Mark2.

#import panda dal modulo pyspark
da Pyspark Import Panda
#Crea DataFrame da Pandas Pyspark
pyspark_pandas = pandas.DataFrame ('Mark1': [90,78,90,54,67], 'Mark2': [100,67,96,89,77], 'Mark3': [91,92,98,97,87] )
#Perform Cummax sulla colonna Mark2
Print (pyspark_pandas.Mark2.cummax ())

Produzione

Operazione massima cumulativa che lavora nella colonna Mark2

100 = 100
max (100,67) = 100
max (100,67,96) = 100
max (100,67,96,89) = 100
Max (100,67,96,89,77) = 100

Esempio 2
In questo esempio, eseguiremo Cummax () sull'intero Frame Data Pandas Pyspark.

#import panda dal modulo pyspark
da Pyspark Import Panda
#Crea DataFrame da Pandas Pyspark
pyspark_pandas = pandas.DataFrame ('Mark1': [90,78,90,54,67], 'Mark2': [100,67,96,89,77], 'Mark3': [91,92,98,97,87] )
#Perform Cummax su intero dati di dati Pyspark Pandas
Print (pyspark_pandas.cummax ())

Produzione

Possiamo vedere che il valore massimo cumulativo viene restituito in ogni colonna.

Conclusione

In questo tutorial Pyspark Panda, abbiamo discusso delle operazioni cumulative eseguite sul Frame dati Pyspark Panda. cumsum () viene utilizzato per restituire la somma cumulativa in ciascuna colonna, cumprod () viene utilizzato per restituire il prodotto cumulativo in ciascuna colonna, cummin () viene utilizzato per restituire il valore minimo cumulativo in ciascuna colonna e cummax () restituire il valore massimo cumulativo in ciascuna colonna.