PysPark - Pandas DataFrame rappresenta il Frame Data Pandas, ma contiene il Frame dati PysPark internamente.
Panda Support DataFrame Data Structure e Panda viene importato dal modulo PysPark.
Prima di allora, devi installare il modulo PysPark."
Comando
PIP Installa PysparkSintassi all'importazione
da Pyspark Import PandaSuccessivamente, possiamo creare o utilizzare il frame dati dal modulo Pandas.
Sintassi per creare Pandas DataFrame
pyspark.panda.DataFrame ()Possiamo passare un dizionario o un elenco di elenchi con valori.
Creiamo un frame dati Pandas tramite Pyspark con tre colonne e cinque righe.
#import panda dal modulo pysparkProduzione
Ora andremo nel nostro tutorial.
Le operazioni cumulative vengono utilizzate per restituire i risultati cumulativi attraverso le colonne nel Frame di dati Pyspark Pandas.
Vediamoli uno per uno.
pyspark.panda.DataFrame.cumsum ()
cumsum () restituirà la somma cumulativa in ciascuna colonna. Può essere applicato all'intero Frame di dati Pandas Pyspark o a una singola colonna.
Sintassi
Sull'intero frame dati
pyspark_pandas.cumsum ()Su una colonna particolare
pyspark_pandas.colonna.cumsum ()Dove pyspark_pandas è i panda pyspark, i dati e la colonna fare riferimento al nome della colonna.
Esempio 1
In questo esempio, eseguiremo cumsum () nella colonna Mark2.
Produzione
Operazione di somma cumulativa che funziona nella colonna Mark2
100 = 100Esempio 2
In questo esempio, eseguiremo Cumsum () sull'intero Frame Data Pandas Pyspark.
Produzione
Possiamo vedere che la somma cumulativa viene restituita in ogni colonna.
pyspark.panda.DataFrame.cumprod ()
CumProd () restituirà il prodotto cumulativo in ciascuna colonna. Può essere applicato sull'intero Frame di dati Pyspark Pandas o su una singola colonna.
Sintassi
Sull'intero frame dati
pyspark_pandas.cumprod ()Su una colonna particolare
pyspark_pandas.colonna.cumprod ()Dove pyspark_pandas è i panda pyspark, i dati e la colonna fare riferimento al nome della colonna.
Esempio 1
In questo esempio, eseguiremo CumProd () nella colonna Mark2.
Produzione
Operazione cumulativa del prodotto che funziona in colonna Mark2
100 = 100Esempio 2
In questo esempio, eseguiremo CumProd () sull'intero Frame Data Pandas Pyspark.
Produzione
Possiamo vedere che il prodotto cumulativo viene restituito in ogni colonna.
pyspark.panda.DataFrame.cummin ()
cummin () restituirà il valore minimo cumulativo in ciascuna colonna. Può essere applicato sull'intero Frame di dati Pyspark Pandas o su una singola colonna.
Sintassi
Sull'intero frame dati
pyspark_pandas.cummin ()Su una colonna particolare
pyspark_pandas.colonna.cummin ()Dove pyspark_pandas è i panda pyspark, i dati e la colonna fare riferimento al nome della colonna.
Esempio 1
In questo esempio, eseguiremo cummin () nella colonna Mark2.
Produzione
Operazione minima cumulativa che lavora nella colonna Mark2
100 = 100Esempio 2
In questo esempio, eseguiremo Cummin () sull'intero Frame Data Pandas Pyspark.
Produzione
Possiamo vedere che il valore minimo cumulativo viene restituito in ogni colonna.
pyspark.panda.DataFrame.cummax ()
cummax () restituirà il valore massimo cumulativo in ciascuna colonna. Può essere applicato sull'intero Frame di dati Pyspark Pandas o su una singola colonna.
Sintassi
Sull'intero frame dati
pyspark_pandas.cummax ()Su una colonna particolare
pyspark_pandas.colonna.cummax ()Dove pyspark_pandas è i panda pyspark, i dati e la colonna fare riferimento al nome della colonna.
Esempio 1
In questo esempio, eseguiremo cummax () nella colonna Mark2.
Produzione
Operazione massima cumulativa che lavora nella colonna Mark2
100 = 100Esempio 2
In questo esempio, eseguiremo Cummax () sull'intero Frame Data Pandas Pyspark.
Produzione
Possiamo vedere che il valore massimo cumulativo viene restituito in ogni colonna.
Conclusione
In questo tutorial Pyspark Panda, abbiamo discusso delle operazioni cumulative eseguite sul Frame dati Pyspark Panda. cumsum () viene utilizzato per restituire la somma cumulativa in ciascuna colonna, cumprod () viene utilizzato per restituire il prodotto cumulativo in ciascuna colonna, cummin () viene utilizzato per restituire il valore minimo cumulativo in ciascuna colonna e cummax () restituire il valore massimo cumulativo in ciascuna colonna.