Pyspark - Funzioni aggregate di dati Panda

Pyspark - Funzioni aggregate di dati Panda
“In Python, PysPark è un modulo Spark che fornisce un tipo simile di elaborazione come Spark utilizzando DataFrame, che memorizzerà i dati forniti in formato di riga e colonna.

PysPark - Pandas DataFrame rappresenta il Frame Data Pandas, ma contiene il Frame dati PysPark internamente.

Panda Support DataFrame Data Structure e Panda viene importato dal modulo PysPark.

Prima di allora, devi installare il modulo PysPark."

Comando

PIP Installa Pyspark

Sintassi all'importazione

da Pyspark Import Panda

Successivamente, possiamo creare o utilizzare il frame dati dal modulo Pandas.

Sintassi per creare Pandas DataFrame

pyspark.panda.DataFrame ()

Possiamo passare un dizionario o un elenco di elenchi con valori.

Creiamo un frame dati Pandas tramite Pyspark con quattro colonne e cinque righe.

#import panda dal modulo pyspark
da Pyspark Import Panda
#Crea DataFrame da Pandas Pyspark
pyspark_pandas = pandas.DataFrame ('Student_LastName': ['Manasa', 'Chamundi', 'Lehara', 'Kapila', 'Hyna'], 'Mark1': [90,78,90,54,67], 'Mark2': [ 100,67,96,89,77], 'Mark3': [91,92,98,97,87])
#Schermo
Print (pyspark_pandas)

Produzione

Ora andremo nel nostro tutorial.

Le funzioni aggregate vengono utilizzate per eseguire operazioni di aggregazione come Sum (), Min (), Media () e Max ().Queste operazioni funzionano solo su dati numerici come interi, doppio ecc.

Vediamoli uno per uno.

pyspark.panda.DataFrame.somma()

Sum () nel Pyspark Pandas DataFrame viene utilizzato per restituire la somma totale su righe e colonne.

Se si desidera restituire la somma su ogni riga, è necessario specificare l'asse = 1 e se si desidera restituire la somma su ciascuna colonna, è necessario specificare l'asse = 0. Per impostazione predefinita, eseguirà la colonna.

Sintassi

pyspark_pandas.somma (axis = 0/axis = 1)

Dove pyspark_pandas è il frame dati Pyspark Pandas.

Parametro
Ci vuole solo un parametro.

Axis-0 Specifica il calcolo e l'asse di colonna = 1 Specifica il calcolo della riga.

Esempio 1
In questo esempio, restituiremo la somma totale su ogni riga.

#import panda dal modulo pyspark
da Pyspark Import Panda
#Crea DataFrame da Pandas Pyspark
pyspark_pandas = pandas.DataFrame ('Student_LastName': ['Manasa', 'Chamundi', 'Lehara', 'Kapila', 'Hyna'], 'Mark1': [90,78,90,54,67], 'Mark2': [ 100,67,96,89,77], 'Mark3': [91,92,98,97,87])
#Perform Sum () Operazione di aggregazione Riga saggia
Print (pyspark_pandas.somma (asse = 1))

Produzione

0 281
1 237
2 284
3 240
4 231
dType: int64

Possiamo vedere che l'operazione di somma viene eseguita in ogni riga.

Come, prima riga - 90+100+91 = 281.

Esempio 2
In questo esempio, restituiremo la somma totale su ogni colonna.

#import panda dal modulo pyspark
da Pyspark Import Panda
#Crea DataFrame da Pandas Pyspark
pyspark_pandas = pandas.DataFrame ('Student_LastName': ['Manasa', 'Chamundi', 'Lehara', 'Kapila', 'Hyna'], 'Mark1': [90,78,90,54,67], 'Mark2': [ 100,67,96,89,77], 'Mark3': [91,92,98,97,87])
#Perform Sum () Colonna operazione di aggregazione saggia

Produzione

Mark1 379
Mark2 429
Mark3 465
dType: int64

Possiamo vedere che l'operazione di somma viene eseguita in ogni colonna.

Ad esempio, per la colonna Mark1 - 90+78+90+54+67 = 379.

pyspark.panda.DataFrame.Significare()

Media () nel Pyspark Pandas DataFrame viene utilizzato per restituire la media totale su righe e colonne.

Se si desidera restituire la media su ogni riga, è necessario specificare l'asse = 1 e se si desidera restituire la media su ogni colonna, è necessario specificare l'asse = 0. Per impostazione predefinita, eseguirà la colonna.

Sintassi

pyspark_pandas.media (asse = 0/asse = 1)

Dove pyspark_pandas è il frame dati Pyspark Pandas.

Parametro

Ci vuole solo un parametro.

Axis-0 Specifica il calcolo e l'asse di colonna = 1 Specifica il calcolo della riga.

Esempio 1
In questo esempio, restituiremo la media totale in ogni riga.

#import panda dal modulo pyspark
da Pyspark Import Panda
#Crea DataFrame da Pandas Pyspark
pyspark_pandas = pandas.DataFrame ('Student_LastName': ['Manasa', 'Chamundi', 'Lehara', 'Kapila', 'Hyna'], 'Mark1': [90,78,90,54,67], 'Mark2': [ 100,67,96,89,77], 'Mark3': [91,92,98,97,87])
#Perform Media () Operazione di aggregazione Riga saggia
Print (pyspark_pandas.media (asse = 1))

Produzione

0 93.666667
1 79.000000
2 94.666667
3 80.000000
4 77.000000
dType: float64

Possiamo vedere che l'operazione media viene eseguita in ogni riga.

Come, prima riga - (90+100+91)/3 = 93.666667

Esempio 2
In questo esempio, restituiremo la media totale in ogni colonna.

#import panda dal modulo pyspark
da Pyspark Import Panda
#Crea DataFrame da Pandas Pyspark
pyspark_pandas = pandas.DataFrame ('Student_LastName': ['Manasa', 'Chamundi', 'Lehara', 'Kapila', 'Hyna'], 'Mark1': [90,78,90,54,67], 'Mark2': [ 100,67,96,89,77], 'Mark3': [91,92,98,97,87])
#Perform Media () Colonna operazione di aggregazione saggia
Print (pyspark_pandas.media (asse = 0))

Produzione

Mark1 75.8
Mark2 85.8
Mark3 93.0
dType: float64

Possiamo vedere che l'operazione media viene eseguita in ogni colonna.

Come, per la colonna Mark1 - (90+78+90+54+67)/5 = 75.8.

pyspark.panda.DataFrame.min ()

Min () in Pyspark Pandas DataFrame viene utilizzato per il valore minimo su righe e colonne.

Se si desidera restituire il valore minimo in ogni riga, è necessario specificare l'asse = 1 e se si desidera restituire il minimo su ciascuna colonna, è necessario specificare l'asse =. Per impostazione predefinita, eseguirà la colonna.

Sintassi

pyspark_pandas.min (asse = 0/axis = 1)

Dove pyspark_pandas è il frame dati Pyspark Pandas.

Parametro
Ci vuole solo un parametro.

Axis-0 Specifica il calcolo e l'asse di colonna = 1 Specifica il calcolo della riga.

Esempio 1
In questo esempio, restituiremo il valore minimo su ogni riga.

#import panda dal modulo pyspark
da Pyspark Import Panda
#Crea DataFrame da Pandas Pyspark
pyspark_pandas = pandas.DataFrame ('Student_LastName': ['Manasa', 'Chamundi', 'Lehara', 'Kapila', 'Hyna'], 'Mark1': [90,78,90,54,67], 'Mark2': [ 100,67,96,89,77], 'Mark3': [91,92,98,97,87])
#Perform Min () Operazione di aggregazione Riga saggia
Print (pyspark_pandas.min (asse = 1))

Produzione

0 90
1 67
2 90
3 54
4 67
dType: int64

Possiamo vedere che l'aggregazione min () viene eseguita in ogni riga.

Come, prima riga - minimo (90.100.91) = 90

Esempio 2
In questo esempio, restituiremo il valore minimo su ciascuna colonna.

#import panda dal modulo pyspark
da Pyspark Import Panda
#Crea DataFrame da Pandas Pyspark
pyspark_pandas = pandas.DataFrame ('Student_LastName': ['Manasa', 'Chamundi', 'Lehara', 'Kapila', 'Hyna'], 'Mark1': [90,78,90,54,67], 'Mark2': [ 100,67,96,89,77], 'Mark3': [91,92,98,97,87])
#Perform Min () Colonna operazione di aggregazione saggia
Print (pyspark_pandas.min (asse = 0))

Produzione

Mark1 54
Mark2 67
Mark3 87
dType: int64

Possiamo vedere che l'aggregazione min () viene eseguita in ogni colonna.

Come, per la colonna Mark1 - min (90,78,90,54,67) = 54.

pyspark.panda.DataFrame.max ()

max () nel Pyspark Pandas DataFrame viene utilizzato per il massimo valore su righe e colonne.

Se si desidera restituire il valore massimo in ogni riga, è necessario specificare l'asse = 1 e se si desidera restituire il massimo su ciascuna colonna, è necessario specificare l'asse =. Per impostazione predefinita, eseguirà la colonna.

Sintassi

pyspark_pandas.max (axis = 0/axis = 1)

Dove pyspark_pandas è il frame dati Pyspark Pandas.

Parametro
Ci vuole solo un parametro.

Axis-0 Specifica il calcolo e l'asse di colonna = 1 Specifica il calcolo della riga.

Esempio 1
In questo esempio, restituiremo il valore massimo in ogni riga.

#import panda dal modulo pyspark
da Pyspark Import Panda
#Crea DataFrame da Pandas Pyspark
pyspark_pandas = pandas.DataFrame ('Student_LastName': ['Manasa', 'Chamundi', 'Lehara', 'Kapila', 'Hyna'], 'Mark1': [90,78,90,54,67], 'Mark2': [ 100,67,96,89,77], 'Mark3': [91,92,98,97,87])
#perform max () operazione di aggregazione riga saggia
Print (pyspark_pandas.max (asse = 1))

Produzione

0 100
1 92
2 98
3 97
4 87
dType: int64

Possiamo vedere che l'aggregazione max () viene eseguita in ogni riga.

Come, prima riga - massimo (90.100.91) = 100

Esempio 2
In questo esempio, restituiremo il valore massimo su ogni colonna.

#import panda dal modulo pyspark
da Pyspark Import Panda
#Crea DataFrame da Pandas Pyspark
pyspark_pandas = pandas.DataFrame ('Student_LastName': ['Manasa', 'Chamundi', 'Lehara', 'Kapila', 'Hyna'], 'Mark1': [90,78,90,54,67], 'Mark2': [ 100,67,96,89,77], 'Mark3': [91,92,98,97,87])
#perform max () colonna operativa di aggregazione saggia
Print (pyspark_pandas.max (asse = 0))

Produzione

Mark1 90
Mark2 100
Mark3 98
dType: int64

Possiamo vedere che l'aggregazione max () viene eseguita in ogni colonna.

Come, per la colonna Mark1 - max (90,78,90,54,67) = 90.

Conclusione

In questo tutorial Pyspark Pandas DataFrame, abbiamo visto quattro diverse funzioni di aggregazione eseguite sul frame dati. È possibile calcolare attraverso la riga e in termini di colonna con i parametri dell'asse. Sum () restituirà la somma totale, Avg () viene utilizzato per restituire la media totale, min () viene utilizzato per restituire il valore minimo e max () restituirà il valore massimo.