Pyspark - Funzioni aggregate di dati Panda

Dante Palumbo

“In Python, PysPark è un modulo Spark che fornisce un tipo simile di elaborazione come Spark utilizzando DataFrame, che memorizzerà i dati forniti in formato di riga e colonna.

PysPark - Pandas DataFrame rappresenta il Frame Data Pandas, ma contiene il Frame dati PysPark internamente.

Panda Support DataFrame Data Structure e Panda viene importato dal modulo PysPark.

Prima di allora, devi installare il modulo PysPark."

Comando

PIP Installa Pyspark

Sintassi all'importazione

da Pyspark Import Panda

Successivamente, possiamo creare o utilizzare il frame dati dal modulo Pandas.

Sintassi per creare Pandas DataFrame

pyspark.panda.DataFrame ()

Possiamo passare un dizionario o un elenco di elenchi con valori.

Creiamo un frame dati Pandas tramite Pyspark con quattro colonne e cinque righe.

#import panda dal modulo pyspark
da Pyspark Import Panda
#Crea DataFrame da Pandas Pyspark
pyspark_pandas = pandas.DataFrame ('Student_LastName': ['Manasa', 'Chamundi', 'Lehara', 'Kapila', 'Hyna'], 'Mark1': [90,78,90,54,67], 'Mark2': [ 100,67,96,89,77], 'Mark3': [91,92,98,97,87])
#Schermo
Print (pyspark_pandas)

Produzione

Ora andremo nel nostro tutorial.

Le funzioni aggregate vengono utilizzate per eseguire operazioni di aggregazione come Sum (), Min (), Media () e Max ().Queste operazioni funzionano solo su dati numerici come interi, doppio ecc.

Vediamoli uno per uno.

pyspark.panda.DataFrame.somma()

Sum () nel Pyspark Pandas DataFrame viene utilizzato per restituire la somma totale su righe e colonne.

Se si desidera restituire la somma su ogni riga, è necessario specificare l'asse = 1 e se si desidera restituire la somma su ciascuna colonna, è necessario specificare l'asse = 0. Per impostazione predefinita, eseguirà la colonna.

Sintassi

pyspark_pandas.somma (axis = 0/axis = 1)

Dove pyspark_pandas è il frame dati Pyspark Pandas.

Parametro
Ci vuole solo un parametro.

Axis-0 Specifica il calcolo e l'asse di colonna = 1 Specifica il calcolo della riga.

Esempio 1
In questo esempio, restituiremo la somma totale su ogni riga.

Produzione

0 281
1 237
2 284
3 240
4 231
dType: int64

Possiamo vedere che l'operazione di somma viene eseguita in ogni riga.

Come, prima riga - 90+100+91 = 281.

Esempio 2
In questo esempio, restituiremo la somma totale su ogni colonna.

Produzione

Mark1 379
Mark2 429
Mark3 465
dType: int64

Possiamo vedere che l'operazione di somma viene eseguita in ogni colonna.

Ad esempio, per la colonna Mark1 - 90+78+90+54+67 = 379.

pyspark.panda.DataFrame.Significare()

Media () nel Pyspark Pandas DataFrame viene utilizzato per restituire la media totale su righe e colonne.

Se si desidera restituire la media su ogni riga, è necessario specificare l'asse = 1 e se si desidera restituire la media su ogni colonna, è necessario specificare l'asse = 0. Per impostazione predefinita, eseguirà la colonna.

Sintassi

pyspark_pandas.media (asse = 0/asse = 1)

Dove pyspark_pandas è il frame dati Pyspark Pandas.

Parametro

Ci vuole solo un parametro.

Axis-0 Specifica il calcolo e l'asse di colonna = 1 Specifica il calcolo della riga.

Esempio 1
In questo esempio, restituiremo la media totale in ogni riga.

Produzione

0 93.666667
1 79.000000
2 94.666667
3 80.000000
4 77.000000
dType: float64

Possiamo vedere che l'operazione media viene eseguita in ogni riga.

Come, prima riga - (90+100+91)/3 = 93.666667

Esempio 2
In questo esempio, restituiremo la media totale in ogni colonna.

Produzione

Mark1 75.8
Mark2 85.8
Mark3 93.0
dType: float64

Possiamo vedere che l'operazione media viene eseguita in ogni colonna.

Come, per la colonna Mark1 - (90+78+90+54+67)/5 = 75.8.

pyspark.panda.DataFrame.min ()

Min () in Pyspark Pandas DataFrame viene utilizzato per il valore minimo su righe e colonne.

Se si desidera restituire il valore minimo in ogni riga, è necessario specificare l'asse = 1 e se si desidera restituire il minimo su ciascuna colonna, è necessario specificare l'asse =. Per impostazione predefinita, eseguirà la colonna.

Sintassi

pyspark_pandas.min (asse = 0/axis = 1)

Dove pyspark_pandas è il frame dati Pyspark Pandas.

Parametro
Ci vuole solo un parametro.

Axis-0 Specifica il calcolo e l'asse di colonna = 1 Specifica il calcolo della riga.

Esempio 1
In questo esempio, restituiremo il valore minimo su ogni riga.

Produzione

0 90
1 67
2 90
3 54
4 67
dType: int64

Possiamo vedere che l'aggregazione min () viene eseguita in ogni riga.

Come, prima riga - minimo (90.100.91) = 90

Esempio 2
In questo esempio, restituiremo il valore minimo su ciascuna colonna.

Produzione

Mark1 54
Mark2 67
Mark3 87
dType: int64

Possiamo vedere che l'aggregazione min () viene eseguita in ogni colonna.

Come, per la colonna Mark1 - min (90,78,90,54,67) = 54.

pyspark.panda.DataFrame.max ()

max () nel Pyspark Pandas DataFrame viene utilizzato per il massimo valore su righe e colonne.

Se si desidera restituire il valore massimo in ogni riga, è necessario specificare l'asse = 1 e se si desidera restituire il massimo su ciascuna colonna, è necessario specificare l'asse =. Per impostazione predefinita, eseguirà la colonna.

Sintassi

pyspark_pandas.max (axis = 0/axis = 1)

Dove pyspark_pandas è il frame dati Pyspark Pandas.

Parametro
Ci vuole solo un parametro.

Axis-0 Specifica il calcolo e l'asse di colonna = 1 Specifica il calcolo della riga.

Esempio 1
In questo esempio, restituiremo il valore massimo in ogni riga.

Produzione

0 100
1 92
2 98
3 97
4 87
dType: int64

Possiamo vedere che l'aggregazione max () viene eseguita in ogni riga.

Come, prima riga - massimo (90.100.91) = 100

Esempio 2
In questo esempio, restituiremo il valore massimo su ogni colonna.

Produzione

Mark1 90
Mark2 100
Mark3 98
dType: int64

Possiamo vedere che l'aggregazione max () viene eseguita in ogni colonna.

Come, per la colonna Mark1 - max (90,78,90,54,67) = 90.

Conclusione

In questo tutorial Pyspark Pandas DataFrame, abbiamo visto quattro diverse funzioni di aggregazione eseguite sul frame dati. È possibile calcolare attraverso la riga e in termini di colonna con i parametri dell'asse. Sum () restituirà la somma totale, Avg () viene utilizzato per restituire la media totale, min () viene utilizzato per restituire il valore minimo e max () restituirà il valore massimo.

Pitone

PANDAS Read_CSV Multiprocessing

Per migliorare la velocità di caricamento dei dati, compresi i suoi benefici e limitazioni il PD.la ...

Nick Marini

Docker

Qual è la differenza tra Docker e Podman?

Docker utilizza un'architettura client-server mentre Podman è un motore a container demone meno. Pod...

Dr. Evita Damico

Golang

Introduzione al linguaggio di programmazione di Golang

Golang è un linguaggio di programmazione open source sviluppato da Google. Segui questo articolo per...

Nick Marini