PysPark - Pandas DataFrame rappresenta il Frame Data Pandas, ma contiene il Frame dati PysPark internamente.
Panda Support DataFrame Data Structure e Panda viene importato dal modulo PysPark.
Prima di allora, devi installare il modulo PysPark."
Comando
PIP Installa PysparkSintassi all'importazione
da Pyspark Import PandaSuccessivamente, possiamo creare o utilizzare il frame dati dal modulo Pandas.
Sintassi per creare Pandas DataFrame
pyspark.panda.DataFrame ()Possiamo passare un dizionario o un elenco di elenchi con valori.
Creiamo un frame dati Pandas tramite Pyspark con quattro colonne e cinque righe.
#import panda dal modulo pysparkProduzione
Ora andremo nel nostro tutorial.
Le funzioni aggregate vengono utilizzate per eseguire operazioni di aggregazione come Sum (), Min (), Media () e Max ().Queste operazioni funzionano solo su dati numerici come interi, doppio ecc.
Vediamoli uno per uno.
pyspark.panda.DataFrame.somma()
Sum () nel Pyspark Pandas DataFrame viene utilizzato per restituire la somma totale su righe e colonne.
Se si desidera restituire la somma su ogni riga, è necessario specificare l'asse = 1 e se si desidera restituire la somma su ciascuna colonna, è necessario specificare l'asse = 0. Per impostazione predefinita, eseguirà la colonna.
Sintassi
pyspark_pandas.somma (axis = 0/axis = 1)Dove pyspark_pandas è il frame dati Pyspark Pandas.
Parametro
Ci vuole solo un parametro.
Axis-0 Specifica il calcolo e l'asse di colonna = 1 Specifica il calcolo della riga.
Esempio 1
In questo esempio, restituiremo la somma totale su ogni riga.
Produzione
0 281Possiamo vedere che l'operazione di somma viene eseguita in ogni riga.
Come, prima riga - 90+100+91 = 281.
Esempio 2
In questo esempio, restituiremo la somma totale su ogni colonna.
Produzione
Mark1 379Possiamo vedere che l'operazione di somma viene eseguita in ogni colonna.
Ad esempio, per la colonna Mark1 - 90+78+90+54+67 = 379.
pyspark.panda.DataFrame.Significare()
Media () nel Pyspark Pandas DataFrame viene utilizzato per restituire la media totale su righe e colonne.
Se si desidera restituire la media su ogni riga, è necessario specificare l'asse = 1 e se si desidera restituire la media su ogni colonna, è necessario specificare l'asse = 0. Per impostazione predefinita, eseguirà la colonna.
Sintassi
pyspark_pandas.media (asse = 0/asse = 1)Dove pyspark_pandas è il frame dati Pyspark Pandas.
Parametro
Ci vuole solo un parametro.
Axis-0 Specifica il calcolo e l'asse di colonna = 1 Specifica il calcolo della riga.
Esempio 1
In questo esempio, restituiremo la media totale in ogni riga.
Produzione
0 93.666667Possiamo vedere che l'operazione media viene eseguita in ogni riga.
Come, prima riga - (90+100+91)/3 = 93.666667
Esempio 2
In questo esempio, restituiremo la media totale in ogni colonna.
Produzione
Mark1 75.8Possiamo vedere che l'operazione media viene eseguita in ogni colonna.
Come, per la colonna Mark1 - (90+78+90+54+67)/5 = 75.8.
pyspark.panda.DataFrame.min ()
Min () in Pyspark Pandas DataFrame viene utilizzato per il valore minimo su righe e colonne.
Se si desidera restituire il valore minimo in ogni riga, è necessario specificare l'asse = 1 e se si desidera restituire il minimo su ciascuna colonna, è necessario specificare l'asse =. Per impostazione predefinita, eseguirà la colonna.
Sintassi
pyspark_pandas.min (asse = 0/axis = 1)Dove pyspark_pandas è il frame dati Pyspark Pandas.
Parametro
Ci vuole solo un parametro.
Axis-0 Specifica il calcolo e l'asse di colonna = 1 Specifica il calcolo della riga.
Esempio 1
In questo esempio, restituiremo il valore minimo su ogni riga.
Produzione
0 90Possiamo vedere che l'aggregazione min () viene eseguita in ogni riga.
Come, prima riga - minimo (90.100.91) = 90
Esempio 2
In questo esempio, restituiremo il valore minimo su ciascuna colonna.
Produzione
Mark1 54Possiamo vedere che l'aggregazione min () viene eseguita in ogni colonna.
Come, per la colonna Mark1 - min (90,78,90,54,67) = 54.
pyspark.panda.DataFrame.max ()
max () nel Pyspark Pandas DataFrame viene utilizzato per il massimo valore su righe e colonne.
Se si desidera restituire il valore massimo in ogni riga, è necessario specificare l'asse = 1 e se si desidera restituire il massimo su ciascuna colonna, è necessario specificare l'asse =. Per impostazione predefinita, eseguirà la colonna.
Sintassi
pyspark_pandas.max (axis = 0/axis = 1)Dove pyspark_pandas è il frame dati Pyspark Pandas.
Parametro
Ci vuole solo un parametro.
Axis-0 Specifica il calcolo e l'asse di colonna = 1 Specifica il calcolo della riga.
Esempio 1
In questo esempio, restituiremo il valore massimo in ogni riga.
Produzione
0 100Possiamo vedere che l'aggregazione max () viene eseguita in ogni riga.
Come, prima riga - massimo (90.100.91) = 100
Esempio 2
In questo esempio, restituiremo il valore massimo su ogni colonna.
Produzione
Mark1 90Possiamo vedere che l'aggregazione max () viene eseguita in ogni colonna.
Come, per la colonna Mark1 - max (90,78,90,54,67) = 90.
Conclusione
In questo tutorial Pyspark Pandas DataFrame, abbiamo visto quattro diverse funzioni di aggregazione eseguite sul frame dati. È possibile calcolare attraverso la riga e in termini di colonna con i parametri dell'asse. Sum () restituirà la somma totale, Avg () viene utilizzato per restituire la media totale, min () viene utilizzato per restituire il valore minimo e max () restituirà il valore massimo.