Pyspark Pandas DataFrame Groupby

Sarita Negri

“In Python, Pyspark è un modulo Spark utilizzato per fornire un tipo di elaborazione simile come Spark usando DataFrame, che memorizzerà i dati forniti in formato di riga e colonna.

PysPark - Pandas DataFrame rappresenta il Frame Data Pandas, ma contiene il Frame dati PysPark internamente.

Panda Support DataFrame Data Structure e Panda viene importato dal modulo PysPark.

Prima di allora, devi installare il modulo PysPark."

Comando

PIP Installa Pyspark

Sintassi all'importazione

da Pyspark Import Panda

Successivamente, possiamo creare o utilizzare il frame dati dal modulo Pandas.

Sintassi per creare Pandas DataFrame

pyspark.panda.DataFrame ()

Possiamo passare un dizionario o un elenco di elenchi con valori.

Creiamo un frame dati Pandas tramite Pyspark che ha quattro colonne e cinque righe.

#import panda dal modulo pyspark
da Pyspark Import Panda
#Crea DataFrame da Pandas Pyspark
pyspark_pandas = pandas.DataFrame ('S_Name': ['Ram', 'Sukanya', 'Sumita', 'Sumita', 'Ram'], 'Mark1': [90,56,78,54,67], 'Mark2': [ 100,67,96,89,32], 'Mark3': [91,92,98,97,87])
Print (pyspark_pandas)

Produzione

Ora andremo nel nostro tutorial.

GroupBy () viene utilizzato per raggruppare le righe simili nel Frame di dati Pyspark Pandas. Dopo il raggruppamento possiamo eseguire operazioni statistiche come Media (), Sum (), Min () e Max (). Ne vedremo uno per uno con GroupBy ().

pyspark.panda.DataFrame.GroupBy () con medio ()

GroupBy () viene utilizzato per raggruppare le righe simili nel Frame di dati Pyspark Pandas e restituire i valori medi per ciascuna riga raggruppata.

Sintassi

pyspark_pandas.GroupBy ([colonna/s]).Significare()

Dove,

pyspark_pandas è il dati di dati Pyspark Pandas
la colonna è il nome della colonna in cui valori simili sono raggruppati in questa colonna

Esempio
In questo esempio, restituiremo la media totale dei dati formati da una colonna di gruppo - S_NAME.

Produzione

Possiamo vedere che ci sono due file simili.

RAM - 2 valori sono raggruppati
Sumita - 2 valori sono raggruppati
Sukanya - 1 valore è raggruppato

Successivamente, la media totale per tutte e tre le colonne è stata restituita.

pyspark.panda.DataFrame.GroupBy () con Sum ()

GroupBy () viene utilizzato per raggruppare le righe simili nel Frame di dati Pyspark Pandas e restituire la somma totale per ciascuna riga raggruppata.

Sintassi

pyspark_pandas.GroupBy ([colonna/s]).somma()

Dove,

pyspark_pandas è il dati di dati Pyspark Pandas
la colonna è il nome della colonna in cui valori simili sono raggruppati in questa colonna

Esempio
In questo esempio, restituiremo la somma totale dei dati formati da una colonna di gruppo - S_NAME.

Produzione

Possiamo vedere che ci sono due file simili.

RAM - 2 valori sono raggruppati
Sumita - 2 valori sono raggruppati
Sukanya - 1 valore è raggruppato

Successivamente, la somma totale per tutte e tre le colonne è stata restituita.

pyspark.panda.DataFrame.GroupBy () con min ()

GroupBy () viene utilizzato per raggruppare le righe simili nel Frame di dati PysPark Pandas e restituire il valore minimo per ciascuna riga raggruppata.

Sintassi

pyspark_pandas.GroupBy ([colonna/s]).min ()

Dove,

pyspark_pandas è il dati di dati Pyspark Pandas
la colonna è il nome della colonna in cui valori simili sono raggruppati in questa colonna

Esempio
In questo esempio, restituiremo il minimo dei dati formati da una colonna di gruppo - S_NAME.

Produzione

Possiamo vedere che ci sono due file simili.

RAM - 2 valori sono raggruppati
Sumita - 2 valori sono raggruppati
Sukanya - 1 valore è raggruppato

Successivamente, il valore minimo viene restituito per tutte e tre le colonne.

pyspark.panda.DataFrame.GroupBy () con max ()

GroupBy () viene utilizzato per raggruppare le righe simili nel Frame di dati Pyspark Pandas e restituire il valore massimo per ciascuna riga raggruppata.

Sintassi

pyspark_pandas.GroupBy ([colonna/s]).max ()

Dove,

pyspark_pandas è il dati di dati Pyspark Pandas
la colonna è il nome della colonna in cui valori simili sono raggruppati in questa colonna

Esempio
In questo esempio, restituiremo il massimo dei dati formati da una colonna di gruppo - S_NAME.

Produzione

Possiamo vedere che ci sono due file simili.

RAM - 2 valori sono raggruppati
Sumita - 2 valori sono raggruppati
Sukanya - 1 valore è raggruppato

Successivamente, il valore massimo viene restituito per tutte e tre le colonne.

Conclusione

In questo tutorial Pyspark Pandas DataFrame GroupBy (), vediamo cosa è GroupBy e come applicare GroupBy () con funzioni statistiche come Media (), Min (), Max () e Sum ().

Pitone

Etichette dell'asse di Seaborn

Gli assi.Funzione set () , funzioni della libreria Matplotlib o le funzioni set_xlabel () e set_ylab...

Dr. Folco Leone

Pitone

Python OS Mkdir

Il sistema operativo.Il metodo mkdir () del modulo OS viene utilizzato per creare una singola direct...

Nick Marini

Pitone

Python Chmod

Il sistema operativo.La funzione chmod () del modulo OS viene utilizzata per modificare la proprietà...

Dr. Evita Damico