Pyspark Pandas DataFrame Groupby

Pyspark Pandas DataFrame Groupby
“In Python, Pyspark è un modulo Spark utilizzato per fornire un tipo di elaborazione simile come Spark usando DataFrame, che memorizzerà i dati forniti in formato di riga e colonna.

PysPark - Pandas DataFrame rappresenta il Frame Data Pandas, ma contiene il Frame dati PysPark internamente.

Panda Support DataFrame Data Structure e Panda viene importato dal modulo PysPark.

Prima di allora, devi installare il modulo PysPark."

Comando

PIP Installa Pyspark

Sintassi all'importazione

da Pyspark Import Panda

Successivamente, possiamo creare o utilizzare il frame dati dal modulo Pandas.

Sintassi per creare Pandas DataFrame

pyspark.panda.DataFrame ()

Possiamo passare un dizionario o un elenco di elenchi con valori.

Creiamo un frame dati Pandas tramite Pyspark che ha quattro colonne e cinque righe.

#import panda dal modulo pyspark
da Pyspark Import Panda
#Crea DataFrame da Pandas Pyspark
pyspark_pandas = pandas.DataFrame ('S_Name': ['Ram', 'Sukanya', 'Sumita', 'Sumita', 'Ram'], 'Mark1': [90,56,78,54,67], 'Mark2': [ 100,67,96,89,32], 'Mark3': [91,92,98,97,87])
Print (pyspark_pandas)

Produzione

Ora andremo nel nostro tutorial.

GroupBy () viene utilizzato per raggruppare le righe simili nel Frame di dati Pyspark Pandas. Dopo il raggruppamento possiamo eseguire operazioni statistiche come Media (), Sum (), Min () e Max (). Ne vedremo uno per uno con GroupBy ().

pyspark.panda.DataFrame.GroupBy () con medio ()

GroupBy () viene utilizzato per raggruppare le righe simili nel Frame di dati Pyspark Pandas e restituire i valori medi per ciascuna riga raggruppata.

Sintassi

pyspark_pandas.GroupBy ([colonna/s]).Significare()

Dove,

  1. pyspark_pandas è il dati di dati Pyspark Pandas
  2. la colonna è il nome della colonna in cui valori simili sono raggruppati in questa colonna

Esempio
In questo esempio, restituiremo la media totale dei dati formati da una colonna di gruppo - S_NAME.

#import panda dal modulo pyspark
da Pyspark Import Panda
#Crea DataFrame da Pandas Pyspark
pyspark_pandas = pandas.DataFrame ('S_Name': ['Ram', 'Sukanya', 'Sumita', 'Sumita', 'Ram'], 'Mark1': [90,56,78,54,67], 'Mark2': [ 100,67,96,89,32], 'Mark3': [91,92,98,97,87])
#Group di S_NAME e restituire segni medi di righe raggruppate
Print (pyspark_pandas.GroupBy (['s_name']).Significare())

Produzione

Possiamo vedere che ci sono due file simili.

  1. RAM - 2 valori sono raggruppati
  2. Sumita - 2 valori sono raggruppati
  3. Sukanya - 1 valore è raggruppato

Successivamente, la media totale per tutte e tre le colonne è stata restituita.

pyspark.panda.DataFrame.GroupBy () con Sum ()

GroupBy () viene utilizzato per raggruppare le righe simili nel Frame di dati Pyspark Pandas e restituire la somma totale per ciascuna riga raggruppata.

Sintassi

pyspark_pandas.GroupBy ([colonna/s]).somma()

Dove,

  1. pyspark_pandas è il dati di dati Pyspark Pandas
  2. la colonna è il nome della colonna in cui valori simili sono raggruppati in questa colonna

Esempio
In questo esempio, restituiremo la somma totale dei dati formati da una colonna di gruppo - S_NAME.

#import panda dal modulo pyspark
da Pyspark Import Panda
#Crea DataFrame da Pandas Pyspark
pyspark_pandas = pandas.DataFrame ('S_Name': ['Ram', 'Sukanya', 'Sumita', 'Sumita', 'Ram'], 'Mark1': [90,56,78,54,67], 'Mark2': [ 100,67,96,89,32], 'Mark3': [91,92,98,97,87])
#group di s_name e restituzione somma dei segni di righe raggruppate
Print (pyspark_pandas.GroupBy (['s_name']).somma())

Produzione

Possiamo vedere che ci sono due file simili.

  1. RAM - 2 valori sono raggruppati
  2. Sumita - 2 valori sono raggruppati
  3. Sukanya - 1 valore è raggruppato

Successivamente, la somma totale per tutte e tre le colonne è stata restituita.

pyspark.panda.DataFrame.GroupBy () con min ()

GroupBy () viene utilizzato per raggruppare le righe simili nel Frame di dati PysPark Pandas e restituire il valore minimo per ciascuna riga raggruppata.

Sintassi

pyspark_pandas.GroupBy ([colonna/s]).min ()

Dove,

  1. pyspark_pandas è il dati di dati Pyspark Pandas
  2. la colonna è il nome della colonna in cui valori simili sono raggruppati in questa colonna

Esempio
In questo esempio, restituiremo il minimo dei dati formati da una colonna di gruppo - S_NAME.

#import panda dal modulo pyspark
da Pyspark Import Panda
#Crea DataFrame da Pandas Pyspark
pyspark_pandas = pandas.DataFrame ('S_Name': ['Ram', 'Sukanya', 'Sumita', 'Sumita', 'Ram'], 'Mark1': [90,56,78,54,67], 'Mark2': [ 100,67,96,89,32], 'Mark3': [91,92,98,97,87])
#Group di S_NAME e restituire segni minimi di righe raggruppate
Print (pyspark_pandas.GroupBy (['s_name']).min ())

Produzione

Possiamo vedere che ci sono due file simili.

  1. RAM - 2 valori sono raggruppati
  2. Sumita - 2 valori sono raggruppati
  3. Sukanya - 1 valore è raggruppato

Successivamente, il valore minimo viene restituito per tutte e tre le colonne.

pyspark.panda.DataFrame.GroupBy () con max ()

GroupBy () viene utilizzato per raggruppare le righe simili nel Frame di dati Pyspark Pandas e restituire il valore massimo per ciascuna riga raggruppata.

Sintassi

pyspark_pandas.GroupBy ([colonna/s]).max ()

Dove,

  1. pyspark_pandas è il dati di dati Pyspark Pandas
  2. la colonna è il nome della colonna in cui valori simili sono raggruppati in questa colonna

Esempio
In questo esempio, restituiremo il massimo dei dati formati da una colonna di gruppo - S_NAME.

#import panda dal modulo pyspark
da Pyspark Import Panda
#Crea DataFrame da Pandas Pyspark
pyspark_pandas = pandas.DataFrame ('S_Name': ['Ram', 'Sukanya', 'Sumita', 'Sumita', 'Ram'], 'Mark1': [90,56,78,54,67], 'Mark2': [ 100,67,96,89,32], 'Mark3': [91,92,98,97,87])
#Group di S_NAME e restituire il massimo dei segni di righe raggruppate
Print (pyspark_pandas.GroupBy (['s_name']).max ())

Produzione

Possiamo vedere che ci sono due file simili.

  1. RAM - 2 valori sono raggruppati
  2. Sumita - 2 valori sono raggruppati
  3. Sukanya - 1 valore è raggruppato

Successivamente, il valore massimo viene restituito per tutte e tre le colonne.

Conclusione

In questo tutorial Pyspark Pandas DataFrame GroupBy (), vediamo cosa è GroupBy e come applicare GroupBy () con funzioni statistiche come Media (), Min (), Max () e Sum ().