PysPark - Pandas DataFrame rappresenta il Frame Data Pandas, ma contiene il Frame dati PysPark internamente.
Panda Support DataFrame Data Structure e Panda viene importato dal modulo PysPark.
Prima di allora, devi installare il modulo PysPark."
Comando
PIP Installa PysparkSintassi all'importazione
da Pyspark Import PandaSuccessivamente, possiamo creare o utilizzare il frame dati dal modulo Pandas.
Sintassi per creare Pandas DataFrame
pyspark.panda.DataFrame ()Possiamo passare un dizionario o un elenco di elenchi con valori.
Creiamo un frame dati Pandas tramite Pyspark che ha quattro colonne e cinque righe.
#import panda dal modulo pysparkProduzione
Ora andremo nel nostro tutorial.
GroupBy () viene utilizzato per raggruppare le righe simili nel Frame di dati Pyspark Pandas. Dopo il raggruppamento possiamo eseguire operazioni statistiche come Media (), Sum (), Min () e Max (). Ne vedremo uno per uno con GroupBy ().
pyspark.panda.DataFrame.GroupBy () con medio ()
GroupBy () viene utilizzato per raggruppare le righe simili nel Frame di dati Pyspark Pandas e restituire i valori medi per ciascuna riga raggruppata.
Sintassi
pyspark_pandas.GroupBy ([colonna/s]).Significare()Dove,
Esempio
In questo esempio, restituiremo la media totale dei dati formati da una colonna di gruppo - S_NAME.
Produzione
Possiamo vedere che ci sono due file simili.
Successivamente, la media totale per tutte e tre le colonne è stata restituita.
pyspark.panda.DataFrame.GroupBy () con Sum ()
GroupBy () viene utilizzato per raggruppare le righe simili nel Frame di dati Pyspark Pandas e restituire la somma totale per ciascuna riga raggruppata.
Sintassi
pyspark_pandas.GroupBy ([colonna/s]).somma()Dove,
Esempio
In questo esempio, restituiremo la somma totale dei dati formati da una colonna di gruppo - S_NAME.
Produzione
Possiamo vedere che ci sono due file simili.
Successivamente, la somma totale per tutte e tre le colonne è stata restituita.
pyspark.panda.DataFrame.GroupBy () con min ()
GroupBy () viene utilizzato per raggruppare le righe simili nel Frame di dati PysPark Pandas e restituire il valore minimo per ciascuna riga raggruppata.
Sintassi
pyspark_pandas.GroupBy ([colonna/s]).min ()Dove,
Esempio
In questo esempio, restituiremo il minimo dei dati formati da una colonna di gruppo - S_NAME.
Produzione
Possiamo vedere che ci sono due file simili.
Successivamente, il valore minimo viene restituito per tutte e tre le colonne.
pyspark.panda.DataFrame.GroupBy () con max ()
GroupBy () viene utilizzato per raggruppare le righe simili nel Frame di dati Pyspark Pandas e restituire il valore massimo per ciascuna riga raggruppata.
Sintassi
pyspark_pandas.GroupBy ([colonna/s]).max ()Dove,
Esempio
In questo esempio, restituiremo il massimo dei dati formati da una colonna di gruppo - S_NAME.
Produzione
Possiamo vedere che ci sono due file simili.
Successivamente, il valore massimo viene restituito per tutte e tre le colonne.
Conclusione
In questo tutorial Pyspark Pandas DataFrame GroupBy (), vediamo cosa è GroupBy e come applicare GroupBy () con funzioni statistiche come Media (), Min (), Max () e Sum ().