Innanzitutto, vedremo come suddividere il frame dati in pyspark.
Partizione
È possibile partizione delle righe nel frame dati utilizzando la funzione della finestra. È disponibile in pyspark.SQL.finestra modulo. Ci sono due passaggi per partizionare le righe in un frame dati pyspark.
Passaggi:
Sintassi:
partizione = finestra.Partitionby ("colonna")Possiamo ordinare i dati partizionati con la colonna partizionata o qualsiasi altra colonna.
Creiamo il frame dati.
Esempio:
Qui, creiamo un frame dati pyspark che ha 5 colonne - ['soggetto_id', 'name', 'age', 'technology1', 'technology2'] con 10 righe.
importare pysparkProduzione:
Funzione di finestra Pyspark Variance ()
La varianza () nella funzione della finestra viene utilizzata per restituire la varianza in ciascuna partizione. Può essere possibile restituire la varianza dopo aver partito il frame dati.
Sintassi:
dataframe_obj.WithColumn ("varianza", varianza (col ("colonna")).Over (partizione))Parametro:
varianza (col ("colonna"))Qui, la funzione Variance () prende il nome della colonna come parametro. Restituisce la varianza in questa colonna in ogni partizione.
Aggiungiamo il risultato in una colonna denominata varianza usando la funzione WithColumn ().
Esempio 1:
Ora, abbiamo un frame dati (creato in precedenza). Partitionlo in base alla colonna Technology1 e otteniamo la varianza nella colonna soggetto_id in ogni partizione.
# Importa la funzione della finestraProduzione:
Spiegazione:
Il numero totale di partizioni è 4.
Partizione 1:
IL .La rete si è verificata due volte nella prima partizione. La varianza della colonna soggetto_id è 0.0.
Partizione 2:
Hadoop si è verificato una volta nella seconda partizione. Quindi, la varianza è nulla.
Partizione 3:
Oracle si è verificato quattro volte nella terza partizione.
La varianza della colonna soggetto_id è 401.0.
Partizione 4:
PHP si è verificato tre volte nella quarta partizione.
La varianza della colonna soggetto_id è 0.0.
Esempio 2:
Ora, abbiamo un frame dati (creato in precedenza). Partizioniamo in base alla colonna Technology1 e otteniamo la varianza nella colonna di età in ogni partizione.
# Importa la funzione della finestraProduzione:
Spiegazione:
Il numero totale di partizioni è 4.
Partizione 1:
IL .La rete si è verificata due volte nella prima partizione. La varianza della colonna di età è 0.0.
Partizione 2:
Hadoop si è verificato una volta nella seconda partizione. Quindi, la varianza è nulla.
Partizione 3:
Oracle si è verificato quattro volte nella terza partizione.
La varianza della colonna di età è 0.666.
Partizione 4:
PHP si è verificato tre volte nella quarta partizione.
La varianza della colonna di età è 1.333.
Funzione di finestra PysPark Stddev ()
Lo stddev () nella funzione della finestra viene utilizzato per restituire la deviazione standard in ciascuna partizione. Può essere possibile restituire la deviazione standard dopo aver partito il frame dati.
Sintassi:
dataframe_obj.WithColumn ("Deviazione standard", stddev (col ("colonna")).Over (partizione))Parametro:
stddev (col ("colonna"))Qui, lo stddev () prende il nome della colonna come parametro. Restituisce la deviazione standard in questa colonna in ogni partizione.
Aggiungiamo il risultato in una colonna denominata deviazione standard usando la funzione WithColumn ().
Esempio 1:
Ora, abbiamo un frame dati (creato in precedenza). Partitionlo in base alla colonna Technology1 e otteniamo la deviazione standard nella colonna soggetto_id in ogni partizione.
# Importa la funzione della finestraProduzione:
Spiegazione:
Il numero totale di partizioni è 4.
Partizione 1:
IL .La rete si è verificata due volte nella prima partizione. La deviazione standard della colonna soggetto_id è 0.0.
Partizione 2:
Hadoop si è verificato una volta nella seconda partizione. Quindi, la deviazione standard è nulla.
Partizione 3:
Oracle si è verificato quattro volte nella terza partizione.
La deviazione standard della colonna soggetto_id è 20.024984.
Partizione 4:
PHP si è verificato tre volte nella quarta partizione.
La deviazione standard della colonna soggetto_id è 0.0.
Esempio 2:
Ora, abbiamo un frame dati (creato in precedenza). Partizioniamo in base alla colonna Technology1 e otteniamo la deviazione standard nella colonna di età in ogni partizione.
# Importa la funzione della finestraProduzione:
Spiegazione:
Il numero totale di partizioni è 4.
Partizione 1:
IL .La rete si è verificata due volte nella prima partizione. La deviazione standard della colonna di età è 0.0.
Partizione 2:
Hadoop si è verificato una volta nella seconda partizione. Quindi, la deviazione standard è nulla.
Partizione 3:
Oracle si è verificato quattro volte nella terza partizione.
La deviazione standard della colonna di età è 0.8164.
Partizione 4:
PHP si è verificato tre volte nella quarta partizione.
La deviazione standard della colonna di età è 1.1547.
Conclusione
In questo tutorial di partizionamento di Pyspark, abbiamo imparato a restituire la varianza in ciascuna finestra partizionata usando la funzione varianza () e la deviazione standard in ciascuna finestra partizionata usando la funzione stddev (). Abbiamo aggiunto il risultato al frame dati esistente come nuova colonna. Assicurati di importare la varianza e stddev dal pyspark.SQL.modulo funzioni.