Pyspark RDD - Funzioni aggregate

Pyspark RDD - Funzioni aggregate
In Python, Pyspark è un modulo Spark utilizzato per fornire un tipo di elaborazione simile come Spark.

RDD sta per set di dati distribuiti resilienti. Possiamo chiamare RDD come struttura di dati fondamentali in Apache Spark.

Dobbiamo importare RDD dal pyspark.Modulo RDD.

In pyspark per creare un RDD, possiamo usare il metodo parallelize ().

Sintassi:

Spark_app.SparkContext.parallelizza (dati)

Dove:

I dati possono essere un dati monodimensionali (dati lineari) o bidimensionali (dati di riga-colonna).

In questo tutorial Pyspark RDD, vedremo come svolgere diverse funzioni di aggregazione su Pyspark RDD.

1. somma()

Sum () viene utilizzato per restituire il valore totale (somma) in RDD. Non ci vogliono parametri.

Sintassi:

Rdd_data.somma()

Esempio:

In questo esempio, creiamo un RDD chiamato Student_Marks con 20 elementi e restituiamo la somma degli elementi totali da un RDD.

#import il modulo pyspark
importare pyspark
#IMPORT SPARKSESSION per la creazione di una sessione
da pyspark.SQL Importazione di importazione
# Importa RDD da Pyspark.rdd
da pyspark.RDD Import RDD
#Crea un'app chiamata LinuxHint
Spark_app = SparkSession.costruttore.appname ('LinuxHint').getOrCreate ()
# Crea dati per gli studenti con 20 elementi
Student_Marks = Spark_app.SparkContext.parallelizzazione ([89,76,78,89,90,100,34,56,54,22,45,43,23,56,
78,21,34,34,56,34])
#Perform Sum () Operation
Stampa (Student_Marks.somma())

Produzione:

1112

Dall'output di cui sopra, possiamo vedere che la somma totale degli elementi in RDD è 1112.

2. min ()

min () viene utilizzato per restituire il valore minimo da RDD. Non ci vogliono parametri.

Sintassi:

Rdd_data.min ()

Esempio:

In questo esempio, creiamo un RDD chiamato Student_Marks con 20 elementi e restituiamo il valore minimo da un RDD.

#import il modulo pyspark
importare pyspark
#IMPORT SPARKSESSION per la creazione di una sessione
da pyspark.SQL Importazione di importazione
# Importa RDD da Pyspark.rdd
da pyspark.RDD Import RDD
#Crea un'app chiamata LinuxHint
Spark_app = SparkSession.costruttore.appname ('LinuxHint').getOrCreate ()
# Crea dati per gli studenti con 20 elementi
Student_Marks = Spark_app.SparkContext.parallelize ([89,76,78,89,90,100,34,56,54,22,45,43,23,56,78,
21,34,34,56,34])
#Perform Min () Operazione
Stampa (Student_Marks.min ())

Produzione:

21

Dall'output di cui sopra, possiamo vedere che il valore minimo in RDD è 21.

3. max ()

max () viene utilizzato per restituire il valore massimo da RDD. Non ci vogliono parametri.

Sintassi:

Rdd_data.max ()

Esempio:

In questo esempio, creiamo un RDD chiamato Student_Marks con 20 elementi e restituiamo il valore massimo da un RDD.

#import il modulo pyspark
importare pyspark
#IMPORT SPARKSESSION per la creazione di una sessione
da pyspark.SQL Importazione di importazione
# Importa RDD da Pyspark.rdd
da pyspark.RDD Import RDD
#Crea un'app chiamata LinuxHint
Spark_app = SparkSession.costruttore.appname ('LinuxHint').getOrCreate ()
# Crea dati per gli studenti con 20 elementi
Student_Marks = Spark_app.SparkContext.parallelize ([89,76,78,89,90,100,34,56,54,22,45,43,23,56,78,
21,34,34,56,34])
#Perform Max () Operazione
Stampa (Student_Marks.max ())

Produzione

100

Dall'output sopra, possiamo vedere che il valore massimo in RDD è 100.

Significare()

la media () viene utilizzata per restituire il valore medio (medio) nella RDD. Non ci vogliono parametri.

Sintassi:

Rdd_data.Significare()

Esempio:

In questo esempio, creiamo un RDD chiamato Student_Marks con 20 elementi e restituiamo la media degli elementi da un RDD.

#import il modulo pyspark
importare pyspark
#IMPORT SPARKSESSION per la creazione di una sessione
da pyspark.SQL Importazione di importazione
# Importa RDD da Pyspark.rdd
da pyspark.RDD Import RDD
#Crea un'app chiamata LinuxHint
Spark_app = SparkSession.costruttore.appname ('LinuxHint').getOrCreate ()
# Crea dati per gli studenti con 20 elementi
Student_Marks = Spark_app.SparkContext.parallelizzazione ([89,76,78,89,90,100,34,56,54,22,45,43,23,56,
78,21,34,34,56,34])
#Perform Media () Funzionamento
Stampa (Student_Marks.Significare())

Produzione

55.6

Dall'output sopra, possiamo vedere che il valore medio in RDD è 55.6.

contare()

Count () viene utilizzato per restituire i valori totali presenti in RDD. Non ci vogliono parametri.

Sintassi:

Rdd_data.contare()

Esempio:

In questo esempio, creiamo un RDD chiamato Student_Marks con 20 elementi e restituiamo il conteggio degli elementi in un RDD.

#import il modulo pyspark
importare pyspark
#IMPORT SPARKSESSION per la creazione di una sessione
da pyspark.SQL Importazione di importazione
# Importa RDD da Pyspark.rdd
da pyspark.RDD Import RDD
#Crea un'app chiamata LinuxHint
Spark_app = SparkSession.costruttore.appname ('LinuxHint').getOrCreate ()
# Crea dati per gli studenti con 20 elementi
Student_Marks = Spark_app.SparkContext.parallelizzazione ([89,76,78,89,90,100,34,56,54,22,45,43,23,56,
78,21,34,34,56,34])
#Operazione di conteggio ()
Stampa (Student_Marks.contare())

Produzione

20

Dall'output di cui sopra, possiamo vedere che il numero totale di valori in RDD è 20.

Conclusione

In questo tutorial Pyspark, abbiamo visto cinque diverse operazioni di aggregazione eseguite su RDD. Sum () viene utilizzato per restituire il valore totale in un RDD. la media () viene utilizzata per restituire la media totale da un RDD. min () e max () vengono utilizzati per restituire valori minimi e massimi. Se è necessario restituire il numero totale di elementi presenti in un RDD, è possibile utilizzare la funzione Count ().