RDD sta per set di dati distribuiti resilienti. Possiamo chiamare RDD come struttura di dati fondamentali in Apache Spark.
Dobbiamo importare RDD dal pyspark.Modulo RDD.
In pyspark per creare un RDD, possiamo usare il metodo parallelize ().
Sintassi:
Spark_app.SparkContext.parallelizza (dati)Dove:
I dati possono essere un dati monodimensionali (dati lineari) o bidimensionali (dati di riga-colonna).
In questo tutorial Pyspark RDD, vedremo come svolgere diverse funzioni di aggregazione su Pyspark RDD.
1. somma()
Sum () viene utilizzato per restituire il valore totale (somma) in RDD. Non ci vogliono parametri.
Sintassi:
Rdd_data.somma()Esempio:
In questo esempio, creiamo un RDD chiamato Student_Marks con 20 elementi e restituiamo la somma degli elementi totali da un RDD.
#import il modulo pysparkProduzione:
1112Dall'output di cui sopra, possiamo vedere che la somma totale degli elementi in RDD è 1112.
2. min ()
min () viene utilizzato per restituire il valore minimo da RDD. Non ci vogliono parametri.
Sintassi:
Rdd_data.min ()Esempio:
In questo esempio, creiamo un RDD chiamato Student_Marks con 20 elementi e restituiamo il valore minimo da un RDD.
#import il modulo pysparkProduzione:
21Dall'output di cui sopra, possiamo vedere che il valore minimo in RDD è 21.
3. max ()
max () viene utilizzato per restituire il valore massimo da RDD. Non ci vogliono parametri.
Sintassi:
Rdd_data.max ()Esempio:
In questo esempio, creiamo un RDD chiamato Student_Marks con 20 elementi e restituiamo il valore massimo da un RDD.
#import il modulo pysparkProduzione
100Dall'output sopra, possiamo vedere che il valore massimo in RDD è 100.
Significare()
la media () viene utilizzata per restituire il valore medio (medio) nella RDD. Non ci vogliono parametri.
Sintassi:
Rdd_data.Significare()Esempio:
In questo esempio, creiamo un RDD chiamato Student_Marks con 20 elementi e restituiamo la media degli elementi da un RDD.
#import il modulo pysparkProduzione
55.6Dall'output sopra, possiamo vedere che il valore medio in RDD è 55.6.
contare()
Count () viene utilizzato per restituire i valori totali presenti in RDD. Non ci vogliono parametri.
Sintassi:
Rdd_data.contare()Esempio:
In questo esempio, creiamo un RDD chiamato Student_Marks con 20 elementi e restituiamo il conteggio degli elementi in un RDD.
#import il modulo pysparkProduzione
20Dall'output di cui sopra, possiamo vedere che il numero totale di valori in RDD è 20.
Conclusione
In questo tutorial Pyspark, abbiamo visto cinque diverse operazioni di aggregazione eseguite su RDD. Sum () viene utilizzato per restituire il valore totale in un RDD. la media () viene utilizzata per restituire la media totale da un RDD. min () e max () vengono utilizzati per restituire valori minimi e massimi. Se è necessario restituire il numero totale di elementi presenti in un RDD, è possibile utilizzare la funzione Count ().