RDD sta per set di dati distribuiti resilienti. Possiamo chiamare RDD come struttura di dati fondamentali in Apache Spark. La coppia RDD memorizza gli elementi/valori sotto forma di coppie di valore chiave. Memorizzerà la coppia di valore chiave nel formato (chiave, valore).
Dobbiamo importare RDD dal pyspark.Modulo RDD.
In pyspark per creare un RDD, possiamo usare il metodo parallelize ().
Sintassi:
Spark_app.SparkContext.parallelizza (dati)Laddove i dati possono essere un dati monodimensionali (dati lineari) o bidimensionali (dati di riga-colonna).
PysPark RDD - Lookup ()
Lookup () è un'azione in coppia RDD, che viene utilizzata per restituire tutti i valori associati a una chiave in un elenco. Viene eseguito su una coppia singola rdd. Ci vuole una chiave come parametro.
Sintassi:
Rdd_data.Ricerca (chiave)Parametro:
La chiave si riferisce alla chiave presente nella coppia RDD.
Esempio:
In questo esempio, faremo il look per le chiavi: Python, JavaScript e Linux.
#import il modulo pysparkProduzione:
coppia rdd: [('python', 4), ('javascript', 2), ('linux', 5), ('c#', 4), ('javascript', 4), ('python', 3 )Dall'output di cui sopra, possiamo vedere che esistono 2 valori che esistono con la chiave-pithon, quindi ha restituito 4 e 3. Esistono 2 valori che esistono con il take-javascript, quindi ha restituito 2 e 4. C'è solo 1 valore che esiste con Key-Linux, quindi ha restituito 1.
PysPark RDD - Collecmap ()
COLLETSAMAP () è un'azione in coppia RDD che viene utilizzata per restituire tutti i valori sotto forma di una coppia mappa (tasto: valore). Viene utilizzato per fornire una ricerca. Non ci vuole parametro.
Sintassi:
Rdd_data.Collecmap ()Esempio:
In questo esempio, otterremo valori da RDD usando COLLETMAP ().
#import il modulo pysparkProduzione:
'Linux': 5, 'C#': 4, 'JavaScript': 4, 'Python': 53Possiamo vedere che RDD viene restituito sotto forma di tasto: coppie di valori.
Si noti che se ci sono più chiavi con valori diversi, allora collechapSap () restituirà il valore aggiornato rispetto alla chiave.
Esempio:
#import il modulo pysparkProduzione:
'Linux': 45, 'C#': 44, 'JavaScript': 4, 'Python': 53Possiamo vedere che i tasti Linux e C# si sono verificati due volte. La seconda volta i valori sono 45 e 44. Quindi, il collecmap () ritorna con i nuovi valori.
Conclusione
In questo tutorial di Pyspark RDD, abbiamo visto come applicare le azioni di lookup () e collectionSmap () su coppia RDD. Lookup () viene utilizzato per restituire i valori associati alla chiave in un elenco prendendo la chiave come parametro e collectSmap () restituisce RDD sotto forma di mappa.