Pyspark RDD - Lookup, CollectaSmap

Pyspark RDD - Lookup, CollectaSmap
In Python, Pyspark è un modulo Spark utilizzato per fornire un tipo di elaborazione simile come Spark.

RDD sta per set di dati distribuiti resilienti. Possiamo chiamare RDD come struttura di dati fondamentali in Apache Spark. La coppia RDD memorizza gli elementi/valori sotto forma di coppie di valore chiave. Memorizzerà la coppia di valore chiave nel formato (chiave, valore).

Dobbiamo importare RDD dal pyspark.Modulo RDD.

In pyspark per creare un RDD, possiamo usare il metodo parallelize ().

Sintassi:

Spark_app.SparkContext.parallelizza (dati)

Laddove i dati possono essere un dati monodimensionali (dati lineari) o bidimensionali (dati di riga-colonna).

PysPark RDD - Lookup ()

Lookup () è un'azione in coppia RDD, che viene utilizzata per restituire tutti i valori associati a una chiave in un elenco. Viene eseguito su una coppia singola rdd. Ci vuole una chiave come parametro.

Sintassi:

Rdd_data.Ricerca (chiave)

Parametro:

La chiave si riferisce alla chiave presente nella coppia RDD.

Esempio:

In questo esempio, faremo il look per le chiavi: Python, JavaScript e Linux.

#import il modulo pyspark
importare pyspark
#IMPORT SPARKSESSION per la creazione di una sessione
da pyspark.SQL Importazione di importazione
# Importa RDD da Pyspark.rdd
da pyspark.RDD Import RDD
#Crea un'app chiamata LinuxHint
Spark_app = SparkSession.costruttore.appname ('LinuxHint').getOrCreate ()
# Crea 6 - coppie di soggetti e valutazioni
soggetti_rating = spark_app.SparkContext.parallelize ([('python', 4), ('javascript', 2), ('linux', 5), ('c#', 4),
('javascript', 4), ('python', 3)])
#Attuale coppia RDD
print ("coppia rdd:", soggetti_rating.raccogliere())
#get Lookup per il Python Key
Print ("ricerca per il pitone:", soggetti_rating.Lookup ('Python'))
#get ricerca per il javascript chiave
Stampa ("ricerca per javascript:", soggetti_rating.Lookup ('JavaScript'))
#get Lookup per Key-Linux
Stampa ("ricerca per il linux:", soggetti_rating.Lookup ('Linux'))

Produzione:

coppia rdd: [('python', 4), ('javascript', 2), ('linux', 5), ('c#', 4), ('javascript', 4), ('python', 3 )
Ricerca per il Python: [4, 3]
Ricerca per JavaScript: [2, 4]
Ricerca per Linux: [5]

Dall'output di cui sopra, possiamo vedere che esistono 2 valori che esistono con la chiave-pithon, quindi ha restituito 4 e 3. Esistono 2 valori che esistono con il take-javascript, quindi ha restituito 2 e 4. C'è solo 1 valore che esiste con Key-Linux, quindi ha restituito 1.

PysPark RDD - Collecmap ()

COLLETSAMAP () è un'azione in coppia RDD che viene utilizzata per restituire tutti i valori sotto forma di una coppia mappa (tasto: valore). Viene utilizzato per fornire una ricerca. Non ci vuole parametro.

Sintassi:

Rdd_data.Collecmap ()

Esempio:

In questo esempio, otterremo valori da RDD usando COLLETMAP ().

#import il modulo pyspark
importare pyspark
#IMPORT SPARKSESSION per la creazione di una sessione
da pyspark.SQL Importazione di importazione
# Importa RDD da Pyspark.rdd
da pyspark.RDD Import RDD
#Crea un'app chiamata LinuxHint
Spark_app = SparkSession.costruttore.appname ('LinuxHint').getOrCreate ()
# Crea 6 - coppie di soggetti e valutazioni
soggetti_rating = spark_app.SparkContext.Parallelize ([('Linux', 5), ('C#', 4),
('javascript', 4), ('python', 53)])
#Apply Collecmap () per restituire RDD
Stampa (Subjects_rating.collecmap ())

Produzione:

'Linux': 5, 'C#': 4, 'JavaScript': 4, 'Python': 53

Possiamo vedere che RDD viene restituito sotto forma di tasto: coppie di valori.

Si noti che se ci sono più chiavi con valori diversi, allora collechapSap () restituirà il valore aggiornato rispetto alla chiave.

Esempio:

#import il modulo pyspark
importare pyspark
#IMPORT SPARKSESSION per la creazione di una sessione
da pyspark.SQL Importazione di importazione
# Importa RDD da Pyspark.rdd
da pyspark.RDD Import RDD
#Crea un'app chiamata LinuxHint
Spark_app = SparkSession.costruttore.appname ('LinuxHint').getOrCreate ()
# Crea 6 - coppie di soggetti e valutazioni
soggetti_rating = spark_app.SparkContext.Parallelize ([('Linux', 5), ('C#', 4), ('JavaScript', 4),
('Python', 53), ('Linux', 45), ('C#', 44),])
#Apply Collecmap () per restituire RDD
Stampa (Subjects_rating.collecmap ())

Produzione:

'Linux': 45, 'C#': 44, 'JavaScript': 4, 'Python': 53

Possiamo vedere che i tasti Linux e C# si sono verificati due volte. La seconda volta i valori sono 45 e 44. Quindi, il collecmap () ritorna con i nuovi valori.

Conclusione

In questo tutorial di Pyspark RDD, abbiamo visto come applicare le azioni di lookup () e collectionSmap () su coppia RDD. Lookup () viene utilizzato per restituire i valori associati alla chiave in un elenco prendendo la chiave come parametro e collectSmap () restituisce RDD sotto forma di mappa.