RDD sta per set di dati distribuiti resilienti. Possiamo chiamare RDD una struttura di dati fondamentali in Apache Spark. La coppia RDD memorizza gli elementi/valori sotto forma di coppie di valore chiave. Memorizzerà la coppia di valore chiave nel formato (chiave, valore).
Dobbiamo importare RDD dal pyspark.Modulo RDD.
Quindi, in Pyspark, possiamo usare il metodo parallelize () per creare un RDD,.
Sintassi:
Spark_app.SparkContext.parallelizza (dati)Dove,
I dati possono essere un monodimensionale (dati lineari) o bidimensionali (dati di riga-colonna).
Trasformazioni RDD:
Una trasformazione RDD è un'operazione applicata a una coppia RDD per creare nuovi dati dalla coppia esistente RDD. Usando le trasformazioni, siamo in grado di filtrare la coppia RDD applicando alcune trasformazioni.
Vediamo le trasformazioni che vengono eseguite sulla coppia data RDD.
Ne discuteremo uno per uno.
GroupBykey
GroupBykey viene utilizzato per eseguire la trasformazione su una coppia RDD raggruppando i valori in base alla chiave. Posizionerà tutti i valori raggruppati in un elenco seguito dalla chiave.
Sintassi:
coppierdd_data.GroupBykey ()Useremo un ciclo per iterare chiavi e valori e posizioneremo i valori all'interno di un elenco usando la funzione List ().
Esempio:
In questo esempio, abbiamo creato una coppia RDD - soggetti_rating ed eseguito la trasformazione di GroupBykey () in valori di gruppo rispetto alla chiave. Quindi abbiamo usato un ciclo per iterare chiavi e valori e, infine, abbiamo visualizzato ogni tasto e gruppo di valori.
#import il modulo pysparkProduzione:
Python -> [4, 3]Nella coppia di soggetti di cui sopra, ci sono due valori associati a Key-Python e Key-Javascript e solo un valore associato a Linux e C#.
BEBIKE SPORT
SortBykey viene utilizzato per eseguire la trasformazione su una coppia RDD restituendo una nuova coppia RDD in ordine crescente in base alla chiave. Quindi questa trasformazione ordinerà gli elementi in coppia RDD per chiave.
Sintassi:
coppierdd_data.SortBykey ()Esempio:
In questo esempio, abbiamo creato una coppia rdd - soggetti_rating ed eseguito la trasformazione ordinykey () per restituire valori ordinati in base alla chiave e all'azione di raccolta applicata per ottenere la coppia ordinata RDD.
#import il modulo pysparkProduzione:
[('C#', 4), ('JavaScript', 2), ('JavaScript', 4), ('Linux', 5), ('Python', 4), ('Python', 3)]Possiamo vedere che la nuova coppia ordinata RDD viene restituita mediante ordinamento in base alla chiave nella coppia effettiva RDD - SUGGERIE_RATING.
RidurrecyKey
RidurrenBykey viene utilizzato per eseguire la trasformazione su una coppia RDD elaborando i dati in parallelo per combinare i valori con chiavi simili. Ha usato alcune funzioni come lambda () per combinare i valori in base alla chiave eseguendo alcune operazioni nella funzione.
Sintassi:
coppierdd_data.RidurreyBykey (funzione Lambda)Funzione Lambda:
Lambda Element1, Element2: FunzionamentoEsempio:
In questo esempio, abbiamo creato una coppia RDD - SOGGETS_RATING ed eseguito la trasformazione di riduzioneBykey () per eseguire
Infine, possiamo usare l'azione da collezione () per visualizzare ogni coppia trasformata RDD.
#import il modulo pysparkProduzione:
[('Python', 7), ('JavaScript', 6), ('Linux', 5), ('C#', 4)]Per key-linux e c#: c'è solo un valore per ciascuno, quindi tutte le operazioni risultanti sono le stesse i.e.
Conclusione
Da questo articolo RDD della coppia, abbiamo visto cos'è la trasformazione e come applicare le trasformazioni RDD della coppia. Esistono tre trasformazioni di cui abbiamo discusso: GroupBykey () viene utilizzato per combinare tutti i valori in base alla chiave, SortBykey () restituisce una nuova coppia RDD ordinando la coppia RDD in base alle chiavi in ordine crescente e Ridurre Chiave eseguendo alcune operazioni utilizzando funzioni anonime come la funzione lambda.