RDD sta per set di dati distribuiti resilienti. Possiamo chiamare RDD come struttura di dati fondamentali in Apache Spark. La coppia RDD memorizza gli elementi/valori sotto forma di coppie di valore chiave. Memorizzerà la coppia di valore chiave nel formato (chiave, valore).
Dobbiamo importare RDD dal pyspark.Modulo RDD.
In pyspark per creare un RDD, possiamo usare il metodo parallelize ().
Sintassi:
Spark_app.SparkContext.parallelizza (dati)Laddove i dati possono essere un dati monodimensionali (dati lineari) o bidimensionali (dati di riga-colonna).
Pyspark rdd - setName ()
SetName () in Pyspark RDD viene utilizzato per impostare il nome di RDD. Prende il nome come parametro.
Sintassi:
Rdd_data.setName ('rdd_name')Parametro:
'Rdd_name' è il nome di RDD da assegnare.
Esempio:
In questo esempio stiamo creando un RDD denominato soggetti_rating e impostare il nome di questo RDD su sub_rate.
#import il modulo pysparkProduzione:
[('' Python ', 4), (' JavaScript ', 2), (' Linux ', 5), (' C#', 4), (' JavaScript ', 4), (' Python ', 3)]Possiamo vedere che RDD è impostato su Sub_rate e visualizza il metodo RDD utilizzando Collect ().
Pyspark rdd - name ()
il nome () in pyspark rdd viene utilizzato per restituire il nome di RDD. Non ci vogliono parametri.
Sintassi:
Dati RDD.nome()Esempio:
In questo esempio, stiamo creando un RDD denominato soggetti_rating e imposta il nome di questo RDD su sotto_rate, quindi ottieni il nome.
#import il modulo pysparkProduzione:
Sub_ratePossiamo vedere che il nome di RDD è sub_rate.
Conclusione
In questo articolo, abbiamo visto come impostare il nome per un RDD usando setName () e come restituire il nome di un RDD usando il metodo Nome ().