RDD sta per set di dati distribuiti resilienti. Possiamo chiamare RDD come struttura di dati fondamentali in Apache Spark. Memorizzerà i dati sotto forma di righe e colonne come un frame di dati.
Dobbiamo importare RDD dal pyspark.Modulo RDD.
In pyspark, per creare dati o un frame dati, dobbiamo utilizzare il metodo parallelize ().
Sintassi:
Spark_app.SparkContext.parallelizza (dati)Laddove i dati possono essere un dati monodimensionali (dati lineari) o bidimensionali (dati di riga-colonna).
In questo tutorial, vedremo sulle operazioni Pyspark RDD sottract () e distinte ().
Pyspark rdd - sottract ()
sottrarre() In RDD è simile all'operazione di differenza impostata che restituirà il nuovo RDD che include gli elementi presenti nel primo RDD ma non presenti nel secondo RDD.
Quindi, abbiamo bisogno di due RDD per eseguire questa operazione.
Sintassi:
Rdd_data1.sottract (rdd_data2)Dove:
Esempio 1:
In questo esempio, creeremo due RDD con dati numerici - soggetti_1 e soggetti_2 ed eseguire sottract () su due RDD.
#import il modulo pysparkProduzione:
Soggeti_1 RDD: [100, 34, 56, 54, 45]Dall'output, possiamo vedere che ci sono 5 elementi nei RDD.
Nella prima operazione, stiamo eseguendo sottrai su soggetti_1 con soggetti_2. Qui 100 e 54 sono presenti in soggetti_1 ma non in soggetti_2. Quindi, sono stati restituiti.
Nella seconda operazione, stiamo eseguendo la sottrazione su soggetti_2 con soggetti_1. Qui, 89 e 90 sono presenti in soggetti_2 ma non in soggetti_1. Quindi, sono stati restituiti.
Esempio 2:
In questo esempio, creeremo due RDD con dati stringa - soggetti_1 e soggetti_2 ed eseguire sottract () su due RDD.
#import il modulo pysparkProduzione:
soggetti_1 rdd: ['linux', 'bash', 'javascript']Dall'output, possiamo vedere che ci sono 5 elementi nei RDD.
Nella prima operazione, stiamo eseguendo la sottrazione su soggetti_1 con soggetti_2. Qui, "bash" e "javascript" sono presenti in soggetti_1 ma non in soggetti_2. Quindi, sono stati restituiti.
Nella seconda operazione, stiamo eseguendo sottrai su soggetti_2 con soggetti_1. Qui "java" è presente in soggetti_2 ma non in soggetti_1. Quindi, viene restituito.
Pyspark rdd - distinto ()
distinto () In RDD viene utilizzato per restituire solo valori univoci da RDD. Viene applicato su un solo RDD
Quindi, abbiamo bisogno di un RDD per eseguire questa operazione. Non ci vogliono parametri.
Sintassi:
Rdd_data.distinto ()Dove, rdd_data1 è il primo RDD.
Esempio 1:
In questo esempio, creeremo un RDD soggetti_1 con 10 valori numerici e restituiremo valori univoci applicando operazioni distinte ().
#import il modulo pysparkProduzione:
Soggeti_1 RDD: [34, 56, 54, 45, 45, 56, 54, 4, 3, 3]Abbiamo creato un RDD con 10 valori interi che includono duplicati. Dopo aver applicato distinto () per restituire solo valori univoci.
Esempio 2:
In questo esempio, creeremo un RDD soggetti_1 con 5 valori di stringa e restituiremo valori univoci applicando operazioni distinte ().
#import il modulo pysparkProduzione:
soggetti_1 rdd: ['java', 'java', 'python', 'javascript', 'javascript'Abbiamo creato un RDD con 5 valori di stringa che includono duplicati. Dopo di che abbiamo applicato distinto () per restituire solo valori univoci. I valori univoci restituiti sono: Java, Python e JavaScript.
Conclusione
In questo tutorial Pyspark RDD, abbiamo discusso dei metodi sottract () e distinti ().sottract () come applicato su due RDD. È usato per restituire gli elementi presenti nel primo RDD ma non presenti nel secondo. Rdd.distinto () viene applicato su un singolo RDD che viene utilizzato per restituire elementi unici da RDD.