Pyspark rdd - nome e setname

Pyspark rdd - nome e setname
In Python, Pyspark è un modulo Spark utilizzato per fornire un tipo di elaborazione simile come Spark.

RDD sta per set di dati distribuiti resilienti. Possiamo chiamare RDD come struttura di dati fondamentali in Apache Spark. La coppia RDD memorizza gli elementi/valori sotto forma di coppie di valore chiave. Memorizzerà la coppia di valore chiave nel formato (chiave, valore).

Dobbiamo importare RDD dal pyspark.Modulo RDD.

In pyspark per creare un RDD, possiamo usare il metodo parallelize ().

Sintassi:

Spark_app.SparkContext.parallelizza (dati)

Laddove i dati possono essere un dati monodimensionali (dati lineari) o bidimensionali (dati di riga-colonna).

Pyspark rdd - setName ()

SetName () in Pyspark RDD viene utilizzato per impostare il nome di RDD. Prende il nome come parametro.

Sintassi:

Rdd_data.setName ('rdd_name')

Parametro:

'Rdd_name' è il nome di RDD da assegnare.

Esempio:

In questo esempio stiamo creando un RDD denominato soggetti_rating e impostare il nome di questo RDD su sub_rate.

#import il modulo pyspark
importare pyspark
#IMPORT SPARKSESSION per la creazione di una sessione
da pyspark.SQL Importazione di importazione
# Importa RDD da Pyspark.rdd
da pyspark.RDD Import RDD
#Crea un'app chiamata LinuxHint
Spark_app = SparkSession.costruttore.appname ('LinuxHint').getOrCreate ()
# Crea 6 - coppie di soggetti e valutazioni
soggetti_rating = spark_app.SparkContext.parallelize ([('python', 4), ('javascript', 2), ('linux', 5), ('c#', 4), ('javascript', 4), ('python', 3) ])
#Sept il nome RDD su sub_rate
risultato = soggetti_rating.setName ('sub_rate')
#display the rdd
Stampa (risultato.raccogliere())

Produzione:

[('' Python ', 4), (' JavaScript ', 2), (' Linux ', 5), (' C#', 4), (' JavaScript ', 4), (' Python ', 3)]

Possiamo vedere che RDD è impostato su Sub_rate e visualizza il metodo RDD utilizzando Collect ().

Pyspark rdd - name ()

il nome () in pyspark rdd viene utilizzato per restituire il nome di RDD. Non ci vogliono parametri.

Sintassi:

Dati RDD.nome()

Esempio:

In questo esempio, stiamo creando un RDD denominato soggetti_rating e imposta il nome di questo RDD su sotto_rate, quindi ottieni il nome.

#import il modulo pyspark
importare pyspark
#IMPORT SPARKSESSION per la creazione di una sessione
da pyspark.SQL Importazione di importazione
# Importa RDD da Pyspark.rdd
da pyspark.RDD Import RDD
#Crea un'app chiamata LinuxHint
Spark_app = SparkSession.costruttore.appname ('LinuxHint').getOrCreate ()
# Crea 6 - coppie di soggetti e valutazioni
soggetti_rating = spark_app.SparkContext.parallelize ([('python', 4), ('javascript', 2), ('linux', 5), ('c#', 4), ('javascript', 4), ('python', 3) ])
#Sept il nome RDD su sub_rate
risultato = soggetti_rating.setName ('sub_rate')
#Trenurn il nome RDD
Stampa (risultato.nome())

Produzione:

Sub_rate

Possiamo vedere che il nome di RDD è sub_rate.

Conclusione

In questo articolo, abbiamo visto come impostare il nome per un RDD usando setName () e come restituire il nome di un RDD usando il metodo Nome ().