In Python, Pyspark è un modulo Spark utilizzato per fornire un tipo di elaborazione simile come Spark.
RDD sta per set di dati distribuiti resilienti. Possiamo chiamare RDD come struttura di dati fondamentali in Apache Spark.
Dobbiamo importare RDD dal pyspark.Modulo RDD.
In pyspark per creare un RDD, possiamo usare il metodo parallelize ().
Sintassi:
Spark_app.SparkContext.parallelizza (dati)
Dove:
I dati possono essere un dati monodimensionali (dati lineari) o bidimensionali (dati di riga-colonna).
Azioni RDD:
Un'azione in RDD è un'operazione applicata su un RDD per restituire un unico valore. In altre parole, possiamo dire che un'azione deriverà dai dati forniti eseguendo alcune operazioni su RDD fornito.
Vediamo le azioni eseguite su RDD dato.
Ne discuteremo uno per uno.
Per tutte le azioni, abbiamo considerato gli studenti RDD come mostrato di seguito:
['rollno': '001', 'name': 'sravan', 'age': 23, 'altezza': 5.79, "peso": 67, "indirizzo": "guntur",
'rollno': '002', 'name': 'ojaswi', 'age': 16, 'altezza': 3.79, 'peso': 34, 'indirizzo': 'hyd',
'rollno': '003', 'name': 'gnanesh chowdary', 'age': 7, 'altezza': 2.79, 'peso': 17, 'indirizzo': 'patna',
'rollno': '004', 'name': 'rohith', 'age': 9, 'altezza': 3.69, 'peso': 28, 'indirizzo': 'hyd',
'rollno': '005', 'name': 'sridevi', 'age': 37, 'altezza': 5.59, 'peso': 54, 'indirizzo': 'hyd']
raccogliere()
La raccolta () l'azione in RDD viene utilizzata per restituire i dati dal dato RDD.
Sintassi:
Rdd_data.raccogliere()
Dove, i dati RDD sono RDD
Esempio:
In questo esempio, vedremo come eseguire un'azione da collezionare () sugli studenti RDD.
#import il modulo pyspark
importare pyspark
#IMPORT SPARKSESSION per la creazione di una sessione
da pyspark.SQL Importazione di importazione
# Importa RDD da Pyspark.rdd
da pyspark.RDD Import RDD
#Crea un'app chiamata LinuxHint
Spark_app = SparkSession.costruttore.appname ('LinuxHint').getOrCreate ()
# Crea dati studenteschi con 5 righe e 6 attributi
Studenti = Spark_app.SparkContext.parallelize (['rollno': '001', 'name': 'sravan', 'age': 23,
'altezza': 5.79, "peso": 67, "indirizzo": "guntur",
'rollno': '002', 'name': 'ojaswi', 'age': 16, 'altezza': 3.79, 'peso': 34, 'indirizzo': 'hyd',
'rollno': '003', 'name': 'gnanesh chowdary', 'age': 7, 'altezza': 2.79, 'peso': 17, 'indirizzo': 'patna',
'rollno': '004', 'name': 'rohith', 'age': 9, 'altezza': 3.69, 'peso': 28, 'indirizzo': 'hyd',
'rollno': '005', 'name': 'sridevi', 'age': 37, 'altezza': 5.59, 'peso': 54, 'indirizzo': 'hyd'])
#performare l'azione di raccolta
Stampa (studenti.raccogliere())
Produzione:
['rollno': '001', 'name': 'sravan', 'age': 23, 'altezza': 5.79, "peso": 67, "indirizzo": "guntur",
'rollno': '002', 'name': 'ojaswi', 'age': 16, 'altezza': 3.79, 'peso': 34, 'indirizzo': 'hyd',
'rollno': '003', 'name': 'gnanesh chowdary', 'age': 7, 'altezza': 2.79, 'peso': 17, 'indirizzo': 'patna',
'rollno': '004', 'name': 'rohith', 'age': 9, 'altezza': 3.69, 'peso': 28, 'indirizzo': 'hyd',
'rollno': '005', 'name': 'sridevi', 'age': 37, 'altezza': 5.59, 'peso': 54, 'indirizzo': 'hyd']
Puoi notare che tutti i dati vengono restituiti con il metodo Collect ().
2. contare()
L'azione Count () in RDD viene utilizzata per restituire il numero totale di elementi/valori dal dato RDD.
Sintassi:
Rdd_data.contare()
Dove i dati RDD sono RDD
Esempio:
In questo esempio, vedremo come eseguire l'azione Count () sugli studenti RDD:
#import il modulo pyspark
importare pyspark
#IMPORT SPARKSESSION per la creazione di una sessione
da pyspark.SQL Importazione di importazione
# Importa RDD da Pyspark.rdd
da pyspark.RDD Import RDD
#Crea un'app chiamata LinuxHint
Spark_app = SparkSession.costruttore.appname ('LinuxHint').getOrCreate ()
# Crea dati studenteschi con 5 righe e 6 attributi
Studenti = Spark_app.SparkContext.parallelize (['rollno': '001', 'name': 'sravan', 'age': 23,
'altezza': 5.79, "peso": 67, "indirizzo": "guntur",
'rollno': '002', 'name': 'ojaswi', 'age': 16, 'altezza': 3.79, 'peso': 34, 'indirizzo': 'hyd',
'rollno': '003', 'name': 'gnanesh chowdary', 'age': 7, 'altezza': 2.79, 'peso': 17, 'indirizzo': 'patna',
'rollno': '004', 'name': 'rohith', 'age': 9, 'altezza': 3.69, 'peso': 28, 'indirizzo': 'hyd',
'rollno': '005', 'name': 'sridevi', 'age': 37, 'altezza': 5.59, 'peso': 54, 'indirizzo': 'hyd'])
#Perform Count Action
Stampa (studenti.contare())
Produzione:
5
Puoi notare che il numero totale di elementi viene restituito con il metodo Count ().
3. Primo()
First () Action in RDD viene utilizzata per restituire il primo elemento/valore dal dato RDD.
Sintassi:
Rdd_data.Primo()
Dove i dati RDD sono RDD
Esempio:
In questo esempio, vedremo come eseguire l'azione First () sugli studenti RDD.
#import il modulo pyspark
importare pyspark
#IMPORT SPARKSESSION per la creazione di una sessione
da pyspark.SQL Importazione di importazione
# Importa RDD da Pyspark.rdd
da pyspark.RDD Import RDD
#Crea un'app chiamata LinuxHint
Spark_app = SparkSession.costruttore.appname ('LinuxHint').getOrCreate ()
# Crea dati studenteschi con 5 righe e 6 attributi
Studenti = Spark_app.SparkContext.parallelize (['rollno': '001', 'name': 'sravan', 'age': 23,
'altezza': 5.79, "peso": 67, "indirizzo": "guntur",
'rollno': '002', 'name': 'ojaswi', 'age': 16, 'altezza': 3.79, 'peso': 34, 'indirizzo': 'hyd',
'rollno': '003', 'name': 'gnanesh chowdary', 'age': 7, 'altezza': 2.79, 'peso': 17, 'indirizzo': 'patna',
'rollno': '004', 'name': 'rohith', 'age': 9, 'altezza': 3.69, 'peso': 28, 'indirizzo': 'hyd',
'rollno': '005', 'name': 'sridevi', 'age': 37, 'altezza': 5.59, 'peso': 54, 'indirizzo': 'hyd'])
#Apply First () Action
Stampa (studenti.Primo())
Produzione:
'rollno': '001', 'name': 'sravan', 'age': 23, 'altezza': 5.79, "peso": 67, "indirizzo": "guntur"
Puoi notare che il primo elemento viene restituito con il primo () metodo.
4. Prendere()
L'azione () in RDD viene utilizzata per restituire i valori N dalla parte superiore del dato RDD. Ci vuole un parametro - n. Dove si riferisce a un numero intero che specifica il numero di elementi per tornare da RDD.
Sintassi:
Rdd_data.preso)
Parametro:
N- si riferisce a un numero intero che specifica il numero di elementi che torna da RDD.
Esempio:
In questo esempio, vedremo come eseguire l'azione di prendere () sugli studenti RDD restituendo solo 2 valori.
#import il modulo pyspark
importare pyspark
#IMPORT SPARKSESSION per la creazione di una sessione
da pyspark.SQL Importazione di importazione
# Importa RDD da Pyspark.rdd
da pyspark.RDD Import RDD
#Crea un'app chiamata LinuxHint
Spark_app = SparkSession.costruttore.appname ('LinuxHint').getOrCreate ()
# Crea dati studenteschi con 5 righe e 6 attributi
Studenti = Spark_app.SparkContext.parallelize (['rollno': '001', 'name': 'sravan', 'age': 23,
'altezza': 5.79, "peso": 67, "indirizzo": "guntur",
'rollno': '002', 'name': 'ojaswi', 'age': 16, 'altezza': 3.79, 'peso': 34, 'indirizzo': 'hyd',
'rollno': '003', 'name': 'gnanesh chowdary', 'age': 7, 'altezza': 2.79, 'peso': 17, 'indirizzo': 'patna',
'rollno': '004', 'name': 'rohith', 'age': 9, 'altezza': 3.69, 'peso': 28, 'indirizzo': 'hyd',
'rollno': '005', 'name': 'sridevi', 'age': 37, 'altezza': 5.59, 'peso': 54, 'indirizzo': 'hyd'])
#Perform agisci per restituire solo le prime 2 file
Stampa (studenti.Prendi (2))
Produzione:['rollno': '001', 'name': 'sravan', 'age': 23, 'altezza': 5.79, "peso": 67, "indirizzo": "guntur",
'rollno': '002', 'name': 'ojaswi', 'age': 16, 'altezza': 3.79, 'peso': 34, 'indirizzo': 'hyd']
Puoi notare che i primi 2 elementi vengono restituiti con il metodo Take ().
5. saveastextFile ()
L'azione SaveasTextFile () viene utilizzata per archiviare i dati RDD in un file di testo. Prende il nome del file come parametro in modo tale che il file venga salvato con il nome file specificato.
Sintassi:
Rdd_data.saveastextFile ('file_name.TXT')
Parametro:
file_name: il file viene salvato con il nome file specificato.
Esempio:
In questo esempio, vedremo come eseguire l'azione saveastextfile () sugli studenti RDD memorizzando il file.
#import il modulo pyspark
importare pyspark
#IMPORT SPARKSESSION per la creazione di una sessione
da pyspark.SQL Importazione di importazione
# Importa RDD da Pyspark.rdd
da pyspark.RDD Import RDD
#Crea un'app chiamata LinuxHint
Spark_app = SparkSession.costruttore.appname ('LinuxHint').getOrCreate ()
# Crea dati studenteschi con 5 righe e 6 attributi
Studenti = Spark_app.SparkContext.parallelize (['rollno': '001', 'name': 'sravan', 'age': 23,
'altezza': 5.79, "peso": 67, "indirizzo": "guntur",
'rollno': '002', 'name': 'ojaswi', 'age': 16, 'altezza': 3.79, 'peso': 34, 'indirizzo': 'hyd',
'rollno': '003', 'name': 'gnanesh chowdary', 'age': 7, 'altezza': 2.79, 'peso': 17, 'indirizzo': 'patna',
'rollno': '004', 'name': 'rohith', 'age': 9, 'altezza': 3.69, 'peso': 28, 'indirizzo': 'hyd',
'rollno': '005', 'name': 'sridevi', 'age': 37, 'altezza': 5.59, 'peso': 54, 'indirizzo': 'hyd'])
#Perform Azione saveastextFile () per salvare RDD nel file di testo.
studenti.SaveasTextFile ('Students_File.TXT')
Produzione:
Puoi vedere che studenti_file inizia a scaricare.
Conclusione
In questo tutorial Pyspark, vedi cos'è un RDD e come eseguire diverse azioni disponibili su RDD. Le azioni eseguite su RDD sono: count () per restituire il numero totale di elementi in RDD, collect () per restituire i valori presenti in RDD, first () e prendere () per restituire prima valutazione e saveastextfile () Per salvare l'RDD in un file di testo.