Pyspark - Union & Unionall

Pyspark - Union & Unionall
In Python, Pyspark è un modulo Spark utilizzato per fornire un tipo di elaborazione simile come Spark utilizzando DataFrame. Possiamo aggiungere righe/dati dal secondo frame dati al primo frame dati utilizzando due metodi: Union () e UnionAll (). Entrambi i metodi sono gli stessi. Il metodo UnionAll () è deprecato nel 2.0 versione di pyspark ed è sostituita dal metodo Union (). Prima di conoscere questi metodi, creiamo due frame di dati pyspark.

Esempio 1:
Nel seguente esempio, creeremo il Frame dati PysPark con 5 righe e 6 colonne e visualizzano il metodo show ():

#import il modulo pyspark
importare pyspark
#IMPORT SPARKSESSION per la creazione di una sessione
da pyspark.SQL Importazione di importazione
#Crea un'app chiamata LinuxHint
Spark_app = SparkSession.costruttore.appname ('LinuxHint').getOrCreate ()
# Crea dati studenteschi con 5 righe e 6 attributi
Students1 = ['rollno': '001', 'name': 'sravan', 'age': 23, 'altezza': 5.79, "peso": 67, "indirizzo": "guntur",
'rollno': '002', 'name': 'ojaswi', 'age': 16, 'altezza': 3.79, 'peso': 34, 'indirizzo': 'hyd',
'rollno': '003', 'name': 'gnanesh chowdary', 'age': 7, 'altezza': 2.79, 'peso': 17, 'indirizzo': 'patna',
'rollno': '004', 'name': 'rohith', 'age': 9, 'altezza': 3.69, 'peso': 28, 'indirizzo': 'hyd',
'rollno': '005', 'name': 'sridevi', 'age': 37, 'altezza': 5.59, 'peso': 54, 'indirizzo': 'hyd']
# Crea il frame dati
df = spark_app.CreatedAtaFrame (Students1)
# Visualizza dati dati
df.spettacolo()

Produzione:

Esempio 2:
Nel seguente esempio, creeremo il Frame dati PysPark con 3 righe e 6 colonne e visualizzano il metodo show ():

#import il modulo pyspark
importare pyspark
#IMPORT SPARKSESSION per la creazione di una sessione
da pyspark.SQL Importazione di importazione
#Crea un'app chiamata LinuxHint
Spark_app = SparkSession.costruttore.appname ('LinuxHint').getOrCreate ()
# Crea dati studenteschi con 5 righe e 6 attributi
Students2 = ['rollno': '056', 'name': 'Vinay', 'Age': 23, 'altezza': 5.79, 'peso': 67, 'indirizzo': 'tamilnadu',
'rollno': '045', 'name': 'bhanu', 'age': 16, 'altezza': 3.79, 'peso': 34, 'indirizzo': 'hyd',
'rollno': '032', 'name': 'jyothika chowdary', 'age': 7, 'altezza': 2.79, 'peso': 17, 'indirizzo': 'Delhi']
# Crea il frame dati
df2 = spark_app.CreatedAtaFrame (Students2)
# Visualizza il secondo frame dati
df2.spettacolo()

Produzione:

Pyspark - Union () Function

La funzione Union () aggiungerà righe da uno o più frame di dati al primo frame dati. Vedremo come aggiungere le righe dal secondo frame dati al primo frame dati.

Sintassi:

First_DataFrame.Union (Second_DataFrame)

Dove:

  1. First_DataFrame è il primo Frame dati di input.
  2. Second_DataFrame è il secondo frame dati di input.

Esempio:

In questo esempio, applichiamo la funzione Union () per aggiungere il secondo frame di dati al primo

DataFrame. Infine, stiamo visualizzando il frame dati utilizzando il metodo show ():

#import il modulo pyspark
importare pyspark
#IMPORT SPARKSESSION per la creazione di una sessione
da pyspark.SQL Importazione di importazione
#Crea un'app chiamata LinuxHint
Spark_app = SparkSession.costruttore.appname ('LinuxHint').getOrCreate ()
# Crea dati studenteschi con 5 righe e 6 attributi
Students1 = ['rollno': '001', 'name': 'sravan', 'age': 23, 'altezza': 5.79, "peso": 67, "indirizzo": "guntur",
'rollno': '002', 'name': 'ojaswi', 'age': 16, 'altezza': 3.79, 'peso': 34, 'indirizzo': 'hyd',
'rollno': '003', 'name': 'gnanesh chowdary', 'age': 7, 'altezza': 2.79, 'peso': 17, 'indirizzo': 'patna',
'rollno': '004', 'name': 'rohith', 'age': 9, 'altezza': 3.69, 'peso': 28, 'indirizzo': 'hyd',
'rollno': '005', 'name': 'sridevi', 'age': 37, 'altezza': 5.59, 'peso': 54, 'indirizzo': 'hyd']
# Crea il frame dati
df = spark_app.CreatedAtaFrame (Students1)
# Crea dati studenteschi con 5 righe e 6 attributi
Students2 = ['rollno': '056', 'name': 'Vinay', 'Age': 23, 'altezza': 5.79, 'peso': 67, 'indirizzo': 'tamilnadu',
'rollno': '045', 'name': 'bhanu', 'age': 16, 'altezza': 3.79, 'peso': 34, 'indirizzo': 'hyd',
'rollno': '032', 'name': 'jyothika chowdary', 'age': 7, 'altezza': 2.79, 'peso': 17, 'indirizzo': 'Delhi']
# Crea il frame dati
df2 = spark_app.CreatedAtaFrame (Students2)
# Perform Union ()
df.Unione (DF2).spettacolo()

Produzione:

Pyspark - UnionAll () Function

La funzione UnionAll () aggiungerà righe da uno o più frame di dati al primo frame dati. Vedremo come aggiungere le righe dal secondo frame dati al primo frame dati.

Sintassi:

First_DataFrame.UnionAll (Second_DataFrame)

Dove:

  1. First_DataFrame è il primo Frame dati di input.
  2. Second_DataFrame è il secondo frame dati di input.

Esempio:

In questo esempio, applichiamo la funzione UnionAll () per aggiungere il secondo frame dati al primo frame dati. Infine, stiamo visualizzando il frame dati utilizzando il metodo show ().

#import il modulo pyspark
importare pyspark
#IMPORT SPARKSESSION per la creazione di una sessione
da pyspark.SQL Importazione di importazione
#Crea un'app chiamata LinuxHint
Spark_app = SparkSession.costruttore.appname ('LinuxHint').getOrCreate ()
# Crea dati studenteschi con 5 righe e 6 attributi
Students1 = ['rollno': '001', 'name': 'sravan', 'age': 23, 'altezza': 5.79, "peso": 67, "indirizzo": "guntur",
'rollno': '002', 'name': 'ojaswi', 'age': 16, 'altezza': 3.79, 'peso': 34, 'indirizzo': 'hyd',
'rollno': '003', 'name': 'gnanesh chowdary', 'age': 7, 'altezza': 2.79, 'peso': 17, 'indirizzo': 'patna',
'rollno': '004', 'name': 'rohith', 'age': 9, 'altezza': 3.69, 'peso': 28, 'indirizzo': 'hyd',
'rollno': '005', 'name': 'sridevi', 'age': 37, 'altezza': 5.59, 'peso': 54, 'indirizzo': 'hyd']
# Crea il frame dati
df = spark_app.CreatedAtaFrame (Students1)
# Crea dati studenteschi con 5 righe e 6 attributi
Students2 = ['rollno': '056', 'name': 'Vinay', 'Age': 23, 'altezza': 5.79, 'peso': 67, 'indirizzo': 'tamilnadu',
'rollno': '045', 'name': 'bhanu', 'age': 16, 'altezza': 3.79, 'peso': 34, 'indirizzo': 'hyd',
'rollno': '032', 'name': 'jyothika chowdary', 'age': 7, 'altezza': 2.79, 'peso': 17, 'indirizzo': 'Delhi']
# Crea il frame dati
df2 = spark_app.CreatedAtaFrame (Students2)
# Perform UnionAll ()
df.UnionAll (DF2).spettacolo()

Produzione:

Conclusione

In questo articolo, possiamo aggiungere due o più gesti di dati utilizzando i metodi Union () e UnionAll (). La funzionalità di entrambi i metodi è la stessa e discussa con esempi forniti. Speriamo che tu abbia trovato questo articolo utile. Dai un'occhiata a altri articoli di suggerimento Linux per suggerimenti e tutorial.