Pyspark - Classe di riga

Pyspark - Classe di riga
In Python, Pyspark è un modulo Spark utilizzato per fornire un tipo di elaborazione simile come Spark utilizzando DataFrame.

La classe di riga in pyspark viene utilizzata per creare riga per il frame dati pyspark. Possiamo creare una riga utilizzando la funzione riga ().

Questo è disponibile nel pyspark.Modulo SQL. Quindi dobbiamo importare la riga da questo modulo.

Sintassi:

Riga (column_name = 'valore', .. .)

Dove,

  1. column_name è la colonna per il frame dati pyspark
  2. Il valore è il valore di riga per una colonna particolare

Possiamo specificare qualsiasi numero di colonne nella classe di riga.

Se vogliamo creare diverse righe, allora dobbiamo specificare la classe di riga all'interno di un elenco separato da un operatore di virgola.

Sintassi:

[Riga (column_name = 'valore', .. .), Riga (column_name = 'value', .. .)
,...]

Per creare PysPark DataFrame da questa riga, passiamo semplicemente l'elenco delle righe al metodo createAtaFrame ().

Se vogliamo visualizzare il Frame dati PysPark in formato riga, dobbiamo utilizzare il metodo collect ().

Questo metodo viene utilizzato per ottenere i dati in una riga per formato di riga

Sintassi:

DataFrame.raccogliere()

Dove il frame dati è il frame dati di input pyspark.

Esempio :

Questo esempio creerà 5 righe utilizzando la classe di riga con 6 colonne e visualizzerà il frame dati utilizzando il metodo collect ().

#IMPORT Il modulo PYSPRK
importare pyspark
#IMPORT SPARKSESSION per la creazione di una sessione e riga
da pyspark.SQL Importa Sparksession, riga
#Crea un'app chiamata LinuxHint
Spark_app = SparkSession.costruttore.appname ('LinuxHint').getOrCreate ()
#Crea righe
row_data = [riga (rollno = '001', name = 'sravan', età = 23, altezza = 5.79, peso = 67, indirizzo = 'guntur'),
Riga (rollno = '002', name = 'ojaswi', età = 16, altezza = 3.79, peso = 34, indirizzo = 'hyd'),
Riga (rollno = '003', name = 'gnanesh chowdary', età = 7, altezza = 2.79, peso = 17, indirizzo = 'patna'),
Riga (rollno = '004', name = 'rohith', età = 9, altezza = 3.69, peso = 28, indirizzo = 'hyd'),
Riga (rollno = '005', name = 'sridevi', età = 37, altezza = 5.59, peso = 54, indirizzo = 'hyd')]
#Crea il dataframe da row_data
df = spark_app.creatotaframe (row_data)
# Visualizza i dati di dati
#By righe
df.raccogliere()

Produzione:

[Riga (rollno = '001', name = 'sravan', età = 23, altezza = 5.79, peso = 67, indirizzo = 'guntur'),
Riga (rollno = '002', name = 'ojaswi', età = 16, altezza = 3.79, peso = 34, indirizzo = 'hyd'),
Riga (rollno = '003', name = 'gnanesh chowdary', età = 7, altezza = 2.79, peso = 17, indirizzo = 'patna'),
Riga (rollno = '004', name = 'rohith', età = 9, altezza = 3.69, peso = 28, indirizzo = 'hyd'),
Riga (rollno = '005', name = 'sridevi', età = 37, altezza = 5.59, peso = 54, indirizzo = 'hyd')]

Possiamo anche definire prima le colonne e quindi passare i valori alle righe.

Questo viene fatto usando il nome della riga. Definiremo le colonne con il nome della riga e usando questo possiamo aggiungere valori alla riga

Sintassi:

Row_name = row ("column_name1", column_name2 ", .. .,"Column_name n)
[Row_name (value1, value2,…, valuten),…, row_name (value1, value2,…, valore)]

Esempio:

In questo esempio, aggiungeremo 6 colonne con nome riga come studenti con nomi come "rollno", "nome", "età", "altezza", "peso", "indirizzo" e aggiungendo 5 valori a questa riga degli studenti.

#IMPORT Il modulo PYSPRK
importare pyspark
#IMPORT SPARKSESSION per la creazione di una sessione e riga
da pyspark.SQL Importa Sparksession, riga
#Crea un'app chiamata LinuxHint
Spark_app = SparkSession.costruttore.appname ('LinuxHint').getOrCreate ()
# Crea una riga con 6 colonne
Studenti = riga ("rollno", "nome", "età", "altezza", "peso", "indirizzo")
#crea valori per le righe
row_data = [studenti ('001', 'sravan', 23,5.79,67, "Guntur"),
Studenti ('002', 'Ojaswi', 16,3.79,34, 'Hyd'),
Studenti ('003', 'Gnanesh Chowdary', 7,2.79,17, 'patna'),
Studenti ('004', 'Rohith', 9,3.69,28, "Hyd"),
Studenti ('005', 'Sridevi', 37,5.59,54, 'Hyd')]
#Crea il dataframe da row_data
df = spark_app.creatotaframe (row_data)
# Visualizza i dati di dati
#By righe
df.raccogliere()

Produzione:

[Riga (rollno = '001', name = 'sravan', età = 23, altezza = 5.79, peso = 67, indirizzo = 'guntur'),
Riga (rollno = '002', name = 'ojaswi', età = 16, altezza = 3.79, peso = 34, indirizzo = 'hyd'),
Riga (rollno = '003', name = 'gnanesh chowdary', età = 7, altezza = 2.79, peso = 17, indirizzo = 'patna'),
Riga (rollno = '004', name = 'rohith', età = 9, altezza = 3.69, peso = 28, indirizzo = 'hyd'),
Riga (rollno = '005', name = 'sridevi', età = 37, altezza = 5.59, peso = 54, indirizzo = 'hyd')]

Creazione di fila nidificata

La riga all'interno di una riga è conosciuta come riga nidificata. Possiamo creare la riga nidificata all'interno della riga è simile alla creazione di righe normali

Sintassi:

[Row (column_name = row (column_name = 'valore', .. .), .. .),
Row (column_name = row (column_name = 'valore', .. .),
...]

Esempio:

In questo esempio, creeremo dati di dati in modo simile a sopra, ma stiamo aggiungendo una colonna denominata soggetti a ciascuna riga e aggiungendo valori Java e PHP usando la riga nidificata.

#IMPORT Il modulo PYSPRK
importare pyspark
#IMPORT SPARKSESSION per la creazione di una sessione e riga
da pyspark.SQL Importa Sparksession, riga
#Crea un'app chiamata LinuxHint
Spark_app = SparkSession.costruttore.appname ('LinuxHint').getOrCreate ()
#Crea righe
row_data = [riga (rollno = '001', name = 'sravan', età = 23, altezza = 5.79, peso = 67, indirizzo = 'guntur', soggetti = riga (soggetto1 = 'java', soggetto2 = 'php')),
Riga (rollno = '002', name = 'ojaswi', età = 16, altezza = 3.79, peso = 34, indirizzo = 'hyd', soggetti = riga (soggetto1 = 'java', soggetto2 = 'php')),
Riga (rollno = '003', name = 'gnanesh chowdary', età = 7, altezza = 2.79, peso = 17, indirizzo = 'patna', soggetti = riga (soggetto1 = 'java', soggetto2 = 'php')),
Riga (rollno = '004', name = 'rohith', età = 9, altezza = 3.69, peso = 28, indirizzo = 'hyd', soggetti = riga (soggetto1 = 'java', soggetto2 = 'php')),
Riga (rollno = '005', name = 'sridevi', età = 37, altezza = 5.59, peso = 54, indirizzo = 'hyd', soggetti = riga (soggetto1 = 'java', soggetto2 = 'php'))]
#Crea il dataframe da row_data
df = spark_app.creatotaframe (row_data)
# Visualizza i dati di dati
#By righe
df.raccogliere()

Produzione:

[Riga (rollno = '001', name = 'sravan', età = 23, altezza = 5.79, peso = 67, indirizzo = 'guntur', soggetti = riga (soggetto1 = 'java', soggetto2 = 'php')),
Riga (rollno = '002', name = 'ojaswi', età = 16, altezza = 3.79, peso = 34, indirizzo = 'hyd', soggetti = riga (soggetto1 = 'java', soggetto2 = 'php')),
Riga (rollno = '003', name = 'gnanesh chowdary', età = 7, altezza = 2.79, peso = 17, indirizzo = 'patna', soggetti = riga (soggetto1 = 'java', soggetto2 = 'php')),
Riga (rollno = '004', name = 'rohith', età = 9, altezza = 3.69, peso = 28, indirizzo = 'hyd', soggetti = riga (soggetto1 = 'java', soggetto2 = 'php')),
Riga (rollno = '005', name = 'sridevi', età = 37, altezza = 5.59, peso = 54, indirizzo = 'hyd', soggetti = riga (soggetto1 = 'java', soggetto2 = 'php'))]

Conclusione:

Questo articolo ha discusso della classe di riga e di come creare PysPark DataFrame utilizzando la classe di riga. Alla fine, abbiamo discusso della classe di righe nidificata.