Diversi modi per creare il frame dati pyspark

Diversi modi per creare il frame dati pyspark

In Python, Pyspark è un modulo Spark utilizzato per fornire un tipo di elaborazione simile come Spark utilizzando DataFrame. In questo articolo, discuteremo di diversi modi per creare Pyspark DataFrame.

Metodo 1: usando il dizionario

Il dizionario è una dati di dati che memorizzerà i dati in formato di coppia di tasti, valore.

La chiave funge da colonna e valore fungono da valore di riga/dati nel frame dati PysPark. Questo deve essere passato all'interno dell'elenco.

Struttura:

['key': value]

Possiamo anche fornire più dizionari.

Struttura:

['Key': Value, 'Key': Value, .. .,'Key': Value]

Esempio:

Qui, creeremo Pyspark DataFrame con 5 righe e 6 colonne attraverso il dizionario. Infine, stiamo visualizzando il metodo DataFrame utilizzando Show ().

#import il modulo pyspark
importare pyspark
#IMPORT SPARKSESSION per la creazione di una sessione
da pyspark.SQL Importazione di importazione
#Crea un'app chiamata LinuxHint
Spark_app = SparkSession.costruttore.appname ('LinuxHint').getOrCreate ()
# Crea dati studenteschi con 5 righe e 6 attributi
Students = ['rollno': '001', 'name': 'sravan', 'age': 23, 'altezza': 5.79, "peso": 67, "indirizzo": "guntur",
'rollno': '002', 'name': 'ojaswi', 'age': 16, 'altezza': 3.79, 'peso': 34, 'indirizzo': 'hyd',
'rollno': '003', 'name': 'gnanesh chowdary', 'age': 7, 'altezza': 2.79, 'peso': 17, 'indirizzo': 'patna',
'rollno': '004', 'name': 'rohith', 'age': 9, 'altezza': 3.69, 'peso': 28, 'indirizzo': 'hyd',
'rollno': '005', 'name': 'sridevi', 'age': 37, 'altezza': 5.59, 'peso': 54, 'indirizzo': 'hyd']
# Crea il frame dati
df = spark_app.CreatedataFrame (Students)
#display il frame dati
df.spettacolo()

Produzione:

Metodo 2: usando l'elenco delle tuple

Tuple è una struttura di dati che memorizzerà i dati in ().

Possiamo passare le righe separate da virgola in una tupla circondata da un elenco.

Struttura:

[(Value1, Value2,.,Valuen)]

Possiamo anche fornire più tuple in un elenco.

Struttura:

[(Value1, Value2,.,Valuen), (valore1, valore2,.,Valuen), ..., (valore1, valore2,.,Valuen)]

Dobbiamo fornire i nomi delle colonne attraverso un elenco durante la creazione del frame dati.

Sintassi:

column_names = ['column1', 'column2', .. .'colonna']
Spark_app.creatotaframe (list_of_tuple, column_names)

Esempio:

Qui, creeremo Pyspark DataFrame con 5 righe e 6 colonne attraverso il dizionario. Infine, stiamo visualizzando il metodo DataFrame utilizzando Show ().

#import il modulo pyspark
importare pyspark
#IMPORT SPARKSESSION per la creazione di una sessione
da pyspark.SQL Importazione di importazione
#Crea un'app chiamata LinuxHint
Spark_app = SparkSession.costruttore.appname ('LinuxHint').getOrCreate ()
# Crea dati studenteschi con 5 righe e 6 attributi
Studenti = [('001', 'Sravan', 23,5.79,67, "Guntur"),
('002', 'Ojaswi', 16,3.79,34, 'Hyd'),
('003', 'Gnanesh Chowdary', 7,2.79,17, 'patna'),
('004', 'rohith', 9,3.69,28, "Hyd"),
('005', 'Sridevi', 37,5.59,54, 'Hyd')]
#assign i nomi delle colonne
column_names = ['rollno', 'name', 'age', 'height', 'peso', 'indirizzo'
# Crea il frame dati
df = spark_app.CreatedAtaFrame (Students, column_names)
#display il frame dati
df.spettacolo()

Produzione:

Metodo 3: usando la tupla degli elenchi

L'elenco è una struttura di dati che archiverà i dati in [].

Possiamo passare le righe separate da virgola in una lista circondata da una tupla.

Struttura:

([Value1, Value2,.,Valuen])

Possiamo anche fornire più elenchi in una tupla.

Struttura:

([Value1, Value2,.,Valuen], [valore1, valore2,.,Valuen], ..., [Value1, Value2,.,Valuen])

Dobbiamo fornire i nomi delle colonne attraverso un elenco durante la creazione del frame dati.

Sintassi:

column_names = ['column1', 'column2', .. .'colonna']
Spark_app.creatotaframe (tuple_of_list, column_names)

Esempio:

Qui, creeremo Pyspark DataFrame con 5 righe e 6 colonne attraverso il dizionario. Infine, stiamo visualizzando il metodo DataFrame utilizzando Show ().

#import il modulo pyspark
importare pyspark
#IMPORT SPARKSESSION per la creazione di una sessione
da pyspark.SQL Importazione di importazione
#Crea un'app chiamata LinuxHint
Spark_app = SparkSession.costruttore.appname ('LinuxHint').getOrCreate ()
# Crea dati studenteschi con 5 righe e 6 attributi
Studenti = (['001', 'Sravan', 23,5.79,67, "Guntur"],
['002', 'Ojaswi', 16,3.79,34, 'Hyd'],
['003', 'Gnanesh Chowdary', 7,2.79,17, 'patna'],
['004', 'Rohith', 9,3.69,28, 'Hyd'],
['005', 'Sridevi', 37,5.59,54, 'Hyd'])
#assign i nomi delle colonne
column_names = ['rollno', 'name', 'age', 'height', 'peso', 'indirizzo'
# Crea il frame dati
df = spark_app.CreatedAtaFrame (Students, column_names)
#display il frame dati
df.spettacolo()

Produzione:

Metodo 4: usando l'elenco nidificato

L'elenco è una dati di dati che memorizzerà i dati in [].

Quindi, possiamo passare le righe separate da virgola in un elenco circondato da un elenco.

Struttura:

[[Value1, Value2,.,Valuen]]

Possiamo anche fornire più elenchi in un elenco.

Struttura:

[[Value1, Value2,.,Valuen], [valore1, valore2,.,Valuen], ..., [Value1, Value2,.,Valuen]]

Dobbiamo fornire i nomi delle colonne attraverso un elenco durante la creazione del frame dati.

Sintassi:

column_names = ['column1', 'column2', .. .'colonna']
Spark_app.creatotaframe (nonest_list, column_names)

Esempio:

Qui, creeremo Pyspark DataFrame con 5 righe e 6 colonne attraverso il dizionario. Infine, stiamo visualizzando il metodo DataFrame utilizzando Show ().

#import il modulo pyspark
importare pyspark
#IMPORT SPARKSESSION per la creazione di una sessione
da pyspark.SQL Importazione di importazione
#Crea un'app chiamata LinuxHint
Spark_app = SparkSession.costruttore.appname ('LinuxHint').getOrCreate ()
# Crea dati studenteschi con 5 righe e 6 attributi
Studenti = [['001', 'Sravan', 23,5.79,67, "Guntur"],
['002', 'Ojaswi', 16,3.79,34, 'Hyd'],
['003', 'Gnanesh Chowdary', 7,2.79,17, 'patna'],
['004', 'Rohith', 9,3.69,28, 'Hyd'],
['005', 'Sridevi', 37,5.59,54, 'Hyd']]
#assign i nomi delle colonne
column_names = ['rollno', 'name', 'age', 'height', 'peso', 'indirizzo'
# Crea il frame dati
df = spark_app.CreatedAtaFrame (Students, column_names)
#display il frame dati
df.spettacolo()

Produzione:

Metodo 5: usando la tupla nidificata

Struttura:

((Value1, Value2,.,valore))

Possiamo anche fornire più tuple in una tupla.

Struttura:

((Value1, Value2,.,Valuen), (valore1, valore2,.,Valuen), ..., (valore1, valore2,.,valore))

Dobbiamo fornire i nomi delle colonne attraverso un elenco durante la creazione del frame dati.

Sintassi:

column_names = ['column1', 'column2', .. .'colonna']
Spark_app.creatotaframe (nonest_tuple, column_names)

Esempio:

Qui, creeremo Pyspark DataFrame con 5 righe e 6 colonne attraverso il dizionario. Infine, stiamo visualizzando il metodo DataFrame utilizzando Show ().

#import il modulo pyspark
importare pyspark
#IMPORT SPARKSESSION per la creazione di una sessione
da pyspark.SQL Importazione di importazione
#Crea un'app chiamata LinuxHint
Spark_app = SparkSession.costruttore.appname ('LinuxHint').getOrCreate ()
# Crea dati studenteschi con 5 righe e 6 attributi
Studenti = (('001', 'Sravan', 23,5.79,67, "Guntur"),
('002', 'Ojaswi', 16,3.79,34, 'Hyd'),
('003', 'Gnanesh Chowdary', 7,2.79,17, 'patna'),
('004', 'rohith', 9,3.69,28, "Hyd"),
('005', 'Sridevi', 37,5.59,54, 'hyd'))
#assign i nomi delle colonne
column_names = ['rollno', 'name', 'age', 'height', 'peso', 'indirizzo'
# Crea il frame dati
df = spark_app.CreatedAtaFrame (Students, column_names)
#display il frame dati
df.spettacolo()

Produzione:

Conclusione

In questo tutorial, abbiamo discusso di cinque metodi per creare Pyspark DataFrame: elenco di tuple, tuple di elenchi, tupla nidificata, elenco nidificato e elenco di colonne per fornire nomi di colonne. Non è necessario fornire l'elenco dei nomi delle colonne durante la creazione di PysPark DataFrame utilizzando Dizionario.