Pyspark - Seleziona clausola

Pyspark - Seleziona clausola
In Python, Pyspark è un modulo Spark utilizzato per fornire un tipo di elaborazione simile come Spark utilizzando DataFrame.

Select () in pyspark viene utilizzato per selezionare le colonne nel frame dati.

Possiamo selezionare le colonne in molti modi.

Discutiamolo uno per uno. Prima di allora, dobbiamo creare il telaio di dati pyspark per la dimostrazione.

Esempio:

Creeremo un frame dati con 5 righe e 6 colonne e lo mostreremo usando il metodo show ().

#IMPORT Il modulo PYSPRK
importare pyspark
#IMPORT SPARKSESSION per la creazione di una sessione
da pyspark.SQL Importazione di importazione
#Crea un'app chiamata LinuxHint
Spark_app = SparkSession.costruttore.appname ('LinuxHint').getOrCreate ()
# Crea dati studenteschi con 5 righe e 6 attributi
Students = ['rollno': '001', 'name': 'sravan', 'age': 23, 'altezza': 5.79, "peso": 67, "indirizzo": "guntur",
'rollno': '002', 'name': 'ojaswi', 'age': 16, 'altezza': 3.79, 'peso': 34, 'indirizzo': 'hyd',
'rollno': '003', 'name': 'gnanesh chowdary', 'age': 7, 'altezza': 2.79, 'peso': 17, 'indirizzo': 'patna',
'rollno': '004', 'name': 'rohith', 'age': 9, 'altezza': 3.69, 'peso': 28, 'indirizzo': 'hyd',
'rollno': '005', 'name': 'sridevi', 'age': 37, 'altezza': 5.59, 'peso': 54, 'indirizzo': 'hyd']
# Crea il frame dati
df = spark_app.CreatedataFrame (Students)
#Display DataFrame
df.spettacolo()

Produzione:

Metodo -1: usando i nomi delle colonne

Qui daremo i nomi delle colonne direttamente al metodo Select (). Questo metodo restituisce i dati presenti in quelle colonne; Possiamo dare più colonne contemporaneamente.

Sintassi:

DataFrame.Seleziona ("column_name", .. .)

Esempio:

In questo esempio, selezioneremo la colonna Nome e Indirizzo dal Frame dati PysPark e visualizzarlo utilizzando il metodo Collect ()

#IMPORT Il modulo PYSPRK
importare pyspark
#IMPORT SPARKSESSION per la creazione di una sessione
da pyspark.SQL Importazione di importazione
#Crea un'app chiamata LinuxHint
Spark_app = SparkSession.costruttore.appname ('LinuxHint').getOrCreate ()
# Crea dati studenteschi con 5 righe e 6 attributi
Students = ['rollno': '001', 'name': 'sravan', 'age': 23, 'altezza': 5.79, "peso": 67, "indirizzo": "guntur",
'rollno': '002', 'name': 'ojaswi', 'age': 16, 'altezza': 3.79, 'peso': 34, 'indirizzo': 'hyd',
'rollno': '003', 'name': 'gnanesh chowdary', 'age': 7, 'altezza': 2.79, 'peso': 17, 'indirizzo': 'patna',
'rollno': '004', 'name': 'rohith', 'age': 9, 'altezza': 3.69, 'peso': 28, 'indirizzo': 'hyd',
'rollno': '005', 'name': 'sridevi', 'age': 37, 'altezza': 5.59, 'peso': 54, 'indirizzo': 'hyd']
# Crea il frame dati
df = spark_app.CreatedataFrame (Students)
#display nome e colonne di indirizzi
df.Seleziona ("nome", "indirizzo").raccogliere()

Produzione:

[Riga (name = 'sravan', indirizzo = 'guntur'),
Riga (name = 'ojaswi', indirizzo = 'hyd'),
Riga (name = 'gnanesh chowdary', indirizzo = 'patna'),
Riga (name = 'rohith', indirizzo = 'hyd'),
Riga (name = 'sridevi', indirizzo = 'hyd')]

Metodo -2: utilizzando i nomi delle colonne con dati dati

Qui daremo i nomi delle colonne con data frame al metodo Select (). Questo metodo restituisce i dati presenti in quelle colonne; Possiamo dare più colonne contemporaneamente.

Sintassi:

DataFrame.Seleziona (DataFrame.column_name, .. .)

Esempio:

In questo esempio, selezioneremo la colonna Nome e Indirizzo dal Frame dati PysPark e visualizzarlo utilizzando il metodo Collect ()

#IMPORT Il modulo PYSPRK
importare pyspark
#IMPORT SPARKSESSION per la creazione di una sessione
da pyspark.SQL Importazione di importazione
#Crea un'app chiamata LinuxHint
Spark_app = SparkSession.costruttore.appname ('LinuxHint').getOrCreate ()
# Crea dati studenteschi con 5 righe e 6 attributi
Students = ['rollno': '001', 'name': 'sravan', 'age': 23, 'altezza': 5.79, "peso": 67, "indirizzo": "guntur",
'rollno': '002', 'name': 'ojaswi', 'age': 16, 'altezza': 3.79, 'peso': 34, 'indirizzo': 'hyd',
'rollno': '003', 'name': 'gnanesh chowdary', 'age': 7, 'altezza': 2.79, 'peso': 17, 'indirizzo': 'patna',
'rollno': '004', 'name': 'rohith', 'age': 9, 'altezza': 3.69, 'peso': 28, 'indirizzo': 'hyd',
'rollno': '005', 'name': 'sridevi', 'age': 37, 'altezza': 5.59, 'peso': 54, 'indirizzo': 'hyd']
# Crea il frame dati
df = spark_app.CreatedataFrame (Students)
#display nome e colonne di indirizzi
df.Seleziona (df.nome, df.indirizzo).raccogliere()

Produzione:

[Riga (name = 'sravan', indirizzo = 'guntur'),
Riga (name = 'ojaswi', indirizzo = 'hyd'),
Riga (name = 'gnanesh chowdary', indirizzo = 'patna'),
Riga (name = 'rohith', indirizzo = 'hyd'),
Riga (name = 'sridevi', indirizzo = 'hyd')]

Metodo -3: usando [] operatore

Qui daremo i nomi delle colonne all'interno dell'operatore [] con dati di dati per selezionare (). Questo metodo restituisce i dati presenti in quelle colonne; Possiamo dare più colonne contemporaneamente.

Sintassi:

DataFrame.Seleziona (DataFrame.column_name, .. .)

Esempio:

In questo esempio, selezioneremo la colonna Nome e Indirizzo dal Frame dati PysPark e visualizzarlo utilizzando il metodo Collect ()

#IMPORT Il modulo PYSPRK
importare pyspark
#IMPORT SPARKSESSION per la creazione di una sessione
da pyspark.SQL Importazione di importazione
#Crea un'app chiamata LinuxHint
Spark_app = SparkSession.costruttore.appname ('LinuxHint').getOrCreate ()
# Crea dati studenteschi con 5 righe e 6 attributi
Students = ['rollno': '001', 'name': 'sravan', 'age': 23, 'altezza': 5.79, "peso": 67, "indirizzo": "guntur",
'rollno': '002', 'name': 'ojaswi', 'age': 16, 'altezza': 3.79, 'peso': 34, 'indirizzo': 'hyd',
'rollno': '003', 'name': 'gnanesh chowdary', 'age': 7, 'altezza': 2.79, 'peso': 17, 'indirizzo': 'patna',
'rollno': '004', 'name': 'rohith', 'age': 9, 'altezza': 3.69, 'peso': 28, 'indirizzo': 'hyd',
'rollno': '005', 'name': 'sridevi', 'age': 37, 'altezza': 5.59, 'peso': 54, 'indirizzo': 'hyd']
# Crea il frame dati
df = spark_app.CreatedataFrame (Students)
#display nome e colonne di indirizzi
df.Seleziona (df ["nome"], df ["indirizzo"]).raccogliere()

Produzione:

[Riga (name = 'sravan', indirizzo = 'guntur'),
Riga (name = 'ojaswi', indirizzo = 'hyd'),
Riga (name = 'gnanesh chowdary', indirizzo = 'patna'),
Riga (name = 'rohith', indirizzo = 'hyd'),
Riga (name = 'sridevi', indirizzo = 'hyd')]

Metodo -4: usando la funzione col

Qui daremo i nomi delle colonne all'interno della funzione Col to Select (). Questa funzione è disponibile in pyspark.funzioni SQL, che restituiscono i dati presenti in quelle colonne; Possiamo dare più colonne alla volta all'interno del metodo Select ().Sintassi:

DataFrame.Seleziona (col ("column_name"), .. .)

Esempio:

In questo esempio, selezioneremo la colonna Nome e Indirizzo dal Frame dati PysPark e visualizzano utilizzando il metodo Collect ()

#IMPORT Il modulo PYSPRK
importare pyspark
#IMPORT SPARKSESSION per la creazione di una sessione
da pyspark.SQL Importazione di importazione
#importa la funzione Col
da pyspark.SQL.Funzioni importanti col
#Crea un'app chiamata LinuxHint
Spark_app = SparkSession.costruttore.appname ('LinuxHint').getOrCreate ()
# Crea dati studenteschi con 5 righe e 6 attributi
Students = ['rollno': '001', 'name': 'sravan', 'age': 23, 'altezza': 5.79, "peso": 67, "indirizzo": "guntur",
'rollno': '002', 'name': 'ojaswi', 'age': 16, 'altezza': 3.79, 'peso': 34, 'indirizzo': 'hyd',
'rollno': '003', 'name': 'gnanesh chowdary', 'age': 7, 'altezza': 2.79, 'peso': 17, 'indirizzo': 'patna',
'rollno': '004', 'name': 'rohith', 'age': 9, 'altezza': 3.69, 'peso': 28, 'indirizzo': 'hyd',
'rollno': '005', 'name': 'sridevi', 'age': 37, 'altezza': 5.59, 'peso': 54, 'indirizzo': 'hyd']
# Crea il frame dati
df = spark_app.CreatedataFrame (Students)
#display nome e colonne di indirizzi
#con funzione col
df.Seleziona (col ("nome"), col ("indirizzo")).raccogliere()

Produzione:

[Riga (name = 'sravan', indirizzo = 'guntur'),
Riga (name = 'ojaswi', indirizzo = 'hyd'),
Riga (name = 'gnanesh chowdary', indirizzo = 'patna'),
Riga (name = 'rohith', indirizzo = 'hyd'),
Riga (name = 'sridevi', indirizzo = 'hyd')]

Conclusione

In questo articolo, abbiamo discusso di come selezionare i dati dal Frame dati e abbiamo discusso di 4 modi per selezionare i dati utilizzando i nomi delle colonne con il metodo Collect ().