Iterare su righe e colonne nel Frame dati Pyspark

In Python, Pyspark è un modulo Spark utilizzato per fornire un tipo di elaborazione simile come Spark utilizzando DataFrame.

Possiamo attraversare il frame dati pyspark tramite righe e colonne usando:

raccogliere()
Selezionare()
iTerrows ()

Prima di passare a questi, creeremo PysPark DataFrame.

Esempio:

Qui, creeremo Pyspark DataFrame con 5 righe e 6 colonne.

#import il modulo pyspark
importare pyspark
#IMPORT SPARKSESSION per la creazione di una sessione
da pyspark.SQL Importazione di importazione
#importa la funzione Col
da pyspark.SQL.Funzioni importanti col
#Crea un'app chiamata LinuxHint
Spark_app = SparkSession.costruttore.appname ('LinuxHint').getOrCreate ()
# Crea dati studenteschi con 5 righe e 6 attributi
Studenti = [
'rollno': '001', 'name': 'sravan', 'age': 23, 'altezza': 5.79, "peso": 67, "indirizzo": "guntur",
'rollno': '002', 'name': 'ojaswi', 'age': 16, 'altezza': 3.79, 'peso': 34, 'indirizzo': 'hyd',
'rollno': '003', 'name': 'gnanesh chowdary', 'age': 7, 'altezza': 2.79, 'peso': 17, 'indirizzo': 'patna',
'rollno': '004', 'name': 'rohith', 'age': 9, 'altezza': 3.69, 'peso': 28, 'indirizzo': 'hyd',
'rollno': '005', 'name': 'sridevi', 'age': 37, 'altezza': 5.59, 'peso': 54, 'indirizzo': 'hyd']
# Crea il frame dati
df = spark_app.CreatedataFrame (Students)
#display il frame dati
df.spettacolo()

Produzione:

raccogliere()

Questo metodo viene utilizzato per iterare le colonne nel determinato dati Pyspark. Può essere usato con per loop e prende i nomi delle colonne attraverso l'iteratore per iterare colonne. Infine, visualizzerà le righe secondo le colonne specificate.

Sintassi:

per row_iterator in dataframe.raccogliere():
Stampa (row_iterator ['colonna'], .. .)

Dove,

DataFrame è il Frame dati Pyspark input.
La colonna è il nome della colonna nel frame dati Pyspark.
Row_iterator è la variabile iteratore utilizzata per iterare i valori delle righe nella colonna specificata.

Esempio 1:

In questo esempio, stiamo iterando le righe dalle colonne Rollno, altezza e indirizzi da Pyspark DataFrame sopra.

Produzione:

001 5.79 Guntur
002 3.79 Hyd
003 2.79 Patna
004 3.69 Hyd
005 5.59 Hyd

Esempio 2:

In questo esempio, stiamo iterando le righe dalla colonna Nome dal Frame dati Pyspark sopra.

Produzione:

Sravan
Ojaswi
Gnanesh Chowdary
Rohith
Sridevi

Selezionare()

Questo metodo viene utilizzato per iterare le colonne nel determinato dati Pyspark. Può essere usato con il metodo collect () e prende la colonna. Infine, visualizzerà le righe secondo le colonne specificate.

Sintassi:

DataFrame.Seleziona ("colonna", ...).raccogliere()

Dove,

DataFrame è il Frame dati Pyspark input.
La colonna è il nome della colonna nel frame dati Pyspark.

Esempio 1:

In questo esempio, stiamo iterando le righe dalla colonna Rollno e Name dal Frame dati Pyspark sopra.

Produzione:

[Riga (rollno = '001', name = 'sravan'),
Riga (rollno = '002', name = 'ojaswi'),
Riga (rollno = '003', name = 'gnanesh chowdary'),
Riga (rollno = '004', name = 'rohith'),
Riga (rollno = '005', name = 'sridevi')]

Esempio 2:

In questo esempio, stiamo iterando le righe dalla colonna Rollno e Weigh.

Produzione:

[Riga (rollno = '001', peso = 67),
Riga (rollno = '002', peso = 34),
Riga (rollno = '003', peso = 17),
Riga (rollno = '004', peso = 28),
Riga (rollno = '005', peso = 54)]

iTerrows ()

Questo metodo viene utilizzato per iterare le colonne nel determinato dati Pyspark. Può essere utilizzato con Loop e prende i nomi delle colonne attraverso l'iteratore di riga e l'indice per iterare le colonne. Infine, visualizzerà le righe secondo gli indici specificati. Prima di allora, dobbiamo convertire in panda usando il metodo Topandas ().

Sintassi:

per indice, row_iterator in dati.topandas ().iTerrows ():
print (row_iterator [index_value], ...)

Dove,

DataFrame è il Frame dati Pyspark input.
INDICE_VALUE è la posizione dell'indice della colonna nel frame dati pyspark.
Row_iterator è la variabile iteratore utilizzata per iterare i valori delle righe nella colonna specificata.

Esempio 1:

In questo esempio, stiamo iterando le righe dall'indirizzo e nelle colonne di altezza dal precedente Pyspark DataFrame.

Produzione:

Guntur 23
Hyd 16
Patna 7
Hyd 9
Hyd 37

Esempio 2:

In questo esempio, stiamo iterando le righe dalle colonne dell'indirizzo e dei nomi dal Frame dati Pyspark sopra.

Produzione:

Guntur Sravan
Hyd Ojaswi
Patna Gnanesh Chowdary
Hyd Rohith
Hyd Sridevi

Conclusione

In questo tutorial, abbiamo discusso di come iterare su righe e colonne nel frame dati Pyspark. Abbiamo discusso di tre metodi: select (), collect () e iTerrows () con loop. Quindi, usando questi metodi possiamo specificare le colonne da essere iterate tramite la riga iteratore.

Pitone

Seaborn Tsplot

In Python, il Seaborn.Il metodo di lineplot () ”viene utilizzato per tracciare più righe in un singo...

Sarita Negri

Docker

Qual è lo scopo di una doccia.File YML in Docker?

Lo scopo principale di un docker.Il file YML è quello di semplificare il processo di distribuzione e...

Artemide Ricci

Pitone

Istogramma 2D Matplotlib

In Python, il PLT.La funzione Hist2d () del modulo Pyplot nella libreria Matplotlib viene utilizzata...

Dr. Evita Damico