Visualizza le righe migliori dal frame dati Pyspark

Visualizza le righe migliori dal frame dati Pyspark
In Python, Pyspark è un modulo Spark utilizzato per fornire un tipo di elaborazione simile come Spark utilizzando DataFrame. Fornisce i vari metodi per restituire le righe migliori dal frame dati Pyspark. Forniremo esempi per i 5 modi per visualizzare le righe migliori in Pyspark:
  1. Pyspark - show ()
  2. Pyspark - collect ()
  3. Pyspark - Take ()
  4. Pyspark - first ()
  5. Pyspark - head ()

Pyspark - show ()

Viene utilizzato per visualizzare le righe superiori o l'intero telaio di dati in formato tabulare.

Sintassi:

DataFrame.spettacolo (n, verticale, troncato)

Dove, dati è il frame dati di input pyspark.

Parametri:

  1. n è il primo parametro opzionale che rappresenta il valore intero per ottenere le righe superiori nel frame dati e n rappresenta il numero di righe superiori da visualizzare. Per impostazione predefinita, visualizzerà tutte le righe dal frame dati
  2. Il parametro verticale prende i valori booleani utilizzati per visualizzare il frame dati nel parametro verticale quando è impostato su true. e visualizzare il frame dati in formato orizzontale quando è impostato su false. Per impostazione predefinita, verrà visualizzato in formato orizzontale
  3. Il troncato viene utilizzato per ottenere il numero di caratteri da ciascun valore nel frame dati. Ci vorrà un numero intero come alcuni personaggi da visualizzare. Per impostazione predefinita, visualizzerà tutti i caratteri.

Esempio 1:

In questo esempio, creeremo un Frame dati PysPark con 5 righe e 6 colonne e visualizzeremo il frame dati utilizzando il metodo show () senza alcun parametro. Quindi, questo si traduce in un telaio tabulare visualizzando tutti i valori nel frame dati

#import il modulo pyspark
importare pyspark
#IMPORT SPARKSESSION per la creazione di una sessione
da pyspark.SQL Importazione di importazione
#Crea un'app chiamata LinuxHint
Spark_app = SparkSession.costruttore.appname ('LinuxHint').getOrCreate ()
# Crea dati studenteschi con 5 righe e 6 attributi
Studenti = [
'rollno': '001', 'name': 'sravan', 'age': 23,
'altezza': 5.79, "peso": 67, "indirizzo": "guntur",
'rollno': '002', 'name': 'ojaswi', 'age': 16,
'altezza': 3.79, 'peso': 34, 'indirizzo': 'hyd',
'rollno': '003', 'name': 'gnanesh chowdary', 'age': 7,
'altezza': 2.79, 'peso': 17, 'indirizzo': 'patna',
'rollno': '004', 'name': 'rohith', 'age': 9,
'altezza': 3.69, 'peso': 28, 'indirizzo': 'hyd',
'rollno': '005', 'name': 'sridevi', 'age': 37,
'altezza': 5.59, 'peso': 54, 'indirizzo': 'hyd']
# Crea il frame dati
df = spark_app.CreatedataFrame (Students)
# DataFrame
df.spettacolo()

Produzione:

Esempio 2:

In questo esempio, creeremo un Frame dati PysPark con 5 righe e 6 colonne e visualizzeremo il frame dati utilizzando il metodo show () con n parametro. Impostiamo il valore N su 4 per visualizzare le 4 file migliori dal frame dati. Quindi, questo si traduce in un telaio tabulare visualizzando 4 valori nel frame dati.

#IMPORT Il modulo PYSPRK
importare pyspark
#IMPORT SPARKSESSION per la creazione di una sessione
da pyspark.SQL Importazione di importazione
#Crea un'app chiamata LinuxHint
Spark_app = SparkSession.costruttore.appname ('LinuxHint').getOrCreate ()
# Crea dati studenteschi con 5 righe e 6 attributi
Studenti = [
'rollno': '001', 'name': 'sravan', 'age': 23,
'altezza': 5.79, "peso": 67, "indirizzo": "guntur",
'rollno': '002', 'name': 'ojaswi', 'age': 16,
'altezza': 3.79, 'peso': 34, 'indirizzo': 'hyd',
'rollno': '003', 'name': 'gnanesh chowdary', 'age': 7,
'altezza': 2.79, 'peso': 17, 'indirizzo': 'patna',
'rollno': '004', 'name': 'rohith', 'age': 9,
'altezza': 3.69, 'peso': 28, 'indirizzo': 'hyd',
'rollno': '005', 'name': 'sridevi', 'age': 37,
'altezza': 5.59, 'peso': 54, 'indirizzo': 'hyd']
# Crea il frame dati
df = spark_app.CreatedataFrame (Students)
# Ottieni le migliori 4 righe nel frame dati
df.mostra (4)

Produzione:

Pyspark - collect ()

Il metodo collect () in pyspark viene utilizzato per visualizzare i dati presenti nella riga di dati per riga dall'alto.

Sintassi:

DataFrame.raccogliere()

Esempio:

Visualizziamo l'intero metodo di dati con collezione ()

#import il modulo pyspark
importare pyspark
#IMPORT SPARKSESSION per la creazione di una sessione
da pyspark.SQL Importazione di importazione
#Crea un'app chiamata LinuxHint
Spark_app = SparkSession.costruttore.appname ('LinuxHint').getOrCreate ()
# Crea dati studenteschi con 5 righe e 6 attributi
Studenti = [
'rollno': '001', 'name': 'sravan', 'age': 23,
'altezza': 5.79, "peso": 67, "indirizzo": "guntur",
'rollno': '002', 'name': 'ojaswi', 'age': 16,
'altezza': 3.79, 'peso': 34, 'indirizzo': 'hyd',
'rollno': '003', 'name': 'gnanesh chowdary', 'age': 7,
'altezza': 2.79, 'peso': 17, 'indirizzo': 'patna',
'rollno': '004', 'name': 'rohith', 'age': 9,
'altezza': 3.69, 'peso': 28, 'indirizzo': 'hyd',
'rollno': '005', 'name': 'sridevi', 'age': 37,
'altezza': 5.59, 'peso': 54, 'indirizzo': 'hyd']
# Crea il frame dati
df = spark_app.CreatedataFrame (Students)
# Schermo
df.raccogliere()

Produzione:

[Riga (indirizzo = 'guntur', età = 23, altezza = 5.79, name = 'sravan', rollno = '001', peso = 67),
Riga (indirizzo = 'hyd', età = 16, altezza = 3.79, name = 'ojaswi', rollno = '002', peso = 34),
Riga (indirizzo = 'patna', età = 7, altezza = 2.79, nome = 'gnanesh chowdary', rollno = '003', peso = 17),
Riga (indirizzo = 'hyd', età = 9, altezza = 3.69, name = 'rohith', rollno = '004', peso = 28),
Riga (indirizzo = 'hyd', età = 37, altezza = 5.59, name = 'sridevi', rollno = '005', peso = 54)]

Pyspark - Take ()

Viene utilizzato per visualizzare le righe superiori o l'intero telaio.

Sintassi:

DataFrame.preso)

Dove, dati è il frame dati di input pyspark.

Parametri:

n è il parametro richiesto che rappresenta il valore intero per ottenere le righe migliori nel frame dati.

Esempio 1:

In questo esempio, creeremo un Frame dati PysPark con 5 righe e 6 colonne e visualizzeremo 3 righe dal frame dati utilizzando il metodo Take (). Quindi, questo risulta dalle prime 3 righe dal frame dati.

#import il modulo pyspark
importare pyspark
#IMPORT SPARKSESSION per la creazione di una sessione
da pyspark.SQL Importazione di importazione
#Crea un'app chiamata LinuxHint
Spark_app = SparkSession.costruttore.appname ('LinuxHint').getOrCreate ()
# Crea dati studenteschi con 5 righe e 6 attributi
Studenti = [
'rollno': '001', 'name': 'sravan', 'age': 23,
'altezza': 5.79, "peso": 67, "indirizzo": "guntur",
'rollno': '002', 'name': 'ojaswi', 'age': 16,
'altezza': 3.79, 'peso': 34, 'indirizzo': 'hyd',
'rollno': '003', 'name': 'gnanesh chowdary', 'age': 7,
'altezza': 2.79, 'peso': 17, 'indirizzo': 'patna',
'rollno': '004', 'name': 'rohith', 'age': 9,
'altezza': 3.69, 'peso': 28, 'indirizzo': 'hyd',
'rollno': '005', 'name': 'sridevi', 'age': 37,
'altezza': 5.59, 'peso': 54, 'indirizzo': 'hyd']
# Crea il frame dati
df = spark_app.CreatedataFrame (Students)
# Visualizza le prime 3 righe dal frame dati
df.Prendi (3)

Produzione:

[Riga (indirizzo = 'guntur', età = 23, altezza = 5.79, name = 'sravan', rollno = '001', peso = 67),
Riga (indirizzo = 'hyd', età = 16, altezza = 3.79, name = 'ojaswi', rollno = '002', peso = 34),
Riga (indirizzo = 'patna', età = 7, altezza = 2.79, nome = 'gnanesh chowdary', rollno = '003', peso = 17)]

Esempio 2:

In questo esempio, creeremo un Frame dati PysPark con 5 righe e 6 colonne e visualizzeremo 3 righe dal frame dati utilizzando il metodo Take (). Quindi, questo risulta dalla top 1 riga dal frame dati.

#import il modulo pyspark
importare pyspark
#IMPORT SPARKSESSION per la creazione di una sessione
da pyspark.SQL Importazione di importazione
#Crea un'app chiamata LinuxHint
Spark_app = SparkSession.costruttore.appname ('LinuxHint').getOrCreate ()
# Crea dati studenteschi con 5 righe e 6 attributi
Studenti = [
'rollno': '001', 'name': 'sravan', 'age': 23,
'altezza': 5.79, "peso": 67, "indirizzo": "guntur",
'rollno': '002', 'name': 'ojaswi', 'age': 16,
'altezza': 3.79, 'peso': 34, 'indirizzo': 'hyd',
'rollno': '003', 'name': 'gnanesh chowdary', 'age': 7,
'altezza': 2.79, 'peso': 17, 'indirizzo': 'patna',
'rollno': '004', 'name': 'rohith', 'age': 9,
'altezza': 3.69, 'peso': 28, 'indirizzo': 'hyd',
'rollno': '005', 'name': 'sridevi', 'age': 37,
'altezza': 5.59, 'peso': 54, 'indirizzo': 'hyd']
# Crea il frame dati
df = spark_app.CreatedataFrame (Students)
# Visualizza 1 riga in alto dal frame dati
df.Prendi (1)

Produzione:

[Riga (indirizzo = 'guntur', età = 23, altezza = 5.79, name = 'sravan', rollno = '001', peso = 67)]

Pyspark - first ()

Viene utilizzato per visualizzare le righe superiori o l'intero telaio.

Sintassi:

DataFrame.Primo()

Dove, dati è il frame dati di input pyspark.

Parametri:

  • Non ci vorranno parametri.

Esempio:

In questo esempio, creeremo un Frame dati PysPark con 5 righe e 6 colonne e visualizzeremo 1 riga dal frame dati utilizzando il metodo primo (). Quindi, questo risulta solo la prima riga.

#import il modulo pyspark
importare pyspark
#IMPORT SPARKSESSION per la creazione di una sessione
da pyspark.SQL Importazione di importazione
#Crea un'app chiamata LinuxHint
Spark_app = SparkSession.costruttore.appname ('LinuxHint').getOrCreate ()
# Crea dati studenteschi con 5 righe e 6 attributi
Studenti = [
'rollno': '001', 'name': 'sravan', 'age': 23,
'altezza': 5.79, "peso": 67, "indirizzo": "guntur",
'rollno': '002', 'name': 'ojaswi', 'age': 16,
'altezza': 3.79, 'peso': 34, 'indirizzo': 'hyd',
'rollno': '003', 'name': 'gnanesh chowdary', 'age': 7,
'altezza': 2.79, 'peso': 17, 'indirizzo': 'patna',
'rollno': '004', 'name': 'rohith', 'age': 9,
'altezza': 3.69, 'peso': 28, 'indirizzo': 'hyd',
'rollno': '005', 'name': 'sridevi', 'age': 37,
'altezza': 5.59, 'peso': 54, 'indirizzo': 'hyd']
# Crea il frame dati
df = spark_app.CreatedataFrame (Students)
# Visualizza 1 riga in alto dal frame dati
df.Primo (1)

Produzione:

[Riga (indirizzo = 'guntur', età = 23, altezza = 5.79, name = 'sravan', rollno = '001', peso = 67)]

Pyspark - head ()

Viene utilizzato per visualizzare le righe superiori o l'intero telaio.

Sintassi:

DataFrame.Testa (N)

Dove, dati è il frame dati di input pyspark.

Parametri:

n è il parametro opzionale che rappresenta il valore intero per ottenere le righe superiori nel frame dati e n rappresenta il numero di righe superiori da visualizzare. Per impostazione predefinita, visualizzerà la prima riga dal frame dati, se N non è specificato.

Esempio 1:

In questo esempio, creeremo un Frame dati PysPark con 5 righe e 6 colonne e visualizzeremo 3 righe dal frame dati utilizzando il metodo head (). Quindi, questo risulta top 3 righe dal gesto di dati.

#import il modulo pyspark
importare pyspark
#IMPORT SPARKSESSION per la creazione di una sessione
da pyspark.SQL Importazione di importazione
#Crea un'app chiamata LinuxHint
Spark_app = SparkSession.costruttore.appname ('LinuxHint').getOrCreate ()
# Crea dati studenteschi con 5 righe e 6 attributi
Studenti = [
'rollno': '001', 'name': 'sravan', 'age': 23,
'altezza': 5.79, "peso": 67, "indirizzo": "guntur",
'rollno': '002', 'name': 'ojaswi', 'age': 16,
'altezza': 3.79, 'peso': 34, 'indirizzo': 'hyd',
'rollno': '003', 'name': 'gnanesh chowdary', 'age': 7,
'altezza': 2.79, 'peso': 17, 'indirizzo': 'patna',
'rollno': '004', 'name': 'rohith', 'age': 9,
'altezza': 3.69, 'peso': 28, 'indirizzo': 'hyd',
'rollno': '005', 'name': 'sridevi', 'age': 37,
'altezza': 5.59, 'peso': 54, 'indirizzo': 'hyd']
# Crea il frame dati
df = spark_app.CreatedataFrame (Students)
# Visualizza le prime 3 righe dal frame dati
df.Testa (3)

Produzione:

[Riga (indirizzo = 'guntur', età = 23, altezza = 5.79, name = 'sravan', rollno = '001', peso = 67),
Riga (indirizzo = 'hyd', età = 16, altezza = 3.79, name = 'ojaswi', rollno = '002', peso = 34),
Riga (indirizzo = 'patna', età = 7, altezza = 2.79, nome = 'gnanesh chowdary', rollno = '003', peso = 17)]

Esempio 2:

In questo esempio, creeremo un Frame dati PysPark con 5 righe e 6 colonne e visualizzeremo 1 riga dal frame dati utilizzando il metodo head (). Quindi, questo risulta in top 1 riga dal frame dati.

#import il modulo pyspark
importare pyspark
#IMPORT SPARKSESSION per la creazione di una sessione
da pyspark.SQL Importazione di importazione
#Crea un'app chiamata LinuxHint
Spark_app = SparkSession.costruttore.appname ('LinuxHint').getOrCreate ()
# Crea dati studenteschi con 5 righe e 6 attributi
Studenti = [
'rollno': '001', 'name': 'sravan', 'age': 23,
'altezza': 5.79, "peso": 67, "indirizzo": "guntur",
'rollno': '002', 'name': 'ojaswi', 'age': 16,
'altezza': 3.79, 'peso': 34, 'indirizzo': 'hyd',
'rollno': '003', 'name': 'gnanesh chowdary', 'age': 7,
'altezza': 2.79, 'peso': 17, 'indirizzo': 'patna',
'rollno': '004', 'name': 'rohith', 'age': 9,
'altezza': 3.69, 'peso': 28, 'indirizzo': 'hyd',
'rollno': '005', 'name': 'sridevi', 'age': 37,
'altezza': 5.59, 'peso': 54, 'indirizzo': 'hyd']
# Crea il frame dati
df = spark_app.CreatedataFrame (Students)
# Visualizza 1 riga in alto dal frame dati
df.Testa (1)

Produzione:

[Riga (indirizzo = 'guntur', età = 23, altezza = 5.79, name = 'sravan', rollno = '001', peso = 67)]

Conclusione

In questo tutorial, abbiamo discusso di come ottenere le migliori righe dal PysPark DataFrame usando show (), raccolta (). Take (), Head () e First () Metodi. Abbiamo notato che il metodo show () restituirà le righe superiori in un formato tabulare e i metodi rimanenti restituiranno riga per riga.