Visualizza le righe migliori dal frame dati Pyspark

In Python, Pyspark è un modulo Spark utilizzato per fornire un tipo di elaborazione simile come Spark utilizzando DataFrame. Fornisce i vari metodi per restituire le righe migliori dal frame dati Pyspark. Forniremo esempi per i 5 modi per visualizzare le righe migliori in Pyspark:

Pyspark - show ()
Pyspark - collect ()
Pyspark - Take ()
Pyspark - first ()
Pyspark - head ()

Pyspark - show ()

Viene utilizzato per visualizzare le righe superiori o l'intero telaio di dati in formato tabulare.

Sintassi:

DataFrame.spettacolo (n, verticale, troncato)

Dove, dati è il frame dati di input pyspark.

Parametri:

n è il primo parametro opzionale che rappresenta il valore intero per ottenere le righe superiori nel frame dati e n rappresenta il numero di righe superiori da visualizzare. Per impostazione predefinita, visualizzerà tutte le righe dal frame dati
Il parametro verticale prende i valori booleani utilizzati per visualizzare il frame dati nel parametro verticale quando è impostato su true. e visualizzare il frame dati in formato orizzontale quando è impostato su false. Per impostazione predefinita, verrà visualizzato in formato orizzontale
Il troncato viene utilizzato per ottenere il numero di caratteri da ciascun valore nel frame dati. Ci vorrà un numero intero come alcuni personaggi da visualizzare. Per impostazione predefinita, visualizzerà tutti i caratteri.

Esempio 1:

In questo esempio, creeremo un Frame dati PysPark con 5 righe e 6 colonne e visualizzeremo il frame dati utilizzando il metodo show () senza alcun parametro. Quindi, questo si traduce in un telaio tabulare visualizzando tutti i valori nel frame dati

#import il modulo pyspark
importare pyspark
#IMPORT SPARKSESSION per la creazione di una sessione
da pyspark.SQL Importazione di importazione
#Crea un'app chiamata LinuxHint
Spark_app = SparkSession.costruttore.appname ('LinuxHint').getOrCreate ()
# Crea dati studenteschi con 5 righe e 6 attributi
Studenti = [
'rollno': '001', 'name': 'sravan', 'age': 23,
'altezza': 5.79, "peso": 67, "indirizzo": "guntur",
'rollno': '002', 'name': 'ojaswi', 'age': 16,
'altezza': 3.79, 'peso': 34, 'indirizzo': 'hyd',
'rollno': '003', 'name': 'gnanesh chowdary', 'age': 7,
'altezza': 2.79, 'peso': 17, 'indirizzo': 'patna',
'rollno': '004', 'name': 'rohith', 'age': 9,
'altezza': 3.69, 'peso': 28, 'indirizzo': 'hyd',
'rollno': '005', 'name': 'sridevi', 'age': 37,
'altezza': 5.59, 'peso': 54, 'indirizzo': 'hyd']
# Crea il frame dati
df = spark_app.CreatedataFrame (Students)
# DataFrame
df.spettacolo()

Produzione:

Esempio 2:

In questo esempio, creeremo un Frame dati PysPark con 5 righe e 6 colonne e visualizzeremo il frame dati utilizzando il metodo show () con n parametro. Impostiamo il valore N su 4 per visualizzare le 4 file migliori dal frame dati. Quindi, questo si traduce in un telaio tabulare visualizzando 4 valori nel frame dati.

#IMPORT Il modulo PYSPRK
importare pyspark
#IMPORT SPARKSESSION per la creazione di una sessione
da pyspark.SQL Importazione di importazione
#Crea un'app chiamata LinuxHint
Spark_app = SparkSession.costruttore.appname ('LinuxHint').getOrCreate ()
# Crea dati studenteschi con 5 righe e 6 attributi
Studenti = [
'rollno': '001', 'name': 'sravan', 'age': 23,
'altezza': 5.79, "peso": 67, "indirizzo": "guntur",
'rollno': '002', 'name': 'ojaswi', 'age': 16,
'altezza': 3.79, 'peso': 34, 'indirizzo': 'hyd',
'rollno': '003', 'name': 'gnanesh chowdary', 'age': 7,
'altezza': 2.79, 'peso': 17, 'indirizzo': 'patna',
'rollno': '004', 'name': 'rohith', 'age': 9,
'altezza': 3.69, 'peso': 28, 'indirizzo': 'hyd',
'rollno': '005', 'name': 'sridevi', 'age': 37,
'altezza': 5.59, 'peso': 54, 'indirizzo': 'hyd']
# Crea il frame dati
df = spark_app.CreatedataFrame (Students)
# Ottieni le migliori 4 righe nel frame dati
df.mostra (4)

Produzione:

Pyspark - collect ()

Il metodo collect () in pyspark viene utilizzato per visualizzare i dati presenti nella riga di dati per riga dall'alto.

Sintassi:

DataFrame.raccogliere()

Esempio:

Visualizziamo l'intero metodo di dati con collezione ()

Produzione:

[Riga (indirizzo = 'guntur', età = 23, altezza = 5.79, name = 'sravan', rollno = '001', peso = 67),
Riga (indirizzo = 'hyd', età = 16, altezza = 3.79, name = 'ojaswi', rollno = '002', peso = 34),
Riga (indirizzo = 'patna', età = 7, altezza = 2.79, nome = 'gnanesh chowdary', rollno = '003', peso = 17),
Riga (indirizzo = 'hyd', età = 9, altezza = 3.69, name = 'rohith', rollno = '004', peso = 28),
Riga (indirizzo = 'hyd', età = 37, altezza = 5.59, name = 'sridevi', rollno = '005', peso = 54)]

Pyspark - Take ()

Viene utilizzato per visualizzare le righe superiori o l'intero telaio.

Sintassi:

DataFrame.preso)

Dove, dati è il frame dati di input pyspark.

Parametri:

n è il parametro richiesto che rappresenta il valore intero per ottenere le righe migliori nel frame dati.

Esempio 1:

In questo esempio, creeremo un Frame dati PysPark con 5 righe e 6 colonne e visualizzeremo 3 righe dal frame dati utilizzando il metodo Take (). Quindi, questo risulta dalle prime 3 righe dal frame dati.

Produzione:

Esempio 2:

In questo esempio, creeremo un Frame dati PysPark con 5 righe e 6 colonne e visualizzeremo 3 righe dal frame dati utilizzando il metodo Take (). Quindi, questo risulta dalla top 1 riga dal frame dati.

Produzione:

[Riga (indirizzo = 'guntur', età = 23, altezza = 5.79, name = 'sravan', rollno = '001', peso = 67)]

Pyspark - first ()

Viene utilizzato per visualizzare le righe superiori o l'intero telaio.

Sintassi:

DataFrame.Primo()

Dove, dati è il frame dati di input pyspark.

Parametri:

Non ci vorranno parametri.

Esempio:

In questo esempio, creeremo un Frame dati PysPark con 5 righe e 6 colonne e visualizzeremo 1 riga dal frame dati utilizzando il metodo primo (). Quindi, questo risulta solo la prima riga.

Produzione:

[Riga (indirizzo = 'guntur', età = 23, altezza = 5.79, name = 'sravan', rollno = '001', peso = 67)]

Pyspark - head ()

Viene utilizzato per visualizzare le righe superiori o l'intero telaio.

Sintassi:

DataFrame.Testa (N)

Dove, dati è il frame dati di input pyspark.

Parametri:

n è il parametro opzionale che rappresenta il valore intero per ottenere le righe superiori nel frame dati e n rappresenta il numero di righe superiori da visualizzare. Per impostazione predefinita, visualizzerà la prima riga dal frame dati, se N non è specificato.

Esempio 1:

In questo esempio, creeremo un Frame dati PysPark con 5 righe e 6 colonne e visualizzeremo 3 righe dal frame dati utilizzando il metodo head (). Quindi, questo risulta top 3 righe dal gesto di dati.

Produzione:

Esempio 2:

In questo esempio, creeremo un Frame dati PysPark con 5 righe e 6 colonne e visualizzeremo 1 riga dal frame dati utilizzando il metodo head (). Quindi, questo risulta in top 1 riga dal frame dati.

Produzione:

[Riga (indirizzo = 'guntur', età = 23, altezza = 5.79, name = 'sravan', rollno = '001', peso = 67)]

Conclusione

In questo tutorial, abbiamo discusso di come ottenere le migliori righe dal PysPark DataFrame usando show (), raccolta (). Take (), Head () e First () Metodi. Abbiamo notato che il metodo show () restituirà le righe superiori in un formato tabulare e i metodi rimanenti restituiranno riga per riga.

OS Windows

Cos'è Windows Package Manager

Windows Package Manager o Winget è uno strumento potente per l'installazione e la gestione dei pacch...

Dante Palumbo

OS Windows

Qual è la differenza tra Windows Top 10 Home e Pro

La versione Pro è per gli utenti professionisti e ha più strumenti amministrativi, mentre la version...

Cristyn De Santis

Pitone

Istogramma 2D Matplotlib

In Python, il PLT.La funzione Hist2d () del modulo Pyplot nella libreria Matplotlib viene utilizzata...

Dr. Evita Damico