In Python, Pyspark è un modulo Spark utilizzato per fornire un tipo di elaborazione simile come Spark utilizzando DataFrame. Fornisce i vari metodi per restituire le righe migliori dal frame dati Pyspark. Forniremo esempi per i 5 modi per visualizzare le righe migliori in Pyspark:
- Pyspark - show ()
- Pyspark - collect ()
- Pyspark - Take ()
- Pyspark - first ()
- Pyspark - head ()
Pyspark - show ()
Viene utilizzato per visualizzare le righe superiori o l'intero telaio di dati in formato tabulare.
Sintassi:
DataFrame.spettacolo (n, verticale, troncato)
Dove, dati è il frame dati di input pyspark.
Parametri:
- n è il primo parametro opzionale che rappresenta il valore intero per ottenere le righe superiori nel frame dati e n rappresenta il numero di righe superiori da visualizzare. Per impostazione predefinita, visualizzerà tutte le righe dal frame dati
- Il parametro verticale prende i valori booleani utilizzati per visualizzare il frame dati nel parametro verticale quando è impostato su true. e visualizzare il frame dati in formato orizzontale quando è impostato su false. Per impostazione predefinita, verrà visualizzato in formato orizzontale
- Il troncato viene utilizzato per ottenere il numero di caratteri da ciascun valore nel frame dati. Ci vorrà un numero intero come alcuni personaggi da visualizzare. Per impostazione predefinita, visualizzerà tutti i caratteri.
Esempio 1:
In questo esempio, creeremo un Frame dati PysPark con 5 righe e 6 colonne e visualizzeremo il frame dati utilizzando il metodo show () senza alcun parametro. Quindi, questo si traduce in un telaio tabulare visualizzando tutti i valori nel frame dati
#import il modulo pyspark
importare pyspark
#IMPORT SPARKSESSION per la creazione di una sessione
da pyspark.SQL Importazione di importazione
#Crea un'app chiamata LinuxHint
Spark_app = SparkSession.costruttore.appname ('LinuxHint').getOrCreate ()
# Crea dati studenteschi con 5 righe e 6 attributi
Studenti = [
'rollno': '001', 'name': 'sravan', 'age': 23,
'altezza': 5.79, "peso": 67, "indirizzo": "guntur",
'rollno': '002', 'name': 'ojaswi', 'age': 16,
'altezza': 3.79, 'peso': 34, 'indirizzo': 'hyd',
'rollno': '003', 'name': 'gnanesh chowdary', 'age': 7,
'altezza': 2.79, 'peso': 17, 'indirizzo': 'patna',
'rollno': '004', 'name': 'rohith', 'age': 9,
'altezza': 3.69, 'peso': 28, 'indirizzo': 'hyd',
'rollno': '005', 'name': 'sridevi', 'age': 37,
'altezza': 5.59, 'peso': 54, 'indirizzo': 'hyd']
# Crea il frame dati
df = spark_app.CreatedataFrame (Students)
# DataFrame
df.spettacolo()
Produzione:
Esempio 2:
In questo esempio, creeremo un Frame dati PysPark con 5 righe e 6 colonne e visualizzeremo il frame dati utilizzando il metodo show () con n parametro. Impostiamo il valore N su 4 per visualizzare le 4 file migliori dal frame dati. Quindi, questo si traduce in un telaio tabulare visualizzando 4 valori nel frame dati.
#IMPORT Il modulo PYSPRK
importare pyspark
#IMPORT SPARKSESSION per la creazione di una sessione
da pyspark.SQL Importazione di importazione
#Crea un'app chiamata LinuxHint
Spark_app = SparkSession.costruttore.appname ('LinuxHint').getOrCreate ()
# Crea dati studenteschi con 5 righe e 6 attributi
Studenti = [
'rollno': '001', 'name': 'sravan', 'age': 23,
'altezza': 5.79, "peso": 67, "indirizzo": "guntur",
'rollno': '002', 'name': 'ojaswi', 'age': 16,
'altezza': 3.79, 'peso': 34, 'indirizzo': 'hyd',
'rollno': '003', 'name': 'gnanesh chowdary', 'age': 7,
'altezza': 2.79, 'peso': 17, 'indirizzo': 'patna',
'rollno': '004', 'name': 'rohith', 'age': 9,
'altezza': 3.69, 'peso': 28, 'indirizzo': 'hyd',
'rollno': '005', 'name': 'sridevi', 'age': 37,
'altezza': 5.59, 'peso': 54, 'indirizzo': 'hyd']
# Crea il frame dati
df = spark_app.CreatedataFrame (Students)
# Ottieni le migliori 4 righe nel frame dati
df.mostra (4)
Produzione:
Pyspark - collect ()
Il metodo collect () in pyspark viene utilizzato per visualizzare i dati presenti nella riga di dati per riga dall'alto.
Sintassi:
DataFrame.raccogliere()
Esempio:
Visualizziamo l'intero metodo di dati con collezione ()
#import il modulo pyspark
importare pyspark
#IMPORT SPARKSESSION per la creazione di una sessione
da pyspark.SQL Importazione di importazione
#Crea un'app chiamata LinuxHint
Spark_app = SparkSession.costruttore.appname ('LinuxHint').getOrCreate ()
# Crea dati studenteschi con 5 righe e 6 attributi
Studenti = [
'rollno': '001', 'name': 'sravan', 'age': 23,
'altezza': 5.79, "peso": 67, "indirizzo": "guntur",
'rollno': '002', 'name': 'ojaswi', 'age': 16,
'altezza': 3.79, 'peso': 34, 'indirizzo': 'hyd',
'rollno': '003', 'name': 'gnanesh chowdary', 'age': 7,
'altezza': 2.79, 'peso': 17, 'indirizzo': 'patna',
'rollno': '004', 'name': 'rohith', 'age': 9,
'altezza': 3.69, 'peso': 28, 'indirizzo': 'hyd',
'rollno': '005', 'name': 'sridevi', 'age': 37,
'altezza': 5.59, 'peso': 54, 'indirizzo': 'hyd']
# Crea il frame dati
df = spark_app.CreatedataFrame (Students)
# Schermo
df.raccogliere()
Produzione:
[Riga (indirizzo = 'guntur', età = 23, altezza = 5.79, name = 'sravan', rollno = '001', peso = 67),
Riga (indirizzo = 'hyd', età = 16, altezza = 3.79, name = 'ojaswi', rollno = '002', peso = 34),
Riga (indirizzo = 'patna', età = 7, altezza = 2.79, nome = 'gnanesh chowdary', rollno = '003', peso = 17),
Riga (indirizzo = 'hyd', età = 9, altezza = 3.69, name = 'rohith', rollno = '004', peso = 28),
Riga (indirizzo = 'hyd', età = 37, altezza = 5.59, name = 'sridevi', rollno = '005', peso = 54)]
Pyspark - Take ()
Viene utilizzato per visualizzare le righe superiori o l'intero telaio.
Sintassi:
DataFrame.preso)
Dove, dati è il frame dati di input pyspark.
Parametri:
n è il parametro richiesto che rappresenta il valore intero per ottenere le righe migliori nel frame dati.
Esempio 1:
In questo esempio, creeremo un Frame dati PysPark con 5 righe e 6 colonne e visualizzeremo 3 righe dal frame dati utilizzando il metodo Take (). Quindi, questo risulta dalle prime 3 righe dal frame dati.
#import il modulo pyspark
importare pyspark
#IMPORT SPARKSESSION per la creazione di una sessione
da pyspark.SQL Importazione di importazione
#Crea un'app chiamata LinuxHint
Spark_app = SparkSession.costruttore.appname ('LinuxHint').getOrCreate ()
# Crea dati studenteschi con 5 righe e 6 attributi
Studenti = [
'rollno': '001', 'name': 'sravan', 'age': 23,
'altezza': 5.79, "peso": 67, "indirizzo": "guntur",
'rollno': '002', 'name': 'ojaswi', 'age': 16,
'altezza': 3.79, 'peso': 34, 'indirizzo': 'hyd',
'rollno': '003', 'name': 'gnanesh chowdary', 'age': 7,
'altezza': 2.79, 'peso': 17, 'indirizzo': 'patna',
'rollno': '004', 'name': 'rohith', 'age': 9,
'altezza': 3.69, 'peso': 28, 'indirizzo': 'hyd',
'rollno': '005', 'name': 'sridevi', 'age': 37,
'altezza': 5.59, 'peso': 54, 'indirizzo': 'hyd']
# Crea il frame dati
df = spark_app.CreatedataFrame (Students)
# Visualizza le prime 3 righe dal frame dati
df.Prendi (3)
Produzione:
[Riga (indirizzo = 'guntur', età = 23, altezza = 5.79, name = 'sravan', rollno = '001', peso = 67),
Riga (indirizzo = 'hyd', età = 16, altezza = 3.79, name = 'ojaswi', rollno = '002', peso = 34),
Riga (indirizzo = 'patna', età = 7, altezza = 2.79, nome = 'gnanesh chowdary', rollno = '003', peso = 17)]
Esempio 2:
In questo esempio, creeremo un Frame dati PysPark con 5 righe e 6 colonne e visualizzeremo 3 righe dal frame dati utilizzando il metodo Take (). Quindi, questo risulta dalla top 1 riga dal frame dati.
#import il modulo pyspark
importare pyspark
#IMPORT SPARKSESSION per la creazione di una sessione
da pyspark.SQL Importazione di importazione
#Crea un'app chiamata LinuxHint
Spark_app = SparkSession.costruttore.appname ('LinuxHint').getOrCreate ()
# Crea dati studenteschi con 5 righe e 6 attributi
Studenti = [
'rollno': '001', 'name': 'sravan', 'age': 23,
'altezza': 5.79, "peso": 67, "indirizzo": "guntur",
'rollno': '002', 'name': 'ojaswi', 'age': 16,
'altezza': 3.79, 'peso': 34, 'indirizzo': 'hyd',
'rollno': '003', 'name': 'gnanesh chowdary', 'age': 7,
'altezza': 2.79, 'peso': 17, 'indirizzo': 'patna',
'rollno': '004', 'name': 'rohith', 'age': 9,
'altezza': 3.69, 'peso': 28, 'indirizzo': 'hyd',
'rollno': '005', 'name': 'sridevi', 'age': 37,
'altezza': 5.59, 'peso': 54, 'indirizzo': 'hyd']
# Crea il frame dati
df = spark_app.CreatedataFrame (Students)
# Visualizza 1 riga in alto dal frame dati
df.Prendi (1)
Produzione:
[Riga (indirizzo = 'guntur', età = 23, altezza = 5.79, name = 'sravan', rollno = '001', peso = 67)]
Pyspark - first ()
Viene utilizzato per visualizzare le righe superiori o l'intero telaio.
Sintassi:
DataFrame.Primo()
Dove, dati è il frame dati di input pyspark.
Parametri:
- Non ci vorranno parametri.
Esempio:
In questo esempio, creeremo un Frame dati PysPark con 5 righe e 6 colonne e visualizzeremo 1 riga dal frame dati utilizzando il metodo primo (). Quindi, questo risulta solo la prima riga.
#import il modulo pyspark
importare pyspark
#IMPORT SPARKSESSION per la creazione di una sessione
da pyspark.SQL Importazione di importazione
#Crea un'app chiamata LinuxHint
Spark_app = SparkSession.costruttore.appname ('LinuxHint').getOrCreate ()
# Crea dati studenteschi con 5 righe e 6 attributi
Studenti = [
'rollno': '001', 'name': 'sravan', 'age': 23,
'altezza': 5.79, "peso": 67, "indirizzo": "guntur",
'rollno': '002', 'name': 'ojaswi', 'age': 16,
'altezza': 3.79, 'peso': 34, 'indirizzo': 'hyd',
'rollno': '003', 'name': 'gnanesh chowdary', 'age': 7,
'altezza': 2.79, 'peso': 17, 'indirizzo': 'patna',
'rollno': '004', 'name': 'rohith', 'age': 9,
'altezza': 3.69, 'peso': 28, 'indirizzo': 'hyd',
'rollno': '005', 'name': 'sridevi', 'age': 37,
'altezza': 5.59, 'peso': 54, 'indirizzo': 'hyd']
# Crea il frame dati
df = spark_app.CreatedataFrame (Students)
# Visualizza 1 riga in alto dal frame dati
df.Primo (1)
Produzione:
[Riga (indirizzo = 'guntur', età = 23, altezza = 5.79, name = 'sravan', rollno = '001', peso = 67)]
Pyspark - head ()
Viene utilizzato per visualizzare le righe superiori o l'intero telaio.
Sintassi:
DataFrame.Testa (N)
Dove, dati è il frame dati di input pyspark.
Parametri:
n è il parametro opzionale che rappresenta il valore intero per ottenere le righe superiori nel frame dati e n rappresenta il numero di righe superiori da visualizzare. Per impostazione predefinita, visualizzerà la prima riga dal frame dati, se N non è specificato.
Esempio 1:
In questo esempio, creeremo un Frame dati PysPark con 5 righe e 6 colonne e visualizzeremo 3 righe dal frame dati utilizzando il metodo head (). Quindi, questo risulta top 3 righe dal gesto di dati.
#import il modulo pyspark
importare pyspark
#IMPORT SPARKSESSION per la creazione di una sessione
da pyspark.SQL Importazione di importazione
#Crea un'app chiamata LinuxHint
Spark_app = SparkSession.costruttore.appname ('LinuxHint').getOrCreate ()
# Crea dati studenteschi con 5 righe e 6 attributi
Studenti = [
'rollno': '001', 'name': 'sravan', 'age': 23,
'altezza': 5.79, "peso": 67, "indirizzo": "guntur",
'rollno': '002', 'name': 'ojaswi', 'age': 16,
'altezza': 3.79, 'peso': 34, 'indirizzo': 'hyd',
'rollno': '003', 'name': 'gnanesh chowdary', 'age': 7,
'altezza': 2.79, 'peso': 17, 'indirizzo': 'patna',
'rollno': '004', 'name': 'rohith', 'age': 9,
'altezza': 3.69, 'peso': 28, 'indirizzo': 'hyd',
'rollno': '005', 'name': 'sridevi', 'age': 37,
'altezza': 5.59, 'peso': 54, 'indirizzo': 'hyd']
# Crea il frame dati
df = spark_app.CreatedataFrame (Students)
# Visualizza le prime 3 righe dal frame dati
df.Testa (3)
Produzione:
[Riga (indirizzo = 'guntur', età = 23, altezza = 5.79, name = 'sravan', rollno = '001', peso = 67),
Riga (indirizzo = 'hyd', età = 16, altezza = 3.79, name = 'ojaswi', rollno = '002', peso = 34),
Riga (indirizzo = 'patna', età = 7, altezza = 2.79, nome = 'gnanesh chowdary', rollno = '003', peso = 17)]
Esempio 2:
In questo esempio, creeremo un Frame dati PysPark con 5 righe e 6 colonne e visualizzeremo 1 riga dal frame dati utilizzando il metodo head (). Quindi, questo risulta in top 1 riga dal frame dati.
#import il modulo pyspark
importare pyspark
#IMPORT SPARKSESSION per la creazione di una sessione
da pyspark.SQL Importazione di importazione
#Crea un'app chiamata LinuxHint
Spark_app = SparkSession.costruttore.appname ('LinuxHint').getOrCreate ()
# Crea dati studenteschi con 5 righe e 6 attributi
Studenti = [
'rollno': '001', 'name': 'sravan', 'age': 23,
'altezza': 5.79, "peso": 67, "indirizzo": "guntur",
'rollno': '002', 'name': 'ojaswi', 'age': 16,
'altezza': 3.79, 'peso': 34, 'indirizzo': 'hyd',
'rollno': '003', 'name': 'gnanesh chowdary', 'age': 7,
'altezza': 2.79, 'peso': 17, 'indirizzo': 'patna',
'rollno': '004', 'name': 'rohith', 'age': 9,
'altezza': 3.69, 'peso': 28, 'indirizzo': 'hyd',
'rollno': '005', 'name': 'sridevi', 'age': 37,
'altezza': 5.59, 'peso': 54, 'indirizzo': 'hyd']
# Crea il frame dati
df = spark_app.CreatedataFrame (Students)
# Visualizza 1 riga in alto dal frame dati
df.Testa (1)
Produzione:
[Riga (indirizzo = 'guntur', età = 23, altezza = 5.79, name = 'sravan', rollno = '001', peso = 67)]
Conclusione
In questo tutorial, abbiamo discusso di come ottenere le migliori righe dal PysPark DataFrame usando show (), raccolta (). Take (), Head () e First () Metodi. Abbiamo notato che il metodo show () restituirà le righe superiori in un formato tabulare e i metodi rimanenti restituiranno riga per riga.