Restituisci top e ultime righe da Pyspark Pandas DataFrame

Restituisci top e ultime righe da Pyspark Pandas DataFrame
“In Python, Pyspark è un modulo Spark utilizzato per fornire un tipo di elaborazione simile come Spark usando DataFrame, che memorizzerà i dati forniti in formato di riga e colonna.

PysPark - Pandas DataFrame rappresenta il Frame Data Pandas, ma contiene il Frame dati PysPark internamente.

Panda Support DataFrame Data Structure e Panda vengono importati dal modulo PysPark.

Prima di allora, devi installare il modulo PysPark."

Comando

PIP Installa Pyspark

Sintassi all'importazione:

da Pyspark Import Panda

Successivamente, possiamo creare o utilizzare il frame dati dal modulo Pandas.

Sintassi per creare Pandas DataFrame:

pyspark.panda.DataFrame ()

Possiamo passare un dizionario o un elenco di elenchi con valori.

Creiamo un frame dati Pandas tramite Pyspark che ha quattro colonne e cinque righe.

#import panda dal modulo pyspark
da Pyspark Import Panda
#Crea DataFrame da Pandas Pyspark
pyspark_pandas = pandas.DataFrame ('Student_LastName': ['Manasa', 'Trisha', 'Lehara', 'Kapila', 'Hyna'],
'Mark1': [90,56,78,54,67], 'Mark2': [100,67,96,89,32], 'Mark3': [91,92,98,97,87])
Print (pyspark_pandas)

Produzione:

Ora andremo nel nostro tutorial.

Esistono diversi modi per restituire la top e le ultime righe dal Pyspark Pandas DataFrame.

Vediamoli uno per uno.

pyspark.panda.DataFrame.Testa

head () restituirà le migliori righe dalla parte superiore del Pyspark Pandas DataFrame. Ci vuole n come parametro che specifica il numero di righe visualizzate dall'alto. Per impostazione predefinita, restituirà le prime 5 file.

Sintassi:

pyspark_pandas.Testa (N)

Dove pyspark_pandas è il frame dati Pyspark Pandas.

Parametro:

n Specifica un valore intero che visualizza il numero di righe dalla parte superiore del Frame di dati Pyspark Pandas.

Possiamo anche usare la funzione head () per visualizzare la colonna specifica.

Sintassi:

pyspark_pandas.colonna.Testa (N)

Esempio 1

In questo esempio, restituiremo le prime 2 e 4 righe nella colonna Mark1.

#import panda dal modulo pyspark
da Pyspark Import Panda
#Crea DataFrame da Pandas Pyspark
pyspark_pandas = pandas.DataFrame ('Student_LastName': ['Manasa', 'Trisha', 'Lehara', 'Kapila', 'Hyna'], 'Mark1': [90,56,78,54,67], 'Mark2': [ 100,67,96,89,32], 'Mark3': [91,92,98,97,87])
#display top 2 righe nella colonna Mark1
Print (pyspark_pandas.Mark1.testa (2))
stampa()
#Display Top 4 file nella colonna Mark1
Print (pyspark_pandas.Mark1.testa (4))

Produzione:

0 90
1 56
Nome: Mark1, Dtype: Int64
0 90
1 56
2 78
3 54
Nome: Mark1, Dtype: Int64

Possiamo vedere che le prime 2 e 4 righe sono state selezionate dalla colonna Marks1.

Esempio 2

In questo esempio, restituiremo le prime 2 e 4 righe nella colonna Student_LastName.

#import panda dal modulo pyspark
da Pyspark Import Panda
#Crea DataFrame da Pandas Pyspark
pyspark_pandas = pandas.DataFrame ('Student_LastName': ['Manasa', 'Trisha', 'Lehara', 'Kapila', 'Hyna'], 'Mark1': [90,56,78,54,67], 'Mark2': [ 100,67,96,89,32], 'Mark3': [91,92,98,97,87])
#display top 2 righe nella colonna Student_LastName
Print (pyspark_pandas.Student_LastName.testa (2))
stampa()
#display top 4 righe nella colonna Student_LastName
Print (pyspark_pandas.Student_LastName.testa (4))

Produzione:

0 Manasa
1 Trisha
Nome: Student_LastName, DType: Object
0 Manasa
1 Trisha
2 Lehara
3 Kapila
Nome: Student_LastName, DType: Object

Possiamo vedere che le prime 2 e 4 righe sono state selezionate da Student_LastName colonna.

Esempio 3

In questo esempio, restituiremo le prime 2 righe dall'intero frame dati.

#import panda dal modulo pyspark
da Pyspark Import Panda
#Crea DataFrame da Pandas Pyspark
pyspark_pandas = pandas.DataFrame ('Student_LastName': ['Manasa', 'Trisha', 'Lehara', 'Kapila', 'Hyna'], 'Mark1': [90,56,78,54,67], 'Mark2': [ 100,67,96,89,32], 'Mark3': [91,92,98,97,87])
#Display Top 2 file
Print (pyspark_pandas.testa (2))
stampa()
#Display Top 4 file
Print (pyspark_pandas.testa (4))

Produzione:

Student_LastName Mark1 Mark2 Mark3
0 Manasa 90 100 91
1 Trisha 56 67 92
Student_LastName Mark1 Mark2 Mark3
0 Manasa 90 100 91
1 Trisha 56 67 92
2 Lehara 78 96 98
3 Kapila 54 89 97

Possiamo vedere che l'intero telaio di dati viene restituito con le prime 2 e 4 righe.

pyspark.panda.DataFrame.coda

Tail () restituirà le righe dall'ultima nel Frame dati Pyspark Pandas. Ci vuole n come parametro che specifica il numero di righe visualizzate dall'ultima.

Sintassi:

pyspark_pandas.Tail (N)

Dove pyspark_pandas è il frame dati Pyspark Pandas.

Parametro:

n Specifica un valore intero che visualizza il numero di righe dall'ultimo Pyspark Panda DataFrame. Per impostazione predefinita, restituirà le ultime 5 righe.

Possiamo anche usare la funzione Tail () per visualizzare colonne specifiche.

Sintassi:

pyspark_pandas.colonna.Tail (N)

Esempio 1

In questo esempio, restituiremo le ultime 2 e 4 righe nella colonna Mark1.

#import panda dal modulo pyspark
da Pyspark Import Panda
#Crea DataFrame da Pandas Pyspark
pyspark_pandas = pandas.DataFrame ('Student_LastName': ['Manasa', 'Trisha', 'Lehara', 'Kapila', 'Hyna'], 'Mark1': [90,56,78,54,67], 'Mark2': [ 100,67,96,89,32], 'Mark3': [91,92,98,97,87])
#display ultime 2 righe nella colonna Mark1
Print (pyspark_pandas.Mark1.coda (2))
stampa()
#display ultime 4 righe nella colonna Mark1
Print (pyspark_pandas.Mark1.coda (4))

Produzione:

3 54
4 67
Nome: Mark1, Dtype: Int64
1 56
2 78
3 54
4 67
Nome: Mark1, Dtype: Int64

Possiamo vedere che le ultime 2 e 4 righe sono state selezionate dalla colonna Marks1.

Esempio 2

In questo esempio, restituiremo le ultime 2 e 4 righe nella colonna Student_LastName.

#import panda dal modulo pyspark
da Pyspark Import Panda
#Crea DataFrame da Pandas Pyspark
pyspark_pandas = pandas.DataFrame ('Student_LastName': ['Manasa', 'Trisha', 'Lehara', 'Kapila', 'Hyna'], 'Mark1': [90,56,78,54,67], 'Mark2': [ 100,67,96,89,32], 'Mark3': [91,92,98,97,87])
#display ultime 2 righe nella colonna Student_LastName
Print (pyspark_pandas.Student_LastName.coda (2))
stampa()
#Display Ultime 4 righe nella colonna Student_LastName
Print (pyspark_pandas.Student_LastName.coda (4))

Produzione:

3 Kapila
4 Hyna
Nome: Student_LastName, DType: Object
1 Trisha
2 Lehara
3 Kapila
4 Hyna
Nome: Student_LastName, DType: Object

Possiamo vedere che le ultime 2 e 4 righe sono state selezionate da Student_LastName colonna.

Esempio 3

In questo esempio, restituiremo le ultime 2 righe dall'intero frame dati.

#import panda dal modulo pyspark
da Pyspark Import Panda
#Crea DataFrame da Pandas Pyspark
pyspark_pandas = pandas.DataFrame ('Student_LastName': ['Manasa', 'Trisha', 'Lehara', 'Kapila', 'Hyna'], 'Mark1': [90,56,78,54,67], 'Mark2': [ 100,67,96,89,32], 'Mark3': [91,92,98,97,87])
#display ultime 2 righe
Print (pyspark_pandas.coda (2))
stampa()
#display ultime 4 file
Print (pyspark_pandas.coda (4))

Produzione:

Student_LastName Mark1 Mark2 Mark3
3 Kapila 54 89 97
4 Hyna 67 32 87
Student_LastName Mark1 Mark2 Mark3
1 Trisha 56 67 92
2 Lehara 78 96 98
3 Kapila 54 89 97
4 Hyna 67 32 87

Possiamo vedere che l'intero telaio di dati viene restituito con le ultime 2 e 4 righe.

Conclusione

Abbiamo visto come visualizzare le funzioni di dati di Pyspark Pandas Pyspark Panda utilizzando le funzioni. Per impostazione predefinita, restituiscono 5 file.Le funzioni head () e tail () vengono anche utilizzate per ottenere le righe superiori e ultime con colonne specifiche.