Pyspark - Forma di dati di Panda, assi, NDIM e dtypes

Pyspark - Forma di dati di Panda, assi, NDIM e dtypes
“In Python, Pyspark è un modulo Spark utilizzato per fornire un tipo di elaborazione simile come Spark usando DataFrame, che memorizzerà i dati forniti in formato di riga e colonna.

PysPark - Pandas DataFrame rappresenta il Frame Data Pandas, ma contiene il Frame dati PysPark internamente.

Panda Support DataFrame Data Structure e Panda viene importato dal modulo PysPark.

Prima di allora, devi installare il modulo PysPark."

Comando

PIP Installa Pyspark

Sintassi all'importazione

da Pyspark Import Panda

Successivamente, possiamo creare o utilizzare il frame dati dal modulo Pandas.

Sintassi per creare Pandas DataFrame

pyspark.panda.DataFrame ()

Possiamo passare un dizionario o un elenco di elenchi con valori.

Creiamo un frame dati Pandas tramite Pyspark che ha quattro colonne e cinque righe.

#import panda dal modulo pyspark
da Pyspark Import Panda
#Crea DataFrame da Pandas Pyspark
pyspark_pandas = pandas.DataFrame ('Student_LastName': ['Manasa', 'Chamundi', 'Lehara', 'Kapila', 'Hyna'], 'Mark1': [90,78,90,54,67], 'Mark2': [ 100,67,96,89,77], 'Mark3': [91,92,98,97,87])
#Schermo
Print (pyspark_pandas)

Produzione

Ora andremo nel nostro tutorial.

Vediamoli uno per uno.

PysPark - Pandas DataFrame: Shape ()

pyspark.panda.DataFrame.forma()

Shape () in PysPark Pandas DataFrame viene utilizzato per restituire il numero di righe e il numero di colonne in una tupla.

Il primo valore nella tupla rappresenta il numero di righe e il secondo valore rappresenta il numero di colonne.

Sintassi

pyspark_pandas.forma

Dove pyspark_pandas è il frame dati Pyspark Pandas.

Se si desidera restituire solo il numero totale di righe o colonne, è possibile ottenerlo utilizzando la posizione dell'indice.

Sintassi
Restituire il numero totale di righe

pyspark_pandas.forma [0]

Restituire il numero totale di colonna

pyspark_pandas.forma [1]

Esempio
In questo esempio, vedremo quante righe e colonne esistono nel Frame di dati Panda Pandas sopra riportato.

#import panda dal modulo pyspark
da Pyspark Import Panda
#Crea DataFrame da Pandas Pyspark
pyspark_pandas = pandas.DataFrame ('Student_LastName': ['Manasa', 'Chamundi', 'Lehara', 'Kapila', 'Hyna'], 'Mark1': [90,78,90,54,67], 'Mark2': [ 100,67,96,89,77], 'Mark3': [91,92,98,97,87])
#getta la forma
Stampa ("Righe e colonne totali:", pyspark_pandas.forma)
#get solo numero totale di righe
Print ("Total Rows:", pyspark_pandas.forma [0])
#get solo numero totale di colonne
Print ("Colonne totali:", pyspark_pandas.forma [1])

Produzione

Righe e colonne totali: (5, 4)
Righe totali: 5
Colonne totali: 4

Possiamo vedere che le righe e le colonne totali sono state restituite.

PysPark - Pandas DataFrame: Axes ()

pyspark.panda.DataFrame.axes ()

Axes () nel Pyspark Pandas DataFrame viene utilizzato per restituire i nomi della riga e delle colonne in un elenco.

Il primo valore nell'elenco rappresenta i nomi delle righe e il secondo valore rappresenta i nomi delle colonne.

Sintassi

pyspark_pandas.asce

Dove pyspark_pandas è il frame dati Pyspark Pandas.

Se si desidera restituire solo le righe o le colonne, puoi ottenerlo utilizzando la posizione dell'indice.

Sintassi

Nomi delle righe di ritorno

pyspark_pandas.assi [0]

Nomi delle colonne di ritorno

pyspark_pandas.assi [1]

Esempio
In questo esempio, vedremo le righe e le colonne che esistono nel Frame di dati Pandas Pyspark sopra.

#import panda dal modulo pyspark
da Pyspark Import Panda
#Crea DataFrame da Pandas Pyspark
pyspark_pandas = pandas.DataFrame ('Student_LastName': ['Manasa', 'Chamundi', 'Lehara', 'Kapila', 'Hyna'], 'Mark1': [90,78,90,54,67], 'Mark2': [ 100,67,96,89,77], 'Mark3': [91,92,98,97,87])
#get tutte le asce
Print (pyspark_pandas.asce)
#get le assi della riga
print ("nomi di righe:", pyspark_pandas.assi [0])
#get le assi della colonna
print ("nomi di colonne:", pyspark_pandas.assi [1])

Produzione

[Int64index ([0, 1, 2, 3, 4], dType = "int64"), indice (['Student_lastname', 'Mark1', 'Mark2', 'Mark3'], dType = "Object")]
Nomi delle righe: Int64Index ([0, 1, 2, 3, 4], dType = "int64")
Nomi delle colonne: INDICE (['Student_LastName', 'Mark1', 'Mark2', 'Mark3'], dType = "Object")

Possiamo vedere che i nomi di riga e colonne sono stati restituiti.

PysPark - Pandas DataFrame: ndim ()

pyspark.panda.DataFrame.ndim ()

NDIM () nel Pyspark Pandas DataFrame viene utilizzato per restituire le dimensioni totali. Qui il Frame dati Pyspark Pandas contiene due dimensioni: riga e colonna. Quindi tornerà 2.

Sintassi

pyspark_pandas.ndim

Dove pyspark_pandas è il frame dati Pyspark Pandas.

Esempio
In questo esempio, otterremo le dimensioni totali dal Frame dati Pyspark Pandas.

#import panda dal modulo pyspark
da Pyspark Import Panda
#Crea DataFrame da Pandas Pyspark
pyspark_pandas = pandas.DataFrame ('Student_LastName': ['Manasa', 'Chamundi', 'Lehara', 'Kapila', 'Hyna'], 'Mark1': [90,78,90,54,67], 'Mark2': [ 100,67,96,89,77], 'Mark3': [91,92,98,97,87])
#get le dimensioni
Print (pyspark_pandas.ndim)

Produzione

2

PysPark - Pandas DataFrame: dTypes ()

pyspark.panda.DataFrame.dTypes ()

dTypes () in Pyspark Pandas DataFrame viene utilizzato per restituire i tipi di dati per tutte le colonne

Sintassi

pyspark_pandas.dtypes

Dove pyspark_pandas è il frame dati Pyspark Pandas.

Esempio
In questo esempio, otterremo i tipi di dati dal Frame dati Pyspark Pandas.

#import panda dal modulo pyspark
da Pyspark Import Panda
#Crea DataFrame da Pandas Pyspark
pyspark_pandas = pandas.DataFrame ('Student_LastName': ['Manasa', 'Chamundi', 'Lehara', 'Kapila', 'Hyna'], 'Mark1': [90,78,90,54,67], 'Mark2': [ 100,67,96,89,77], 'Mark3': [91,92,98,97,87])
#get i tipi di dati di tutte le colonne
Print (pyspark_pandas.dtypes)

Produzione

Oggetto studente_lastname
Mark1 int64
Mark2 Int64
Mark3 Int64
dType: oggetto

È anche possibile ottenere il tipo di dati da una singola colonna.

Sintassi

Pyspark_pandas.colonna.dtypes

Dove la colonna è il nome della colonna

Esempio
In questo esempio, otterremo i tipi di dati della colonna Student_LastName e Mark1.

#import panda dal modulo pyspark
da Pyspark Import Panda
#Crea DataFrame da Pandas Pyspark
pyspark_pandas = pandas.DataFrame ('Student_LastName': ['Manasa', 'Chamundi', 'Lehara', 'Kapila', 'Hyna'], 'Mark1': [90,78,90,54,67], 'Mark2': [ 100,67,96,89,77], 'Mark3': [91,92,98,97,87])
#get il tipo di dati della colonna Student_LastName
Print (pyspark_pandas.Student_LastName.dtypes)
#get il tipo di dati della colonna Mark1
Print (pyspark_pandas.Mark1.dtypes)

Produzione

oggetto
Int64

Conclusione

In questo tutorial Pyspark Pandas DataFrame, abbiamo visto diversi metodi per ottenere le informazioni sul frame dati.

  1. La forma viene utilizzata per restituire la dimensione del Frame di dati Pyspark Pandas.
  2. Axes viene utilizzato per restituire i nomi della riga e delle colonne.
  3. NDIM restituirà un numero totale di dimensioni nel Pyspark Pandas DataFrame.
  4. dtypes restituire tutti i tipi di dati della colonna.