PysPark - Pandas DataFrame rappresenta il Frame Data Pandas, ma contiene il Frame dati PysPark internamente.
Panda Support DataFrame Data Structure e Panda viene importato dal modulo PysPark.
Prima di allora, devi installare il modulo PysPark."
Comando
PIP Installa PysparkSintassi all'importazione
da Pyspark Import PandaSuccessivamente, possiamo creare o utilizzare il frame dati dal modulo Pandas.
Sintassi per creare Pandas DataFrame
pyspark.panda.DataFrame ()Possiamo passare un dizionario o un elenco di elenchi con valori.
Creiamo un frame dati Pandas tramite Pyspark che ha quattro colonne e cinque righe.
#import panda dal modulo pysparkProduzione
Ora andremo nel nostro tutorial.
Vediamoli uno per uno.
PysPark - Pandas DataFrame: Shape ()
pyspark.panda.DataFrame.forma()Shape () in PysPark Pandas DataFrame viene utilizzato per restituire il numero di righe e il numero di colonne in una tupla.
Il primo valore nella tupla rappresenta il numero di righe e il secondo valore rappresenta il numero di colonne.
Sintassi
pyspark_pandas.formaDove pyspark_pandas è il frame dati Pyspark Pandas.
Se si desidera restituire solo il numero totale di righe o colonne, è possibile ottenerlo utilizzando la posizione dell'indice.
Sintassi
Restituire il numero totale di righe
Restituire il numero totale di colonna
pyspark_pandas.forma [1]Esempio
In questo esempio, vedremo quante righe e colonne esistono nel Frame di dati Panda Pandas sopra riportato.
Produzione
Righe e colonne totali: (5, 4)Possiamo vedere che le righe e le colonne totali sono state restituite.
PysPark - Pandas DataFrame: Axes ()
pyspark.panda.DataFrame.axes ()Axes () nel Pyspark Pandas DataFrame viene utilizzato per restituire i nomi della riga e delle colonne in un elenco.
Il primo valore nell'elenco rappresenta i nomi delle righe e il secondo valore rappresenta i nomi delle colonne.
Sintassi
pyspark_pandas.asceDove pyspark_pandas è il frame dati Pyspark Pandas.
Se si desidera restituire solo le righe o le colonne, puoi ottenerlo utilizzando la posizione dell'indice.
Sintassi
Nomi delle righe di ritorno
pyspark_pandas.assi [0]Nomi delle colonne di ritorno
pyspark_pandas.assi [1]Esempio
In questo esempio, vedremo le righe e le colonne che esistono nel Frame di dati Pandas Pyspark sopra.
Produzione
[Int64index ([0, 1, 2, 3, 4], dType = "int64"), indice (['Student_lastname', 'Mark1', 'Mark2', 'Mark3'], dType = "Object")]Possiamo vedere che i nomi di riga e colonne sono stati restituiti.
PysPark - Pandas DataFrame: ndim ()
pyspark.panda.DataFrame.ndim ()
NDIM () nel Pyspark Pandas DataFrame viene utilizzato per restituire le dimensioni totali. Qui il Frame dati Pyspark Pandas contiene due dimensioni: riga e colonna. Quindi tornerà 2.
Sintassi
pyspark_pandas.ndimDove pyspark_pandas è il frame dati Pyspark Pandas.
Esempio
In questo esempio, otterremo le dimensioni totali dal Frame dati Pyspark Pandas.
Produzione
2PysPark - Pandas DataFrame: dTypes ()
pyspark.panda.DataFrame.dTypes ()
dTypes () in Pyspark Pandas DataFrame viene utilizzato per restituire i tipi di dati per tutte le colonne
Sintassi
pyspark_pandas.dtypesDove pyspark_pandas è il frame dati Pyspark Pandas.
Esempio
In questo esempio, otterremo i tipi di dati dal Frame dati Pyspark Pandas.
Produzione
Oggetto studente_lastnameÈ anche possibile ottenere il tipo di dati da una singola colonna.
Sintassi
Pyspark_pandas.colonna.dtypesDove la colonna è il nome della colonna
Esempio
In questo esempio, otterremo i tipi di dati della colonna Student_LastName e Mark1.
Produzione
oggettoConclusione
In questo tutorial Pyspark Pandas DataFrame, abbiamo visto diversi metodi per ottenere le informazioni sul frame dati.