PysPark - Pandas DataFrame rappresenta il Frame Data Pandas, ma contiene il Frame dati PysPark internamente.
Panda Support DataFrame Data Structure e Panda viene importato dal modulo PysPark.
Prima di allora, devi installare il modulo PysPark."
Comando
PIP Installa PysparkSintassi all'importazione
da Pyspark Import PandaSuccessivamente, possiamo creare o utilizzare il frame dati dal modulo Pandas.
Sintassi per creare Pandas DataFrame
pyspark.panda.DataFrame ()Possiamo passare un dizionario o un elenco di elenchi con valori.
Creiamo un frame dati Pandas tramite Pyspark che ha quattro colonne e cinque righe.
#import panda dal modulo pysparkProduzione
Ora andremo nel nostro tutorial.
Vediamoli uno per uno.
Pyspark - Pandas DataFrame: NSMallest ()
pyspark.panda.DataFrame.NSMallest ()NSMAllest () nel Pyspark Pandas DataFrame viene utilizzato per restituire le prime righe che sono minime in base alla colonna. Quindi restituirà le prime righe minime presenti nel Pyspark Pandas DataFrame. Ci vogliono due parametri.
Sintassi
pyspark_pandas.NSMallest (N, colonna)Parametri
Esempio 1
In questo esempio, otterremo le prime 2 righe minime in base alla colonna Mark1.
Produzione
Qui, 54 e 67 sono i primi 2 valori minimi (minimi) presenti nella colonna Mark1. Quindi sono state restituite 2 righe corrispondenti.
Esempio 2
In questo esempio, otterremo le prime 4 righe minime in base alla colonna Student_LastName.
Produzione
Qui, Chamundi, Hyna, Kapila e Lehara sono i primi 4 valori minimi (minimi) presenti nella colonna Student_Name. Quindi sono state restituite 4 file corrispondenti.
PysPark - Pandas DataFrame: nlargest ()
pyspark.panda.DataFrame.nlargest ()Nlargest () nel PysPark Pandas DataFrame viene utilizzato per restituire le prime righe che sono massime in base alla colonna. Quindi restituirà le prime righe massime presenti nel Pyspark Pandas DataFrame. Ci vogliono due parametri.
Sintassi
pyspark_pandas.nlargest (n, colonna)Parametri
Esempio 1
In questo esempio, otterremo le prime 2 righe massime in base alla colonna Mark1.
Produzione
Qui, 90 e 90 sono i primi 2 valori grandi (massimi) presenti nella colonna Mark1. Quindi sono state restituite 2 righe corrispondenti.
Esempio 2
In questo esempio, otterremo le prime 4 righe massime in base alla colonna Student_LastName.
Produzione
Qui, Manasa, Lehara, Kapila e Hyna sono i primi 4 valori (massimi) alti presenti nel nome Student_.colonna. Quindi sono state restituite 4 file corrispondenti.
Conclusione
In questo tutorial Pyspark Pandas DataFrame, abbiamo visto come ottenere i primi valori minimi e massimi utilizzando le funzioni NSMallest () e Nlargest (). Queste funzioni prendono il nome della colonna che restituirà le righe in base a questa colonna.