“In Python, Pyspark è un modulo Spark utilizzato per fornire un tipo di elaborazione simile come Spark Using Series, che memorizzerà i dati dati in un array (colonna in Pyspark internamente).
Pyspark - La serie Pandas rappresenta la serie Pandas, ma contiene la colonna Pyspark internamente.
Struttura dei dati della serie di supporto Panda e Panda viene importato dal modulo Pyspark.
Prima di allora, devi installare il modulo PysPark."
Comando
PIP Installa Pyspark
Sintassi all'importazione
da Pyspark Import PandaSuccessivamente, possiamo creare o utilizzare la serie dal modulo Pandas.
Sintassi per creare serie Pandas
pyspark.panda.Serie()Possiamo passare un elenco o un elenco di elenchi con valori.
Creiamo una serie Pandas tramite Pyspark che ha cinque valori numerici.
#import panda dal modulo pysparkProduzione
Ora andremo nel nostro tutorial.
pyspark.panda.Serie.NSMallest ()NSMAllest () nella serie Pyspark Pandas viene utilizzato per restituire i primi valori minimi. Semplicemente, restituirà i primi valori più piccoli dalla serie di valori. Ci vuole un parametro.
Sintassi
pyspark_series.NSMallest (N)Dove pyspark_series è la serie Pyspark Pandas
Parametro
n viene utilizzato per restituire il numero di valori minimi dall'intera serie Pyspark in base alla colonna
Esempio 1
Restituisci i primi 2 valori più piccoli dalla serie Pyspark Pandas.
Produzione
I primi 2 piccoli valori sono 0 e 54.
Esempio 2
Restituisce i primi 4 valori più piccoli dalla serie Pyspark Pandas.
Produzione
I primi 4 piccoli valori sono 0, 54, 56 e 78.
pyspark.panda.Serie.nlargest ()nlargest () nella serie Pyspark Pandas viene utilizzato per restituire i primi valori che sono massimi. Semplicemente, restituirà i primi più grandi valori dalla serie di valori. Ci vuole un parametro.
Sintassi
pyspark_series.nlargest (n)Dove pyspark_series è la serie Pyspark Pandas
Parametro
n viene utilizzato per restituire il numero di valori massimi dall'intera serie PysPark in base alla colonna
Esempio 1
Restituisci i primi 2 più grandi valori dalla serie Pyspark Pandas.
Produzione
I primi 2 valori grandi sono 90 e 78.
Esempio 2
Restituisci i primi 4 più grandi valori dalla serie Pyspark Pandas.
Produzione
I primi 4 piccoli valori sono 90,78,56 e 54.
Conclusione
In questo tutorial sulla serie Pyspark Panda, abbiamo visto come ottenere i primi valori minimi e massimi usando le funzioni NSMallest () e Nlargest (). Queste funzioni prendono un parametro che si riferisce al numero di righe da restituire (righe minime per nsMallest () e righe massime per nlargest ()).