Pyspark - Serie Pandas NSMallest & Nlargest

Pyspark - Serie Pandas NSMallest & Nlargest

“In Python, Pyspark è un modulo Spark utilizzato per fornire un tipo di elaborazione simile come Spark Using Series, che memorizzerà i dati dati in un array (colonna in Pyspark internamente).

Pyspark - La serie Pandas rappresenta la serie Pandas, ma contiene la colonna Pyspark internamente.

Struttura dei dati della serie di supporto Panda e Panda viene importato dal modulo Pyspark.

Prima di allora, devi installare il modulo PysPark."

Comando

PIP Installa Pyspark

Sintassi all'importazione

da Pyspark Import Panda

Successivamente, possiamo creare o utilizzare la serie dal modulo Pandas.

Sintassi per creare serie Pandas

pyspark.panda.Serie()

Possiamo passare un elenco o un elenco di elenchi con valori.

Creiamo una serie Pandas tramite Pyspark che ha cinque valori numerici.

#import panda dal modulo pyspark
da Pyspark Import Panda
#create serie con 5 elementi
pyspark_series = panda.Serie ([90,56,78,54,0])
Stampa (pyspark_series)

Produzione

Ora andremo nel nostro tutorial.

pyspark.panda.Serie.NSMallest ()

NSMAllest () nella serie Pyspark Pandas viene utilizzato per restituire i primi valori minimi. Semplicemente, restituirà i primi valori più piccoli dalla serie di valori. Ci vuole un parametro.

Sintassi

pyspark_series.NSMallest (N)

Dove pyspark_series è la serie Pyspark Pandas

Parametro
n viene utilizzato per restituire il numero di valori minimi dall'intera serie Pyspark in base alla colonna

Esempio 1
Restituisci i primi 2 valori più piccoli dalla serie Pyspark Pandas.

#import panda dal modulo pyspark
da Pyspark Import Panda
#create serie con 5 elementi
pyspark_series = panda.Serie ([90,56,78,54,0])
#return Primi 2 piccoli valori
Stampa (pyspark_series.NSMallest (2))

Produzione

I primi 2 piccoli valori sono 0 e 54.

Esempio 2
Restituisce i primi 4 valori più piccoli dalla serie Pyspark Pandas.

#import panda dal modulo pyspark
da Pyspark Import Panda
#create serie con 5 elementi
pyspark_series = panda.Serie ([90,56,78,54,0])
#return Primi 4 piccoli valori
Stampa (pyspark_series.NSMallest (4))

Produzione

I primi 4 piccoli valori sono 0, 54, 56 e 78.

pyspark.panda.Serie.nlargest ()

nlargest () nella serie Pyspark Pandas viene utilizzato per restituire i primi valori che sono massimi. Semplicemente, restituirà i primi più grandi valori dalla serie di valori. Ci vuole un parametro.

Sintassi

pyspark_series.nlargest (n)

Dove pyspark_series è la serie Pyspark Pandas

Parametro
n viene utilizzato per restituire il numero di valori massimi dall'intera serie PysPark in base alla colonna

Esempio 1
Restituisci i primi 2 più grandi valori dalla serie Pyspark Pandas.

#import panda dal modulo pyspark
da Pyspark Import Panda
#create serie con 5 elementi
pyspark_series = panda.Serie ([90,56,78,54,0])
#return Primi 2 valori grandi
Stampa (pyspark_series.nlargest (2))

Produzione

I primi 2 valori grandi sono 90 e 78.

Esempio 2
Restituisci i primi 4 più grandi valori dalla serie Pyspark Pandas.

#import panda dal modulo pyspark
da Pyspark Import Panda
#create serie con 5 elementi
pyspark_series = panda.Serie ([90,56,78,54,0])
#return Primi 4 valori di grandi dimensioni
Stampa (pyspark_series.nlargest (4))

Produzione

I primi 4 piccoli valori sono 90,78,56 e 54.

Conclusione

In questo tutorial sulla serie Pyspark Panda, abbiamo visto come ottenere i primi valori minimi e massimi usando le funzioni NSMallest () e Nlargest (). Queste funzioni prendono un parametro che si riferisce al numero di righe da restituire (righe minime per nsMallest () e righe massime per nlargest ()).