PysPark - Pandas DataFrame NSMallest & Nlargest

PysPark - Pandas DataFrame NSMallest & Nlargest
“In Python, Pyspark è un modulo Spark utilizzato per fornire un tipo di elaborazione simile come Spark usando DataFrame, che memorizzerà i dati forniti in formato di riga e colonna.

PysPark - Pandas DataFrame rappresenta il Frame Data Pandas, ma contiene il Frame dati PysPark internamente.

Panda Support DataFrame Data Structure e Panda viene importato dal modulo PysPark.

Prima di allora, devi installare il modulo PysPark."

Comando

PIP Installa Pyspark

Sintassi all'importazione

da Pyspark Import Panda

Successivamente, possiamo creare o utilizzare il frame dati dal modulo Pandas.

Sintassi per creare Pandas DataFrame

pyspark.panda.DataFrame ()

Possiamo passare un dizionario o un elenco di elenchi con valori.

Creiamo un frame dati Pandas tramite Pyspark che ha quattro colonne e cinque righe.

#import panda dal modulo pyspark
da Pyspark Import Panda
#Crea DataFrame da Pandas Pyspark
pyspark_pandas = pandas.DataFrame ('Student_LastName': ['Manasa', 'Chamundi', 'Lehara', 'Kapila', 'Hyna'], 'Mark1': [90,78,90,54,67], 'Mark2': [ 100,67,96,89,77], 'Mark3': [91,92,98,97,87])
#Schermo
Print (pyspark_pandas)

Produzione

Ora andremo nel nostro tutorial.

Vediamoli uno per uno.

Pyspark - Pandas DataFrame: NSMallest ()

pyspark.panda.DataFrame.NSMallest ()

NSMAllest () nel Pyspark Pandas DataFrame viene utilizzato per restituire le prime righe che sono minime in base alla colonna. Quindi restituirà le prime righe minime presenti nel Pyspark Pandas DataFrame. Ci vogliono due parametri.

Sintassi

pyspark_pandas.NSMallest (N, colonna)

Parametri

  1. n viene utilizzato per restituire il numero di righe minime dall'intero Pyspark Panda in base alla colonna
  2. La colonna si riferisce al nome della colonna presente nel Frame dati Pyspark Pandas.

Esempio 1
In questo esempio, otterremo le prime 2 righe minime in base alla colonna Mark1.

#import panda dal modulo pyspark
da Pyspark Import Panda
#Crea DataFrame da Pandas Pyspark
pyspark_pandas = pandas.DataFrame ('Student_LastName': ['Manasa', 'Chamundi', 'Lehara', 'Kapila', 'Hyna'], 'Mark1': [90,78,90,54,67], 'Mark2': [ 100,67,96,89,77], 'Mark3': [91,92,98,97,87])
#get prima 2 righe minime in base alla colonna Mark1
Print (pyspark_pandas.NSMallest (2, "Mark1"))

Produzione

Qui, 54 e 67 sono i primi 2 valori minimi (minimi) presenti nella colonna Mark1. Quindi sono state restituite 2 righe corrispondenti.

Esempio 2
In questo esempio, otterremo le prime 4 righe minime in base alla colonna Student_LastName.

#import panda dal modulo pyspark
da Pyspark Import Panda
#Crea DataFrame da Pandas Pyspark
pyspark_pandas = pandas.DataFrame ('Student_LastName': ['Manasa', 'Chamundi', 'Lehara', 'Kapila', 'Hyna'], 'Mark1': [90,78,90,54,67], 'Mark2': [ 100,67,96,89,77], 'Mark3': [91,92,98,97,87])
#get prima 4 righe minime in base alla colonna Student_LastName
Print (pyspark_pandas.NSMallest (4, "Student_LastName")

Produzione

Qui, Chamundi, Hyna, Kapila e Lehara sono i primi 4 valori minimi (minimi) presenti nella colonna Student_Name. Quindi sono state restituite 4 file corrispondenti.

PysPark - Pandas DataFrame: nlargest ()

pyspark.panda.DataFrame.nlargest ()

Nlargest () nel PysPark Pandas DataFrame viene utilizzato per restituire le prime righe che sono massime in base alla colonna. Quindi restituirà le prime righe massime presenti nel Pyspark Pandas DataFrame. Ci vogliono due parametri.

Sintassi

pyspark_pandas.nlargest (n, colonna)

Parametri

  1. n viene utilizzato per restituire il numero di righe massime dall'intero Pyspark Panda in base alla colonna
  2. La colonna si riferisce al nome della colonna presente nel Frame dati Pyspark Pandas.

Esempio 1
In questo esempio, otterremo le prime 2 righe massime in base alla colonna Mark1.

#import panda dal modulo pyspark
da Pyspark Import Panda
#Crea DataFrame da Pandas Pyspark
pyspark_pandas = pandas.DataFrame ('Student_LastName': ['Manasa', 'Chamundi', 'Lehara', 'Kapila', 'Hyna'], 'Mark1': [90,78,90,54,67], 'Mark2': [ 100,67,96,89,77], 'Mark3': [91,92,98,97,87])
#get prima 2 righe massime in base alla colonna Mark1
Print (pyspark_pandas.nlargest (2, "mark1"))

Produzione

Qui, 90 e 90 sono i primi 2 valori grandi (massimi) presenti nella colonna Mark1. Quindi sono state restituite 2 righe corrispondenti.

Esempio 2
In questo esempio, otterremo le prime 4 righe massime in base alla colonna Student_LastName.

#import panda dal modulo pyspark
da Pyspark Import Panda
#Crea DataFrame da Pandas Pyspark
pyspark_pandas = pandas.DataFrame ('Student_LastName': ['Manasa', 'Chamundi', 'Lehara', 'Kapila', 'Hyna'], 'Mark1': [90,78,90,54,67], 'Mark2': [ 100,67,96,89,77], 'Mark3': [91,92,98,97,87])
#get prima 4 righe massime in base alla colonna Student_LastName
Print (pyspark_pandas.nlargest (4, "Student_LastName"))

Produzione

Qui, Manasa, Lehara, Kapila e Hyna sono i primi 4 valori (massimi) alti presenti nel nome Student_.colonna. Quindi sono state restituite 4 file corrispondenti.

Conclusione

In questo tutorial Pyspark Pandas DataFrame, abbiamo visto come ottenere i primi valori minimi e massimi utilizzando le funzioni NSMallest () e Nlargest (). Queste funzioni prendono il nome della colonna che restituirà le righe in base a questa colonna.