PysPark - Pandas DataFrame NSMallest & Nlargest

Nestore Caruso

“In Python, Pyspark è un modulo Spark utilizzato per fornire un tipo di elaborazione simile come Spark usando DataFrame, che memorizzerà i dati forniti in formato di riga e colonna.

PysPark - Pandas DataFrame rappresenta il Frame Data Pandas, ma contiene il Frame dati PysPark internamente.

Panda Support DataFrame Data Structure e Panda viene importato dal modulo PysPark.

Prima di allora, devi installare il modulo PysPark."

Comando

PIP Installa Pyspark

Sintassi all'importazione

da Pyspark Import Panda

Successivamente, possiamo creare o utilizzare il frame dati dal modulo Pandas.

Sintassi per creare Pandas DataFrame

pyspark.panda.DataFrame ()

Possiamo passare un dizionario o un elenco di elenchi con valori.

Creiamo un frame dati Pandas tramite Pyspark che ha quattro colonne e cinque righe.

#import panda dal modulo pyspark
da Pyspark Import Panda
#Crea DataFrame da Pandas Pyspark
pyspark_pandas = pandas.DataFrame ('Student_LastName': ['Manasa', 'Chamundi', 'Lehara', 'Kapila', 'Hyna'], 'Mark1': [90,78,90,54,67], 'Mark2': [ 100,67,96,89,77], 'Mark3': [91,92,98,97,87])
#Schermo
Print (pyspark_pandas)

Produzione

Ora andremo nel nostro tutorial.

Vediamoli uno per uno.

Pyspark - Pandas DataFrame: NSMallest ()

pyspark.panda.DataFrame.NSMallest ()

NSMAllest () nel Pyspark Pandas DataFrame viene utilizzato per restituire le prime righe che sono minime in base alla colonna. Quindi restituirà le prime righe minime presenti nel Pyspark Pandas DataFrame. Ci vogliono due parametri.

Sintassi

pyspark_pandas.NSMallest (N, colonna)

Parametri

n viene utilizzato per restituire il numero di righe minime dall'intero Pyspark Panda in base alla colonna
La colonna si riferisce al nome della colonna presente nel Frame dati Pyspark Pandas.

Esempio 1
In questo esempio, otterremo le prime 2 righe minime in base alla colonna Mark1.

Produzione

Qui, 54 e 67 sono i primi 2 valori minimi (minimi) presenti nella colonna Mark1. Quindi sono state restituite 2 righe corrispondenti.

Esempio 2
In questo esempio, otterremo le prime 4 righe minime in base alla colonna Student_LastName.

Produzione

Qui, Chamundi, Hyna, Kapila e Lehara sono i primi 4 valori minimi (minimi) presenti nella colonna Student_Name. Quindi sono state restituite 4 file corrispondenti.

PysPark - Pandas DataFrame: nlargest ()

pyspark.panda.DataFrame.nlargest ()

Nlargest () nel PysPark Pandas DataFrame viene utilizzato per restituire le prime righe che sono massime in base alla colonna. Quindi restituirà le prime righe massime presenti nel Pyspark Pandas DataFrame. Ci vogliono due parametri.

Sintassi

pyspark_pandas.nlargest (n, colonna)

Parametri

n viene utilizzato per restituire il numero di righe massime dall'intero Pyspark Panda in base alla colonna
La colonna si riferisce al nome della colonna presente nel Frame dati Pyspark Pandas.

Esempio 1
In questo esempio, otterremo le prime 2 righe massime in base alla colonna Mark1.

Produzione

Qui, 90 e 90 sono i primi 2 valori grandi (massimi) presenti nella colonna Mark1. Quindi sono state restituite 2 righe corrispondenti.

Esempio 2
In questo esempio, otterremo le prime 4 righe massime in base alla colonna Student_LastName.

Produzione

Qui, Manasa, Lehara, Kapila e Hyna sono i primi 4 valori (massimi) alti presenti nel nome Student_.colonna. Quindi sono state restituite 4 file corrispondenti.

Conclusione

In questo tutorial Pyspark Pandas DataFrame, abbiamo visto come ottenere i primi valori minimi e massimi utilizzando le funzioni NSMallest () e Nlargest (). Queste funzioni prendono il nome della colonna che restituirà le righe in base a questa colonna.

Oracle Database

Oracle Fusion considerato migliore di SAP?

Oracle Fusion (ERP basato su cloud) ha un'interfaccia intuitiva, mentre SAP (Cloud e locale ERP) è s...

Sig. Valdo Marchetti

Docker

Come vengono definiti i volumi in Docker composi yaml?

I volumi sono definiti utilizzando il tasto Volumi nel file YAML di Docker. Gli utenti possono defin...

Nunzia Martini

Golang

Introduzione al linguaggio di programmazione di Golang

Golang è un linguaggio di programmazione open source sviluppato da Google. Segui questo articolo per...

Nick Marini