Pyspark - Operatori di confronto di dati Pandas

Pyspark - Operatori di confronto di dati Pandas
In Python, Pyspark è un modulo Spark che fornisce un tipo simile di elaborazione come Spark usando DataFrame, che memorizzerà i dati forniti in formato di riga e colonna. PysPark - Pandas DataFrame rappresenta il Frame Data Pandas, ma contiene il Frame dati PysPark internamente. Panda Support DataFrame Data Structure e Panda viene importato dal modulo PysPark.

In questo articolo dimostreremo gli operatori di confronto di dati Pandas e come possono essere utilizzati in Pyspark. Prima di allora, devi installare il modulo PysPark come mostrato di seguito:

Comando

PIP Installa Pyspark

Sintassi all'importazione

da Pyspark Import Panda

Successivamente, possiamo creare o utilizzare il frame dati dal modulo Pandas.

Sintassi per creare Pandas DataFrame

pyspark.panda.DataFrame ()

Possiamo passare un dizionario o un elenco di elenchi con valori. Creiamo un frame dati Pandas tramite Pyspark con tre colonne e cinque righe.

#import panda dal modulo pyspark
da Pyspark Import Panda
#Crea DataFrame da Pandas Pyspark
pyspark_pandas = pandas.DataFrame ('Mark1': [90,78,90,54,67], 'Mark2': [100,67,96,89,77], 'Mark3': [91,92,98,97,87] )
#Schermo
Print (pyspark_pandas)

Produzione

Ora andremo nel nostro tutorial.

Gli operatori di confronto sono usati per confrontare tutti i valori nel frame dati Pyspark Pandas con un valore. Restituisce vero se la condizione è soddisfatta; altrimenti restituirà false per tutti i valori in un frame di dati.

Vediamoli uno per uno.

pyspark.panda.DataFrame.LT (meno dell'operatore)

Questo operatore di confronto viene utilizzato per verificare se tutti i valori nel determinato Frame di dati di Pyspark Pandas sono inferiori al valore dato. Se sì, restituirà vero per quel valore; Altrimenti, False viene restituito.

È anche possibile utilizzare<' - less than operator.

Sintassi

pyspark_pandas.LT (valore)
pyspark_pandasDove pyspark_pandas è il frame dati Pyspark Pandas.

Parametro
Prende il valore come parametro che si riferisce a un valore numerico.

EsempioIn questo esempio, confronteremo il frame dati creato sopra con il valore - 75 utilizzando LT e < operators.

#import panda dal modulo pyspark
da Pyspark Import Panda
#Crea DataFrame da Pandas Pyspark
pyspark_pandas = pandas.DataFrame ('Mark1': [90,78,90,54,67], 'Mark2': [100,67,96,89,77], 'Mark3': [91,92,98,97,87] )
#Check Tutti i valori nel frame dati sopra sono inferiori a 75
Print (pyspark_pandas.LT (75))
stampa()
#Check Tutti i valori nel frame dati sopra sono inferiori a 75
Print (pyspark_pandas<75)

Produzione

Entrambi gli operatori hanno restituito lo stesso, e secondo la condizione, i valori inferiori a 75 sono tornati veri e in altri casi, ha restituito falso.

pyspark.panda.DataFrame.LE (operatore meno o uguale)

Le è l'operatore di confronto utilizzato per verificare se tutti i valori nel determinato telaio di dati Pyspark Panda sono inferiori o uguali al valore dato. Se sì, restituirà vero per quel valore; Altrimenti, False viene restituito.

È anche possibile utilizzare<=' - less than or equal to operator.

Sintassi

pyspark_pandas.Le (valore)
pyspark_pandas<=value

Dove pyspark_pandas è il frame dati Pyspark Pandas.

Parametro
Prende il valore come parametro che si riferisce a un valore numerico.

Esempio
In questo esempio, confronteremo il frame dati creato sopra con il valore - 75 usando Le e <= operators.

#import panda dal modulo pyspark
da Pyspark Import Panda
#Crea DataFrame da Pandas Pyspark
pyspark_pandas = pandas.DataFrame ('Mark1': [90,78,90,54,67], 'Mark2': [100,67,96,89,77], 'Mark3': [91,92,98,97,87] )
#Check Tutti i valori nel frame dati sopra sono inferiori o uguali a 75
Print (pyspark_pandas.Le (75))
stampa()
#Check Tutti i valori nel frame dati sopra sono inferiori o uguali a 75
Print (pyspark_pandas<=75)

Produzione

Entrambi gli operatori hanno restituito lo stesso, e secondo la condizione, i valori inferiori o uguali a 75 sono tornati veri e in altri casi, ha restituito Falso.

pyspark.panda.DataFrame.GT (maggiore dell'operatore)

Questo operatore di confronto viene utilizzato per verificare se tutti i valori nel determinato telaio Pandas Pyspark sono maggiori del valore dato. Se sì, restituirà vero per quel valore; Altrimenti, False viene restituito.

È anche possibile utilizzare '>' - maggiore dell'operatore.

Sintassi

pyspark_pandas.GT (valore)
pyspark_pandas> valore

Dove pyspark_pandas è il frame dati Pyspark Pandas.

Parametro
Prende il valore come parametro che si riferisce a un valore numerico.

Esempio
In questo esempio, confronteremo il frame dati creato sopra con il valore - 75 utilizzando gli operatori GT e>.

#import panda dal modulo pyspark
da Pyspark Import Panda
#Crea DataFrame da Pandas Pyspark
pyspark_pandas = pandas.DataFrame ('Mark1': [90,78,90,54,67], 'Mark2': [100,67,96,89,77], 'Mark3': [91,92,98,97,87] )
#Check Tutti i valori nel frame dati sopra sono superiori a 75
Print (pyspark_pandas.GT (75))
stampa()
#Check Tutti i valori nel frame dati sopra sono superiori a 75
Stampa (pyspark_pandas> 75)

Produzione

Entrambi gli operatori hanno restituito lo stesso, e secondo la condizione, i valori superiori a 75 hanno restituito vero e in altri casi, ha restituito Falso Falso.

pyspark.panda.DataFrame.GE (operatore maggiore o uguale)

GE è l'operatore di confronto utilizzato per verificare se tutti i valori nel determinato telaio Pandas Pyspark sono maggiori o uguali al valore dato. Se sì, restituirà vero per quel valore; Altrimenti, False viene restituito.

È anche possibile utilizzare '> =' - maggiore o uguale all'operatore.

Sintassi

pyspark_pandas.ge (valore)
pyspark_pandas> = valore

Dove pyspark_pandas è il frame dati Pyspark Pandas.

Parametro
Prende il valore come parametro che si riferisce a un valore numerico.

Esempio
In questo esempio, confronteremo il frame dati creato sopra con il valore - 75 utilizzando GE e> = operatori.

#import panda dal modulo pyspark
da Pyspark Import Panda
#Crea DataFrame da Pandas Pyspark
pyspark_pandas = pandas.DataFrame ('Mark1': [90,78,90,54,67], 'Mark2': [100,67,96,89,77], 'Mark3': [91,92,98,97,87] )
#Check Tutti i valori nel frame dati sopra sono maggiori o uguali a 75
Print (pyspark_pandas.GE (75))
stampa()
#Check Tutti i valori nel frame dati sopra sono maggiori o uguali a 75
print (pyspark_pandas> = 75)

Produzione

Entrambi gli operatori hanno restituito lo stesso, e in base alla condizione, valori maggiori o uguali a 75 sono tornati vere e, in altri casi, ha restituito Falso.

pyspark.panda.DataFrame.EQ (Equality Logical Operator)

L'EQ è l'operatore di confronto utilizzato per verificare se tutti i valori nel determinato telaio Pandas Pyspark sono uguali al valore dato. Se sì, restituirà vero per quel valore; Altrimenti, False viene restituito.

È anche possibile utilizzare '==' - uguale all'operatore.

Sintassi

pyspark_pandas.EQ (valore)
valore pyspark_pandas ==

Dove pyspark_pandas è il frame dati Pyspark Pandas.

Parametro
Prende il valore come parametro che si riferisce a un valore numerico.

Esempio
In questo esempio, confronteremo il frame dati creato sopra con il valore - 97 utilizzando gli operatori EQ e ==.

#import panda dal modulo pyspark
da Pyspark Import Panda
#Crea DataFrame da Pandas Pyspark
pyspark_pandas = pandas.DataFrame ('Mark1': [90,78,90,54,67], 'Mark2': [100,67,96,89,77], 'Mark3': [91,92,98,97,87] )
#Check Tutti i valori nel frame dati sopra sono uguali a 97
Print (pyspark_pandas.Eq (97))
stampa()
#Check Tutti i valori nel frame dati sopra sono uguali a 97
print (pyspark_pandas == 97)

Produzione

Entrambi gli operatori hanno restituito lo stesso, e secondo la condizione, i valori pari a 97 hanno restituito vero e in altri casi, ha restituito Falso Falso.

pyspark.panda.DataFrame.NE (non uguale all'operatore)

NE è l'operatore di confronto utilizzato per verificare se tutti i valori nel data frame di dati Pyspark Pandas non sono uguali al valore dato. Se sì, restituirà vero per quel valore; Altrimenti, False viene restituito.

È anche possibile utilizzare!= ' - Non uguale all'operatore.

Sintassi

pyspark_pandas.NE (valore)
pyspark_pandas!= valore

Dove pyspark_pandas è il frame dati Pyspark Pandas.

Parametro
Prende il valore come parametro che si riferisce a un valore numerico.

Esempio
In questo esempio, confronteremo il frame dati creato sopra con il valore - 97 utilizzando NE e != operatori.

#import panda dal modulo pyspark
da Pyspark Import Panda
#Crea DataFrame da Pandas Pyspark
pyspark_pandas = pandas.DataFrame ('Mark1': [90,78,90,54,67], 'Mark2': [100,67,96,89,77], 'Mark3': [91,92,98,97,87] )
#Check Tutti i valori nel frame dati sopra non sono uguali a 97
Print (pyspark_pandas.NE (97))
stampa()
#Check Tutti i valori nel frame dati sopra non sono uguali a 97
Print (pyspark_pandas!= 97)

Produzione

Entrambi gli operatori hanno restituito lo stesso, e secondo la condizione, i valori non sono uguali a 97 restituiti veri e in altri casi, ha restituito Falso.

Conclusione

In questo articolo di Pyspark Pandas vediamo come applicare diversi operatori di confronto su dati tramite operatori integrati e operatori normali. Ogni operatore restituisce un valore booleano nell'elemento DataFrame Pyspark Pandas saggio. Gli operatori di confronto che abbiamo usato sono: eq (), ne (), lt (), gt (), le () e ge ().