In questo articolo dimostreremo gli operatori di confronto di dati Pandas e come possono essere utilizzati in Pyspark. Prima di allora, devi installare il modulo PysPark come mostrato di seguito:
Comando
PIP Installa PysparkSintassi all'importazione
da Pyspark Import PandaSuccessivamente, possiamo creare o utilizzare il frame dati dal modulo Pandas.
Sintassi per creare Pandas DataFrame
pyspark.panda.DataFrame ()Possiamo passare un dizionario o un elenco di elenchi con valori. Creiamo un frame dati Pandas tramite Pyspark con tre colonne e cinque righe.
#import panda dal modulo pysparkProduzione
Ora andremo nel nostro tutorial.
Gli operatori di confronto sono usati per confrontare tutti i valori nel frame dati Pyspark Pandas con un valore. Restituisce vero se la condizione è soddisfatta; altrimenti restituirà false per tutti i valori in un frame di dati.
Vediamoli uno per uno.
pyspark.panda.DataFrame.LT (meno dell'operatore)
Questo operatore di confronto viene utilizzato per verificare se tutti i valori nel determinato Frame di dati di Pyspark Pandas sono inferiori al valore dato. Se sì, restituirà vero per quel valore; Altrimenti, False viene restituito.
È anche possibile utilizzare<' - less than operator.
Sintassi
pyspark_pandas.LT (valore)Parametro
Prende il valore come parametro che si riferisce a un valore numerico.
EsempioIn questo esempio, confronteremo il frame dati creato sopra con il valore - 75 utilizzando LT e < operators.
#import panda dal modulo pysparkProduzione
Entrambi gli operatori hanno restituito lo stesso, e secondo la condizione, i valori inferiori a 75 sono tornati veri e in altri casi, ha restituito falso.
pyspark.panda.DataFrame.LE (operatore meno o uguale)
Le è l'operatore di confronto utilizzato per verificare se tutti i valori nel determinato telaio di dati Pyspark Panda sono inferiori o uguali al valore dato. Se sì, restituirà vero per quel valore; Altrimenti, False viene restituito.
È anche possibile utilizzare<=' - less than or equal to operator.
Sintassi
pyspark_pandas.Le (valore)Dove pyspark_pandas è il frame dati Pyspark Pandas.
Parametro
Prende il valore come parametro che si riferisce a un valore numerico.
Esempio
In questo esempio, confronteremo il frame dati creato sopra con il valore - 75 usando Le e <= operators.
Produzione
Entrambi gli operatori hanno restituito lo stesso, e secondo la condizione, i valori inferiori o uguali a 75 sono tornati veri e in altri casi, ha restituito Falso.
pyspark.panda.DataFrame.GT (maggiore dell'operatore)
Questo operatore di confronto viene utilizzato per verificare se tutti i valori nel determinato telaio Pandas Pyspark sono maggiori del valore dato. Se sì, restituirà vero per quel valore; Altrimenti, False viene restituito.
È anche possibile utilizzare '>' - maggiore dell'operatore.
Sintassi
pyspark_pandas.GT (valore)Dove pyspark_pandas è il frame dati Pyspark Pandas.
Parametro
Prende il valore come parametro che si riferisce a un valore numerico.
Esempio
In questo esempio, confronteremo il frame dati creato sopra con il valore - 75 utilizzando gli operatori GT e>.
Produzione
Entrambi gli operatori hanno restituito lo stesso, e secondo la condizione, i valori superiori a 75 hanno restituito vero e in altri casi, ha restituito Falso Falso.
pyspark.panda.DataFrame.GE (operatore maggiore o uguale)
GE è l'operatore di confronto utilizzato per verificare se tutti i valori nel determinato telaio Pandas Pyspark sono maggiori o uguali al valore dato. Se sì, restituirà vero per quel valore; Altrimenti, False viene restituito.
È anche possibile utilizzare '> =' - maggiore o uguale all'operatore.
Sintassi
pyspark_pandas.ge (valore)Dove pyspark_pandas è il frame dati Pyspark Pandas.
Parametro
Prende il valore come parametro che si riferisce a un valore numerico.
Esempio
In questo esempio, confronteremo il frame dati creato sopra con il valore - 75 utilizzando GE e> = operatori.
Produzione
Entrambi gli operatori hanno restituito lo stesso, e in base alla condizione, valori maggiori o uguali a 75 sono tornati vere e, in altri casi, ha restituito Falso.
pyspark.panda.DataFrame.EQ (Equality Logical Operator)
L'EQ è l'operatore di confronto utilizzato per verificare se tutti i valori nel determinato telaio Pandas Pyspark sono uguali al valore dato. Se sì, restituirà vero per quel valore; Altrimenti, False viene restituito.
È anche possibile utilizzare '==' - uguale all'operatore.
Sintassi
pyspark_pandas.EQ (valore)Dove pyspark_pandas è il frame dati Pyspark Pandas.
Parametro
Prende il valore come parametro che si riferisce a un valore numerico.
Esempio
In questo esempio, confronteremo il frame dati creato sopra con il valore - 97 utilizzando gli operatori EQ e ==.
Produzione
Entrambi gli operatori hanno restituito lo stesso, e secondo la condizione, i valori pari a 97 hanno restituito vero e in altri casi, ha restituito Falso Falso.
pyspark.panda.DataFrame.NE (non uguale all'operatore)
NE è l'operatore di confronto utilizzato per verificare se tutti i valori nel data frame di dati Pyspark Pandas non sono uguali al valore dato. Se sì, restituirà vero per quel valore; Altrimenti, False viene restituito.
È anche possibile utilizzare!= ' - Non uguale all'operatore.
Sintassi
pyspark_pandas.NE (valore)Dove pyspark_pandas è il frame dati Pyspark Pandas.
Parametro
Prende il valore come parametro che si riferisce a un valore numerico.
Esempio
In questo esempio, confronteremo il frame dati creato sopra con il valore - 97 utilizzando NE e != operatori.
Produzione
Entrambi gli operatori hanno restituito lo stesso, e secondo la condizione, i valori non sono uguali a 97 restituiti veri e in altri casi, ha restituito Falso.
Conclusione
In questo articolo di Pyspark Pandas vediamo come applicare diversi operatori di confronto su dati tramite operatori integrati e operatori normali. Ogni operatore restituisce un valore booleano nell'elemento DataFrame Pyspark Pandas saggio. Gli operatori di confronto che abbiamo usato sono: eq (), ne (), lt (), gt (), le () e ge ().