Pyspark SQL Caso quando

Pyspark SQL Caso quando

Discuteremo di Pyspark - una significativa tecnologia di elaborazione dei dati in grado di gestire i dati su una scala di petabyte, Pyspark quando diversamente e SQL Case in Pyspark quando.

Cos'è Pyspark?

Spark è un motore di elaborazione distribuito per uso generale, in memoria, che consente di gestire i dati su più macchine in modo efficiente. È possibile sviluppare applicazioni Spark per elaborare i dati ed eseguirli sulla piattaforma Spark utilizzando PysPark. L'AWS offre EMR gestito e la piattaforma Spark. È possibile utilizzare pyspark per elaborare i dati e stabilire un cluster EMR su AWS. PysPark può leggere i dati da vari formati di file tra cui CSV, parquet, JSON e database. Poiché Spark è implementato principalmente in Scala, la creazione di App Spark in Scala o Java ti consente di accedere a più delle sue funzionalità che a scrivere programmi Spark in Python o R. Pyspark, ad esempio, attualmente non supporta il set di dati. Se stai facendo una scienza dei dati, Pyspark è un'opzione migliore di Scala perché ci sono molte biblioteche di scienze dei dati popolari scritte in Python come Numpy, Tensorflow e Scikit-Learn.

Pyspark "quando" e "altrimenti"

"Altrimenti" e "quando" in Pyspark e SQL Caso "Quando" lavora con DataFrame Pyspark, come SQL e altri linguaggi di programmazione, hanno un meccanismo di controllo di più condizioni in ordine e restituzione di un valore quando la prima condizione viene soddisfatta utilizzando SQL come SQL come SQL come SQL come SQL come SQL come SQL caso e Quando(). Altrimenti() Le espressioni sono simili alle dichiarazioni "switch" e "if-then-else" nella loro funzionalità.

Pyspark quando diversamente - Quando () è una funzione SQL che restituisce un tipo di colonna e altrimenti () è una funzione di colonna che produce nessuna/null, se altrimenti () non viene utilizzata.

Caso SQL in pyspark quando - Questo è simile a un'espressione SQL ed è usato come segue: se la condizione 1 è vera, allora il risultato è vero e viceversa.

Esempio 1

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
Org di importazione.Apache.scintilla.SQL.funzioni.Quando
val df = seq (
("A B", "2019-01-19"),
("A A", "2019-01-10"),
("B F", "2019-01-15"),
("B E", "2019-01-30"),
("C B", "2019-01-22"),
("D O", "2019-01-30"),
("E U", "2019-01-22")
df.WithColumn ("ends_with_b", quando ($ "word".endswith ("b"), vero).altrimenti (falso))

Esempio 2

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
Org di importazione.Apache.scintilla.SQL.funzioni.element_at, diviso, quando
val df = seq (
("BA", "Human"),
("AB", "Human"),
("E_bot", "bot"),
("D_bot", "bot"),
("TT", "Human"),
("A_bot", "bot"),
("C_bot", "bot")
).TODF ("utente", "tipo")
df.WithColumn ("isbot", quando ($ "utente".endswith ("bot"), element_at (split ($ "utente", "_"), 1)))

Conclusione

Abbiamo discusso di Pyspark, Pyspark quando, Pyspark altrimenti e SQL Case in Pyspark quando vengono utilizzati per controllare più condizioni e restituire il primo elemento che segue la condizione, insieme ad alcuni esempi.