Pyspark SQL Caso quando

Artemide Ricci

Discuteremo di Pyspark - una significativa tecnologia di elaborazione dei dati in grado di gestire i dati su una scala di petabyte, Pyspark quando diversamente e SQL Case in Pyspark quando.

Cos'è Pyspark?

Spark è un motore di elaborazione distribuito per uso generale, in memoria, che consente di gestire i dati su più macchine in modo efficiente. È possibile sviluppare applicazioni Spark per elaborare i dati ed eseguirli sulla piattaforma Spark utilizzando PysPark. L'AWS offre EMR gestito e la piattaforma Spark. È possibile utilizzare pyspark per elaborare i dati e stabilire un cluster EMR su AWS. PysPark può leggere i dati da vari formati di file tra cui CSV, parquet, JSON e database. Poiché Spark è implementato principalmente in Scala, la creazione di App Spark in Scala o Java ti consente di accedere a più delle sue funzionalità che a scrivere programmi Spark in Python o R. Pyspark, ad esempio, attualmente non supporta il set di dati. Se stai facendo una scienza dei dati, Pyspark è un'opzione migliore di Scala perché ci sono molte biblioteche di scienze dei dati popolari scritte in Python come Numpy, Tensorflow e Scikit-Learn.

Pyspark "quando" e "altrimenti"

"Altrimenti" e "quando" in Pyspark e SQL Caso "Quando" lavora con DataFrame Pyspark, come SQL e altri linguaggi di programmazione, hanno un meccanismo di controllo di più condizioni in ordine e restituzione di un valore quando la prima condizione viene soddisfatta utilizzando SQL come SQL come SQL come SQL come SQL come SQL come SQL caso e Quando(). Altrimenti() Le espressioni sono simili alle dichiarazioni "switch" e "if-then-else" nella loro funzionalità.

Pyspark quando diversamente - Quando () è una funzione SQL che restituisce un tipo di colonna e altrimenti () è una funzione di colonna che produce nessuna/null, se altrimenti () non viene utilizzata.

Caso SQL in pyspark quando - Questo è simile a un'espressione SQL ed è usato come segue: se la condizione 1 è vera, allora il risultato è vero e viceversa.

Esempio 1

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17

Org di importazione.Apache.scintilla.SQL.funzioni.Quando
val df = seq (
("A B", "2019-01-19"),
("A A", "2019-01-10"),
("B F", "2019-01-15"),
("B E", "2019-01-30"),
("C B", "2019-01-22"),
("D O", "2019-01-30"),
("E U", "2019-01-22")
df.WithColumn ("ends_with_b", quando ($ "word".endswith ("b"), vero).altrimenti (falso))

Esempio 2

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17

Org di importazione.Apache.scintilla.SQL.funzioni.element_at, diviso, quando
val df = seq (
("BA", "Human"),
("AB", "Human"),
("E_bot", "bot"),
("D_bot", "bot"),
("TT", "Human"),
("A_bot", "bot"),
("C_bot", "bot")
).TODF ("utente", "tipo")
df.WithColumn ("isbot", quando ($ "utente".endswith ("bot"), element_at (split ($ "utente", "_"), 1)))

Conclusione

Abbiamo discusso di Pyspark, Pyspark quando, Pyspark altrimenti e SQL Case in Pyspark quando vengono utilizzati per controllare più condizioni e restituire il primo elemento che segue la condizione, insieme ad alcuni esempi.

Pitone

Eccursioni del conteggio dei pitone nell'elenco

Per contare le occorrenze in un elenco in Python, applicare il metodo Count (), la classe Counter, i...

Dante Palumbo

Pitone

Come usare XRange in Python

La funzione XRange () in Python 2.funzione x o intervallo () in python 3.x viene utilizzato per un'i...

Osea Martini

Pitone

Python trova l'indice di tutte le occorrenze in un elenco

La funzione per loop, enumerate (), metodo indice () o la funzione defaultDict () può essere utilizz...

Dr. Ursula Marini