Discuteremo di Pyspark - una significativa tecnologia di elaborazione dei dati in grado di gestire i dati su una scala di petabyte, Pyspark quando diversamente e SQL Case in Pyspark quando.
Cos'è Pyspark?
Spark è un motore di elaborazione distribuito per uso generale, in memoria, che consente di gestire i dati su più macchine in modo efficiente. È possibile sviluppare applicazioni Spark per elaborare i dati ed eseguirli sulla piattaforma Spark utilizzando PysPark. L'AWS offre EMR gestito e la piattaforma Spark. È possibile utilizzare pyspark per elaborare i dati e stabilire un cluster EMR su AWS. PysPark può leggere i dati da vari formati di file tra cui CSV, parquet, JSON e database. Poiché Spark è implementato principalmente in Scala, la creazione di App Spark in Scala o Java ti consente di accedere a più delle sue funzionalità che a scrivere programmi Spark in Python o R. Pyspark, ad esempio, attualmente non supporta il set di dati. Se stai facendo una scienza dei dati, Pyspark è un'opzione migliore di Scala perché ci sono molte biblioteche di scienze dei dati popolari scritte in Python come Numpy, Tensorflow e Scikit-Learn.
Pyspark "quando" e "altrimenti"
"Altrimenti" e "quando" in Pyspark e SQL Caso "Quando" lavora con DataFrame Pyspark, come SQL e altri linguaggi di programmazione, hanno un meccanismo di controllo di più condizioni in ordine e restituzione di un valore quando la prima condizione viene soddisfatta utilizzando SQL come SQL come SQL come SQL come SQL come SQL come SQL caso e Quando(). Altrimenti() Le espressioni sono simili alle dichiarazioni "switch" e "if-then-else" nella loro funzionalità.
Pyspark quando diversamente - Quando () è una funzione SQL che restituisce un tipo di colonna e altrimenti () è una funzione di colonna che produce nessuna/null, se altrimenti () non viene utilizzata.
Caso SQL in pyspark quando - Questo è simile a un'espressione SQL ed è usato come segue: se la condizione 1 è vera, allora il risultato è vero e viceversa.
Esempio 1
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 | Org di importazione.Apache.scintilla.SQL.funzioni.Quando val df = seq ( ("A B", "2019-01-19"), ("A A", "2019-01-10"), ("B F", "2019-01-15"), ("B E", "2019-01-30"), ("C B", "2019-01-22"), ("D O", "2019-01-30"), ("E U", "2019-01-22") df.WithColumn ("ends_with_b", quando ($ "word".endswith ("b"), vero).altrimenti (falso)) |
Esempio 2
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 | Org di importazione.Apache.scintilla.SQL.funzioni.element_at, diviso, quando val df = seq ( ("BA", "Human"), ("AB", "Human"), ("E_bot", "bot"), ("D_bot", "bot"), ("TT", "Human"), ("A_bot", "bot"), ("C_bot", "bot") ).TODF ("utente", "tipo") df.WithColumn ("isbot", quando ($ "utente".endswith ("bot"), element_at (split ($ "utente", "_"), 1))) |
Conclusione
Abbiamo discusso di Pyspark, Pyspark quando, Pyspark altrimenti e SQL Case in Pyspark quando vengono utilizzati per controllare più condizioni e restituire il primo elemento che segue la condizione, insieme ad alcuni esempi.