Impareremo sulla biblioteca Pyspark in questa sessione. È un motore di elaborazione distribuito per uso generale, in memoria, che consente di gestire efficacemente i dati su diverse stazioni di lavoro. Impareremo anche il metodo Pyspark Fillna () che viene utilizzato per riempire i valori null nel frame dati con un valore personalizzato, insieme ai suoi esempi.
Cos'è Pyspark?
Pyspark è una delle lingue supportate da Spark. Spark è una tecnologia di elaborazione dei dati di grandi dimensioni in grado di gestire i dati su una scala di petabyte. Pyspark è una cooperazione Apache Spark e Python. Python è un moderno linguaggio di programmazione di alto livello, mentre Apache Spark è una source aperta che si concentra su compiti computazionali di cluster e principalmente mira a velocità, facilità d'uso e analisi di streaming. Poiché Spark è per lo più incorporato in Scala, la creazione di App Spark in Scala o Java ti consente di accedere a più delle sue capacità che a scrivere programmi Spark in Python o R. Pyspark, ad esempio, attualmente non supporta il set di dati. È possibile sviluppare applicazioni Spark per elaborare i dati e lanciarli sulla piattaforma Spark utilizzando PysPark. L'AWS offre l'EMR gestito e la piattaforma Spark.
Se stai facendo una scienza dei dati, Pyspark è un'opzione migliore di Scala perché ci sono molte biblioteche di scienze dei dati popolari scritte in Python come Numpy, Tensorflow e Scikit-Learn. È possibile utilizzare pyspark per elaborare i dati e stabilire un cluster EMR su AWS. PysPark può leggere i dati da una varietà di formati di file tra cui CSV, Parquet, JSON e database. Per set di dati più piccoli, viene utilizzato i panda, mentre per set di dati più grandi, viene impiegato Pyspark. In confronto a Pyspark, Pandas fornisce risultati più rapidi. A seconda della disponibilità di memoria e della dimensione dei dati, è possibile passare tra Pyspark e Panda per migliorare le prestazioni. Usa sempre i panda su Pyspark quando i dati da elaborare sono sufficienti per la memoria. Spark è diventata rapidamente la tecnologia preferita del settore per l'elaborazione dei dati. Tuttavia, non è il primo. Prima di Spark, il motore di elaborazione era mapReduce.
Cos'è pyspark fillna ()?
Pyspark Fillna () è un metodo Pyspark utilizzato per sostituire i valori nulli in una o molte colonne in un modello di frame di dati Pyspark. A seconda dei requisiti aziendali, questo valore potrebbe essere qualsiasi cosa. Può essere 0 o una stringa vuota e qualsiasi letterale costante. Questo metodo Fillna () è utile per l'analisi dei dati poiché elimina i valori nulli che possono causare difficoltà con l'analisi dei dati.
Esempio di utilizzo di Fillna ()
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 | da pyspark.SQL Importazione di importazione Spark_session = Sparksession.costruttore \ .Master ('Local [1]') \ .appname ('esempio') \ .getOrCreate () df = spark_session.creatotaframe ( [ (1, "Canada", "Toronto", nessuno), (2, "Giappone", "Tokyo", 8000000), (3, "India", "Amritsar", nessuno), (4, "Turchia", "Ankara", 550000), ", ["id", "paese", "città", "popolazione"] ) df.spettacolo() |
Produzione:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 | +---+---------+--------------+-----------+ | id | Paese | città | popolazione | +---+---------+--------------+-----------+ | 1 | Canada | Toronto | null | | 2 | Giappone | Tokyo | 8000000 | | 3 | India | Amritsar | null | | 4 | Turchia | Ankara | 550000 | +---+---------+--------------+-----------+ |
Ora possiamo usare semplicemente l'argomento del valore per sostituire tutti i valori null in un frame di dati:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 | df.n / a.riempimento (valore = 0).spettacolo() df.n / a.riempimento (valore = 0, sottoinsieme = ["popolazione"]).spettacolo() df.Fillna (valore = 0).spettacolo() +---+---------+--------------+-----------+ | id | Paese | città | popolazione | +---+---------+--------------+-----------+ | 1 | Canada | Toronto | 0 | | 2 | Giappone | Tokyo | 8000000 | | 3 | India | Amritsar | 0 | | 4 | Turchia | Ankara | 550000 | +---+---------+--------------+-----------+ |
L'operazione sopra sostituirà tutti i valori nulli nelle colonne interi con 0.
Conclusione
Abbiamo discusso del metodo Pyspark, Pyspark Fillna () e dei suoi esempi in questa sessione. Il metodo Fillna () sostituisce tutti i valori null nel frame dati con i nostri valori personalizzati.