Metodo Pyspark Fillna

Metodo Pyspark Fillna

Impareremo sulla biblioteca Pyspark in questa sessione. È un motore di elaborazione distribuito per uso generale, in memoria, che consente di gestire efficacemente i dati su diverse stazioni di lavoro. Impareremo anche il metodo Pyspark Fillna () che viene utilizzato per riempire i valori null nel frame dati con un valore personalizzato, insieme ai suoi esempi.

Cos'è Pyspark?

Pyspark è una delle lingue supportate da Spark. Spark è una tecnologia di elaborazione dei dati di grandi dimensioni in grado di gestire i dati su una scala di petabyte. Pyspark è una cooperazione Apache Spark e Python. Python è un moderno linguaggio di programmazione di alto livello, mentre Apache Spark è una source aperta che si concentra su compiti computazionali di cluster e principalmente mira a velocità, facilità d'uso e analisi di streaming. Poiché Spark è per lo più incorporato in Scala, la creazione di App Spark in Scala o Java ti consente di accedere a più delle sue capacità che a scrivere programmi Spark in Python o R. Pyspark, ad esempio, attualmente non supporta il set di dati. È possibile sviluppare applicazioni Spark per elaborare i dati e lanciarli sulla piattaforma Spark utilizzando PysPark. L'AWS offre l'EMR gestito e la piattaforma Spark.

Se stai facendo una scienza dei dati, Pyspark è un'opzione migliore di Scala perché ci sono molte biblioteche di scienze dei dati popolari scritte in Python come Numpy, Tensorflow e Scikit-Learn. È possibile utilizzare pyspark per elaborare i dati e stabilire un cluster EMR su AWS. PysPark può leggere i dati da una varietà di formati di file tra cui CSV, Parquet, JSON e database. Per set di dati più piccoli, viene utilizzato i panda, mentre per set di dati più grandi, viene impiegato Pyspark. In confronto a Pyspark, Pandas fornisce risultati più rapidi. A seconda della disponibilità di memoria e della dimensione dei dati, è possibile passare tra Pyspark e Panda per migliorare le prestazioni. Usa sempre i panda su Pyspark quando i dati da elaborare sono sufficienti per la memoria. Spark è diventata rapidamente la tecnologia preferita del settore per l'elaborazione dei dati. Tuttavia, non è il primo. Prima di Spark, il motore di elaborazione era mapReduce.

Cos'è pyspark fillna ()?

Pyspark Fillna () è un metodo Pyspark utilizzato per sostituire i valori nulli in una o molte colonne in un modello di frame di dati Pyspark. A seconda dei requisiti aziendali, questo valore potrebbe essere qualsiasi cosa. Può essere 0 o una stringa vuota e qualsiasi letterale costante. Questo metodo Fillna () è utile per l'analisi dei dati poiché elimina i valori nulli che possono causare difficoltà con l'analisi dei dati.

Esempio di utilizzo di Fillna ()

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
da pyspark.SQL Importazione di importazione
Spark_session = Sparksession.costruttore \
.Master ('Local [1]') \
.appname ('esempio') \
.getOrCreate ()
df = spark_session.creatotaframe (
[
(1, "Canada", "Toronto", nessuno),
(2, "Giappone", "Tokyo", 8000000),
(3, "India", "Amritsar", nessuno),
(4, "Turchia", "Ankara", 550000),
",
["id", "paese", "città", "popolazione"]
)
df.spettacolo()

Produzione:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
+---+---------+--------------+-----------+
| id | Paese | città | popolazione |
+---+---------+--------------+-----------+
| 1 | Canada | Toronto | null |
| 2 | Giappone | Tokyo | 8000000 |
| 3 | India | Amritsar | null |
| 4 | Turchia | Ankara | 550000 |
+---+---------+--------------+-----------+

Ora possiamo usare semplicemente l'argomento del valore per sostituire tutti i valori null in un frame di dati:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
df.n / a.riempimento (valore = 0).spettacolo()
df.n / a.riempimento (valore = 0, sottoinsieme = ["popolazione"]).spettacolo()
df.Fillna (valore = 0).spettacolo()
+---+---------+--------------+-----------+
| id | Paese | città | popolazione |
+---+---------+--------------+-----------+
| 1 | Canada | Toronto | 0 |
| 2 | Giappone | Tokyo | 8000000 |
| 3 | India | Amritsar | 0 |
| 4 | Turchia | Ankara | 550000 |
+---+---------+--------------+-----------+

L'operazione sopra sostituirà tutti i valori nulli nelle colonne interi con 0.

Conclusione

Abbiamo discusso del metodo Pyspark, Pyspark Fillna () e dei suoi esempi in questa sessione. Il metodo Fillna () sostituisce tutti i valori null nel frame dati con i nostri valori personalizzati.