“In Python, PysPark è un modulo Spark che fornisce un tipo di elaborazione simile per Spark utilizzando DataFrame, che memorizzerà i dati dati in formato di riga e colonna.
PysPark - Pandas DataFrame rappresenta il Frame Data Pandas, ma contiene il Frame dati PysPark internamente.
Panda Support DataFrame Data Structure e Panda viene importato dal modulo PysPark.
Prima di allora, devi installare il modulo PysPark."
Comando
1 | PIP Installa Pyspark |
Sintassi all'importazione:
1 | da Pyspark Import Panda |
Successivamente, possiamo creare o utilizzare il frame dati dal modulo Pandas.
Sintassi per creare Pandas DataFrame:
1 | pyspark.panda.DataFrame () |
Possiamo passare un dizionario o un elenco di elenchi con valori.
Creiamo un frame dati Pandas tramite Pyspark con quattro colonne e cinque righe.
1 2 3 4 5 6 7 8 9 10 11 12 13 | #import panda dal modulo pyspark |
Produzione:
Ora andremo nel nostro tutorial.
È possibile aggiungere prefissi e suffissi a una colonna particolare o tutte le colonne utilizzando i metodi ADD_PREFIX () e ADD_SUFFIX (). Discutiamoli uno per uno.
1 | pyspark.panda.DataFrame.add_prefix () |
add_prefix () viene utilizzato per aggiungere una stringa di prefisso a ogni colonna all'inizio del Frame di dati Pyspark Panda. È anche possibile aggiungere un prefisso a una sola colonna specificando il nome della colonna. In questo scenario, verrà aggiunto alle etichette delle righe.
Sintassi:
Per l'intero telaio di dati - pyspark_pandas.add_prefix ('String')
Per una colonna particolare - pyspark_pandas.colonna.add_prefix ('String')
Dove, pyspark_pandas è il frame dati Pyspark Pandas.
Parametro:
Una stringa è un prefisso aggiunto alla colonna all'inizio.
Esempio 1
In questo esempio, stiamo aggiungendo il prefisso - "Linux_hint" a tutte le colonne sopra per creare il Frame dati PysPark Pandas.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 | #import panda dal modulo pyspark |
Produzione:
Possiamo vedere che il prefisso viene aggiunto a tutte le colonne.
Esempio 2
Aggiungi il prefisso ai valori nella colonna Mark1.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 | #import panda dal modulo pyspark |
Produzione:
1 2 3 4 5 6 7 8 9 10 11 | Linux_hint0 90 |
Possiamo vedere che il prefisso viene aggiunto a tutti i valori nella colonna Mark1.
1 | pyspark.panda.DataFrame.add_suffix () |
add_suffix () viene utilizzato per aggiungere una stringa di suffisso ad ogni colonna alla fine del Frame di dati Pyspark Panda. È anche possibile aggiungere un suffisso a una sola colonna specificando il nome della colonna. In questo scenario, verrà aggiunto alle etichette delle righe.
Sintassi:
Per l'intero telaio di dati - pyspark_pandas.add_suffix ('string')
Per una colonna particolare - pyspark_pandas.colonna.add_suffix ('string')
Dove, pyspark_pandas è il frame dati Pyspark Pandas.
Parametro:
Una stringa è un suffisso aggiunto alla colonna all'inizio.
Esempio 1
In questo esempio, stiamo aggiungendo il suffisso - "Linux_hint" a tutte le colonne sopra per creare il Frame dati PysPark Pandas.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 | #import panda dal modulo pyspark |
Produzione:
Possiamo vedere che il suffisso viene aggiunto a tutte le colonne.
Esempio 2
Aggiungi il suffisso ai valori nella colonna Mark1.
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 | #import panda dal modulo pyspark |
Produzione:
1 2 3 4 5 6 7 8 9 10 11 | 0LINUX_HINT 90 |
Possiamo vedere che il suffisso viene aggiunto a tutti i valori nella colonna Mark1.
Conclusione
In questo tutorial Pyspark Pandas, abbiamo visto come aggiungere un prefisso utilizzando add_prefix () e suffisso usando add_suffix () al Frame Data Panda Pyspark Pandas. Verrà aggiunto ai nomi delle colonne quando specifichiamo l'intero frame dati. Se applichiamo i metodi sopra a una colonna particolare, il prefisso/suffisso verrà aggiunto alle posizioni della riga.