PysPark - Pandas DataFrame add_prefix e add_suffix

PysPark - Pandas DataFrame add_prefix e add_suffix

“In Python, PysPark è un modulo Spark che fornisce un tipo di elaborazione simile per Spark utilizzando DataFrame, che memorizzerà i dati dati in formato di riga e colonna.

PysPark - Pandas DataFrame rappresenta il Frame Data Pandas, ma contiene il Frame dati PysPark internamente.

Panda Support DataFrame Data Structure e Panda viene importato dal modulo PysPark.

Prima di allora, devi installare il modulo PysPark."

Comando

1
PIP Installa Pyspark

Sintassi all'importazione:

1
da Pyspark Import Panda

Successivamente, possiamo creare o utilizzare il frame dati dal modulo Pandas.

Sintassi per creare Pandas DataFrame:

1
pyspark.panda.DataFrame ()

Possiamo passare un dizionario o un elenco di elenchi con valori.

Creiamo un frame dati Pandas tramite Pyspark con quattro colonne e cinque righe.

1
2
3
4
5
6
7
8
9
10
11
12
13
#import panda dal modulo pyspark
da Pyspark Import Panda
#Crea DataFrame da Pandas Pyspark
pyspark_pandas = pandas.DataFrame ('Student_LastName': ['Manasa', 'Trisha', 'Lehara', 'Kapila', 'Hyna'], 'Mark1': [90,56,78,54,67], 'Mark2': [ 100,67,96,89,32], 'Mark3': [91,92,98,97,87])
Print (pyspark_pandas)

Produzione:

Ora andremo nel nostro tutorial.

È possibile aggiungere prefissi e suffissi a una colonna particolare o tutte le colonne utilizzando i metodi ADD_PREFIX () e ADD_SUFFIX (). Discutiamoli uno per uno.

1
pyspark.panda.DataFrame.add_prefix ()

add_prefix () viene utilizzato per aggiungere una stringa di prefisso a ogni colonna all'inizio del Frame di dati Pyspark Panda. È anche possibile aggiungere un prefisso a una sola colonna specificando il nome della colonna. In questo scenario, verrà aggiunto alle etichette delle righe.

Sintassi:

Per l'intero telaio di dati - pyspark_pandas.add_prefix ('String')

Per una colonna particolare - pyspark_pandas.colonna.add_prefix ('String')

Dove, pyspark_pandas è il frame dati Pyspark Pandas.

Parametro:

Una stringa è un prefisso aggiunto alla colonna all'inizio.

Esempio 1

In questo esempio, stiamo aggiungendo il prefisso - "Linux_hint" a tutte le colonne sopra per creare il Frame dati PysPark Pandas.

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
#import panda dal modulo pyspark
da Pyspark Import Panda
#Crea DataFrame da Pandas Pyspark
pyspark_pandas = pandas.DataFrame ('Student_LastName': ['Manasa', 'Trisha', 'Lehara', 'Kapila', 'Hyna'], 'Mark1': [90,56,78,54,67], 'Mark2': [ 100,67,96,89,32], 'Mark3': [91,92,98,97,87])
#Add il prefisso - 'linux_hint' all'intero telaio dati
Print (pyspark_pandas.add_prefix ('linux_hint'))

Produzione:

Possiamo vedere che il prefisso viene aggiunto a tutte le colonne.

Esempio 2

Aggiungi il prefisso ai valori nella colonna Mark1.

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
#import panda dal modulo pyspark
da Pyspark Import Panda
#Crea DataFrame da Pandas Pyspark
pyspark_pandas = pandas.DataFrame ('Student_LastName': ['Manasa', 'Trisha', 'Lehara', 'Kapila', 'Hyna'], 'Mark1': [90,56,78,54,67], 'Mark2': [ 100,67,96,89,32], 'Mark3': [91,92,98,97,87])
#Add il prefisso - 'Linux_hint' ai valori della colonna Mark1
Print (pyspark_pandas.Mark1.add_prefix ('linux_hint'))

Produzione:

1
2
3
4
5
6
7
8
9
10
11
Linux_hint0 90
Linux_hint1 56
Linux_hint2 78
Linux_hint3 54
Linux_hint4 67
Nome: Mark1, Dtype: Int64

Possiamo vedere che il prefisso viene aggiunto a tutti i valori nella colonna Mark1.

1
pyspark.panda.DataFrame.add_suffix ()

add_suffix () viene utilizzato per aggiungere una stringa di suffisso ad ogni colonna alla fine del Frame di dati Pyspark Panda. È anche possibile aggiungere un suffisso a una sola colonna specificando il nome della colonna. In questo scenario, verrà aggiunto alle etichette delle righe.

Sintassi:

Per l'intero telaio di dati - pyspark_pandas.add_suffix ('string')

Per una colonna particolare - pyspark_pandas.colonna.add_suffix ('string')

Dove, pyspark_pandas è il frame dati Pyspark Pandas.

Parametro:

Una stringa è un suffisso aggiunto alla colonna all'inizio.

Esempio 1

In questo esempio, stiamo aggiungendo il suffisso - "Linux_hint" a tutte le colonne sopra per creare il Frame dati PysPark Pandas.

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
#import panda dal modulo pyspark
da Pyspark Import Panda
#Crea DataFrame da Pandas Pyspark
pyspark_pandas = pandas.DataFrame ('Student_LastName': ['Manasa', 'Trisha', 'Lehara', 'Kapila', 'Hyna'], 'Mark1': [90,56,78,54,67], 'Mark2': [ 100,67,96,89,32], 'Mark3': [91,92,98,97,87])
#Add the Suffix - 'Linux_Hint' all'intero frame dati
Print (pyspark_pandas.add_suffix ('linux_hint'))

Produzione:

Possiamo vedere che il suffisso viene aggiunto a tutte le colonne.

Esempio 2

Aggiungi il suffisso ai valori nella colonna Mark1.

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
#import panda dal modulo pyspark
da Pyspark Import Panda
#Crea DataFrame da Pandas Pyspark
pyspark_pandas = pandas.DataFrame ('Student_LastName': ['Manasa', 'Trisha', 'Lehara', 'Kapila', 'Hyna'], 'Mark1': [90,56,78,54,67], 'Mark2': [ 100,67,96,89,32], 'Mark3': [91,92,98,97,87])
#Add the Suffix - 'Linux_Hint' ai valori della colonna Mark1
Print (pyspark_pandas.Mark1.add_suffix ('linux_hint'))

Produzione:

1
2
3
4
5
6
7
8
9
10
11
0LINUX_HINT 90
1LINUX_HINT 56
2LINUX_HINT 78
3LINUX_HINT 54
4linux_hint 67
Nome: Mark1, Dtype: Int64

Possiamo vedere che il suffisso viene aggiunto a tutti i valori nella colonna Mark1.

Conclusione

In questo tutorial Pyspark Pandas, abbiamo visto come aggiungere un prefisso utilizzando add_prefix () e suffisso usando add_suffix () al Frame Data Panda Pyspark Pandas. Verrà aggiunto ai nomi delle colonne quando specifichiamo l'intero frame dati. Se applichiamo i metodi sopra a una colonna particolare, il prefisso/suffisso verrà aggiunto alle posizioni della riga.