Converti Pyspark Pandas DataFrame in diversi formati

Converti Pyspark Pandas DataFrame in diversi formati
“In Python, PysPark è un modulo Spark che fornisce un tipo di elaborazione simile per Spark utilizzando DataFrame, che memorizzerà i dati dati in formato di riga e colonna.

PysPark - Pandas DataFrame rappresenta il Frame Data Pandas, ma contiene il Frame dati PysPark internamente.

Panda Support DataFrame Data Structure e Panda vengono importati dal modulo PysPark.

Prima di allora, devi installare il modulo PysPark."

Comando

PIP Installa Pyspark

Sintassi all'importazione:

da Pyspark Import Panda

Successivamente, possiamo creare o utilizzare il frame dati dal modulo dei Pandas.

Sintassi per creare Pandas DataFrame:

pyspark.panda.DataFrame ()

Possiamo passare un dizionario o un elenco di elenchi con valori.

Creiamo un frame dati Pandas tramite Pyspark con tre colonne e cinque righe.

#import panda dal modulo pyspark
da Pyspark Import Panda
#Crea DataFrame da Pandas Pyspark
pyspark_pandas = pandas.DataFrame ('Mark1': [90,56,78,54,67], 'Mark2': [100,67,96,89,32], 'Mark3': [91,92,98,97,87] )
Print (pyspark_pandas)

Produzione:

Ora andremo nel nostro tutorial.

Vedremo diversi formati in cui viene convertito i dati di dati Pyspark Pandas creati sopra.

pyspark.panda.DataFrame.to_html ()

Pyspark Pandas DataFrame viene convertito in formato HTML in modo tale che i nomi delle colonne siano posizionati in tag e valori di colonna sono posizionati sotto etichetta.

Sintassi:

pyspark_pandas.to_html ()

Dove pyspark_pandas è il frame dati Pyspark Pandas.

Esempio 1

In questo esempio, convertiremo il Frame Data Pandas Pyspark sopra in formato HTML.

#import panda dal modulo pyspark
da Pyspark Import Panda
#Crea DataFrame da Pandas Pyspark
pyspark_pandas = pandas.DataFrame ('Mark1': [90,56,78,54,67], 'Mark2': [100,67,96,89,32], 'Mark3': [91,92,98,97,87] )
#Convert pyspark_pandas su html
Print (pyspark_pandas.to_html ())

Produzione:

Puoi vedere che i nomi delle colonne sono posizionati all'interno Tag e valori sono posizionati all'interno tag.

pyspark.panda.DataFrame.to_json ()

PysPark Pandas DataFrame viene convertito in formato JSON in modo tale che i nomi delle colonne agiranno come tasti e valori di colonna saranno valori.

Sintassi:

pyspark_pandas.to_json ()

Dove pyspark_pandas è il frame dati Pyspark Pandas.

Esempio: 2

In questo esempio, convertiremo il Frame Data Pandas Pyspark sopra in formato JSON.

#import panda dal modulo pyspark
da Pyspark Import Panda
#Crea DataFrame da Pandas Pyspark
pyspark_pandas = pandas.DataFrame ('Mark1': [90,56,78,54,67], 'Mark2': [100,67,96,89,32], 'Mark3': [91,92,98,97,87] )
#Convert pyspark_pandas a json
Print (pyspark_pandas.to_json ())

Produzione:

["Mark1": 90, "Mark2": 100, "Mark3": 91, "Mark1": 56, "Mark2": 67, "Mark3": 92, "Mark1": 78, "Mark2 ": 96," Mark3 ": 98, " Mark1 ": 54," Mark2 ": 89," Mark3 ": 97, " Mark1 ": 67," Mark2 ": 32," Mark3 ": 87 "

Puoi vedere che i nomi delle colonne sono tasti.

pyspark.panda.DataFrame.to_numpy ()

PysPark Pandas DataFrame viene convertito in formato array usando il metodo To_numpy ().

Sintassi:

pyspark_pandas.to_numpy ()

Dove pyspark_pandas è il frame dati Pyspark Pandas.

Esempio: 3

In questo esempio, convertiremo il Frame Data Pandas Pyspark sopra in formato array.

#import panda dal modulo pyspark
da Pyspark Import Panda
#Crea DataFrame da Pandas Pyspark
pyspark_pandas = pandas.DataFrame ('Mark1': [90,56,78,54,67], 'Mark2': [100,67,96,89,32], 'Mark3': [91,92,98,97,87] )
#Convert to Numpy Array
Print (pyspark_pandas.to_numpy ())

Produzione:

[[90 100 91]
[56 67 92]
[78 96 98]
[54 89 97]
[67 32 87]]

Puoi vedere che i valori sono archiviati sotto forma di un array 2-D con cinque righe e tre colonne.

pyspark.panda.DataFrame.to_pandas ()

PysPark Pandas DataFrame viene convertito in Pandas DataFrame utilizzando il metodo TO_PANDAS ().

Sintassi:

pyspark_pandas.to_pandas ()

Dove pyspark_pandas è il frame dati Pyspark Pandas.

Esempio: 4

In questo esempio, convertiremo il Frame dati Pandas Pyspark sopra in un Frame di dati Panda.

#import panda dal modulo pyspark
da Pyspark Import Panda
#Crea DataFrame da Pandas Pyspark
pyspark_pandas = pandas.DataFrame ('Mark1': [90,56,78,54,67], 'Mark2': [100,67,96,89,32], 'Mark3': [91,92,98,97,87] )
#Convert in panda
Print (pyspark_pandas.to_pandas ())

Produzione:

Mark1 Mark2 Mark3
0 90 100 91
1 56 67 92
2 78 96 98
3 54 89 97
4 67 32 87

Puoi vedere che i valori sono archiviati sotto forma di un frame dati Panda con cinque righe e tre colonne.

pyspark.panda.DataFrame.to_markdown ()

Pyspark Pandas DataFrame viene convertito in markdown utilizzando il metodo TO_MARKDOWN ().

Sintassi:

pyspark_pandas.to_markdown ()

Dove pyspark_pandas è il frame dati Pyspark Pandas.

Esempio: 5

In questo esempio, convertiremo il Frame Data Pandas Pyspark sopra in formato markdown.

#import panda dal modulo pyspark
da Pyspark Import Panda
#Crea DataFrame da Pandas Pyspark
pyspark_pandas = pandas.DataFrame ('Mark1': [90,56,78,54,67], 'Mark2': [100,67,96,89,32], 'Mark3': [91,92,98,97,87] )
#display in formato markdown
Print (pyspark_pandas.to_markdown ())

Produzione:

Puoi vedere che il frame dati Pyspark Pandas viene convertito in formato markdown.

pyspark.panda.DataFrame.to_dict ()

PysPark Pandas DataFrame viene convertito in un dizionario usando il metodo TO_dict ().I nomi delle colonne saranno i tasti.

Sintassi:

pyspark_pandas.to_dict ()

Dove pyspark_pandas è il frame dati Pyspark Pandas.

Esempio: 6

In questo esempio, convertiremo il Frame di dati Pandas Pyspark sopra in un dizionario usando il metodo TO_DICT ().

#import panda dal modulo pyspark
da Pyspark Import Panda
#Crea DataFrame da Pandas Pyspark
pyspark_pandas = pandas.DataFrame ('Mark1': [90,56,78,54,67], 'Mark2': [100,67,96,89,32], 'Mark3': [91,92,98,97,87] )
#Converte in dizionario
Print (pyspark_pandas.to_dict ())

Produzione:

'Mark1': 0: 90, 1: 56, 2: 78, 3: 54, 4: 67, 'Mark2': 0: 100, 1: 67, 2: 96, 3: 89, 4: 32, 'Mark3': 0: 91, 1: 92, 2: 98, 3: 97, 4: 87

Puoi vedere che il frame dati Pyspark Pandas viene convertito in un dizionario con tasti come nomi di colonne.

pyspark.panda.DataFrame.to_records ()

PysPark Pandas DataFrame viene convertito in un record utilizzando il metodo To_Records (). Qui, per ogni riga del record, viene inserito un ID che inizia da 1.

Sintassi:

pyspark_pandas.to_records ()

Dove pyspark_pandas è il frame dati Pyspark Pandas.

Esempio: 7

In questo esempio, convertiremo il Frame di dati Pandas Pyspark sopra in un record utilizzando il metodo TO_Records ().

#import panda dal modulo pyspark
da Pyspark Import Panda
#Crea DataFrame da Pandas Pyspark
pyspark_pandas = pandas.DataFrame ('Mark1': [90,56,78,54,67], 'Mark2': [100,67,96,89,32], 'Mark3': [91,92,98,97,87] )
#Convert ai record
Print (pyspark_pandas.to_records ())

Produzione:

[(0, 90, 100, 91) (1, 56, 67, 92) (2, 78, 96, 98) (3, 54, 89, 97)
(4, 67, 32, 87)]

pyspark.panda.DataFrame.to_latex ()

PysPark Pandas DataFrame viene convertito in un record utilizzando il metodo To_Latex ().

Sintassi:

pyspark_pandas.to_latex ()

Dove pyspark_pandas è il frame dati Pyspark Pandas.

Esempio: 8

In questo esempio, convertiremo il Frame Data Pandas Pyspark sopra in formato Latex.

#import panda dal modulo pyspark
da Pyspark Import Panda
#Crea DataFrame da Pandas Pyspark
pyspark_pandas = pandas.DataFrame ('Mark1': [90,56,78,54,67], 'Mark2': [100,67,96,89,32], 'Mark3': [91,92,98,97,87] )
#convert to latex
Print (pyspark_pandas.to_latex ())

Produzione:

Possiamo vedere che il frame dati Pyspark Panda viene convertito in formato in lattice.

pyspark.panda.DataFrame.scintillare()

PysPark Pandas DataFrame viene convertito in un telaio di dati Spark utilizzando il metodo TO_SPARK (). Utilizza il metodo show () per visualizzare il frame dati in formato tabulare.

Sintassi:

pyspark_pandas.scintillare()

Dove pyspark_pandas è il frame dati Pyspark Pandas.

Esempio: 9

In questo esempio, convertiremo il Frame dati Panda Pandas sopra in un frame di dati Spark.

#import panda dal modulo pyspark
da Pyspark Import Panda
#Crea DataFrame da Pandas Pyspark
pyspark_pandas = pandas.DataFrame ('Mark1': [90,56,78,54,67], 'Mark2': [100,67,96,89,32], 'Mark3': [91,92,98,97,87] )
#Convert per scintillare
pyspark_pandas.scintillare().spettacolo()

Produzione:

Possiamo vedere che il frame dati PysPark Pandas viene convertito in un frame di dati di Spark.

pyspark.panda.DataFrame.accordare()

PysPark Pandas DataFrame viene convertito in una stringa utilizzando il metodo TO_STRING (). Viene visualizzato in un formato tabulare.

Sintassi:

pyspark_pandas.accordare()

Dove pyspark_pandas è il frame dati Pyspark Pandas.

Esempio: 10

In questo esempio, convertiremo il Frame dati Pandas Pyspark sopra in una stringa

#import panda dal modulo pyspark
da Pyspark Import Panda
#Crea DataFrame da Pandas Pyspark
pyspark_pandas = pandas.DataFrame ('Mark1': [90,56,78,54,67], 'Mark2': [100,67,96,89,32], 'Mark3': [91,92,98,97,87] )
#Convert in formato stringa
Print (pyspark_pandas.accordare())

Produzione:

Mark1 Mark2 Mark3
0 90 100 91
1 56 67 92
2 78 96 98
3 54 89 97
4 67 32 87

Possiamo vedere che il frame dati Pyspark Pandas viene convertito in una stringa con un formato tabulare.

Conclusione

In questo tutorial, abbiamo visto i diversi formati che convertono il Frame di dati Pyspark Pandas.

TO_HTML () converte il Frame dati PysPark Pandas in formato HTML. Se vuoi convertirlo in un array numpy, puoi scegliere il metodo To_numpy (). Se si desidera convertirlo in un Frame di dati Pandas, è possibile scegliere il metodo TO_PANDAS ().

TO_LATEX () formatta i dati di dati di PysPark Pandas in latex, TO_MARKDOWN Formatta i dati di dati PysPark Pandas in Markdown. Se vuoi che la colonna sia una chiave, puoi preferire to_dict () e to_json ().