Pyspark Introduzione

Pyspark Introduzione
I dati stanno aumentando di giorno in giorno. Abbiamo bisogno di un'enorme quantità di memoria per archiviare ed elaborare questi dati. Questo dovrebbe essere efficiente e facile da gestire. Quindi la tecnologia dei big data è entrata in scena fornendo scintili.

Spark è un potente strumento di elaborazione dei dati utilizzato per archiviare ed elaborare i dati in modo efficace ed efficiente. È stato introdotto dal team Apache ed è anche noto come Apache Spark.

Possiamo mettere in relazione i dati in un formato tabulare. Quindi la struttura dei dati utilizzata è DataFrame. Comunque, Spark supporterà i linguaggi di programmazione Java, Scala e Python. Useremo Spark in Python Programming Language a partire da ora.

Possiamo chiamarlo Pyspark. In Python, Pyspark è un modulo Spark utilizzato per fornire un tipo di elaborazione simile utilizzando DataFrame.

Installazione

Ma dobbiamo solo installare Pyspark nel nostro sistema. Per installare qualsiasi modulo, dobbiamo utilizzare il comando PIP in Python. E la sintassi è la seguente.

Sintassi:

PIP Installa Pyspark

Prima di utilizzare questo pyspark, dobbiamo importare questo modulo nella nostra ORG e i nostri dati richiederanno un'app Spark. Quindi importa questo modulo e creiamo un'app.

Possiamo creare un'app utilizzando SparkSession importing questa classe dal Pyspark.Modulo SQL.

Questo creerà una sessione per la nostra app.

Ora, crea l'app Spark da questa sessione. Possiamo creare l'app Spark usando il metodo getOrCreate ()

Sintassi:

Spark_app = SparkSession.costruttore.appname ('LinuxHint').getOrCreate ()

È tempo di creare un'eccellente struttura di dati nota come frame di dati che memorizza i dati dati in formato di riga e colonna.

In PysPark, possiamo creare un Frame Data dall'app Spark con il metodo createAtaFrame ()

Sintassi:

Spark_app.creatotaframe (input_data, colonne)

Dove input_data forse un dizionario o un elenco per creare un frame di dati da questi dati e se input_data è un elenco di dizionari, le colonne non sono necessarie; Se si tratta di un elenco nidificato, dobbiamo fornire i nomi delle colonne.

Creiamo i dati PysPark

Codice:

#IMPORT Il modulo PYSPRK
importare pyspark
#IMPORT SPARKSESSION per la creazione di una sessione
da pyspark.SQL Importazione di importazione
#Crea un'app chiamata LinuxHint
Spark_app = SparkSession.costruttore.appname ('LinuxHint').getOrCreate ()
# Crea dati studenteschi con 5 righe e 6 attributi
Students = ['rollno': '001', 'name': 'sravan', 'age': 23, 'altezza': 5.79, "peso": 67, "indirizzo": "guntur",
'rollno': '002', 'name': 'ojaswi', 'age': 16, 'altezza': 3.79, 'peso': 34, 'indirizzo': 'hyd',
'rollno': '003', 'name': 'gnanesh chowdary', 'age': 7, 'altezza': 2.79, 'peso': 17, 'indirizzo': 'patna',
'rollno': '004', 'name': 'rohith', 'age': 9, 'altezza': 3.69, 'peso': 28, 'indirizzo': 'hyd',
'rollno': '005', 'name': 'sridevi', 'age': 37, 'altezza': 5.59, 'peso': 54, 'indirizzo': 'hyd']
# Crea il frame dati
df = spark_app.CreatedataFrame (Students)
# DataFrame
df.spettacolo()

Produzione

Nel codice sopra, abbiamo creato il dizionario con 5 righe e 6 colonne e abbiamo superato questo dizionario al metodo createAtaFrame () per generare il Frame Data. Infine, stiamo visualizzando il frame dati con il metodo show (). Questo metodo visualizzerà il frame dati in un formato tabulare.

Visualiamo le colonne in PysPark DataFrame.

Possiamo ottenere i nomi delle colonne in un formato dell'elenco usando il metodo delle colonne.

Sintassi:

DataFrame.colonne

Esempio 2:

#IMPORT Il modulo PYSPRK
importare pyspark
#IMPORT SPARKSESSION per la creazione di una sessione
da pyspark.SQL Importazione di importazione
#Crea un'app chiamata LinuxHint
Spark_app = SparkSession.costruttore.appname ('LinuxHint').getOrCreate ()
# Crea dati studenteschi con 5 righe e 6 attributi
Students = ['rollno': '001', 'name': 'sravan', 'age': 23, 'altezza': 5.79, "peso": 67, "indirizzo": "guntur",
'rollno': '002', 'name': 'ojaswi', 'age': 16, 'altezza': 3.79, 'peso': 34, 'indirizzo': 'hyd',
'rollno': '003', 'name': 'gnanesh chowdary', 'age': 7, 'altezza': 2.79, 'peso': 17, 'indirizzo': 'patna',
'rollno': '004', 'name': 'rohith', 'age': 9, 'altezza': 3.69, 'peso': 28, 'indirizzo': 'hyd',
'rollno': '005', 'name': 'sridevi', 'age': 37, 'altezza': 5.59, 'peso': 54, 'indirizzo': 'hyd']
# Crea il frame dati
df = spark_app.CreatedataFrame (Students)
# colonne dati
df.colonne

Produzione:

['indirizzo', 'age', 'altezza', 'nome', 'rollno', 'peso'

Conclusione

In questo articolo, abbiamo discusso di come creare PysPark DataFrame insieme all'installazione e al modo in cui possiamo ottenere le colonne nel frame dati. E abbiamo usato il metodo show () per visualizzare il frame dati in formato tabulare.