Spark è un potente strumento di elaborazione dei dati utilizzato per archiviare ed elaborare i dati in modo efficace ed efficiente. È stato introdotto dal team Apache ed è anche noto come Apache Spark.
Possiamo mettere in relazione i dati in un formato tabulare. Quindi la struttura dei dati utilizzata è DataFrame. Comunque, Spark supporterà i linguaggi di programmazione Java, Scala e Python. Useremo Spark in Python Programming Language a partire da ora.
Possiamo chiamarlo Pyspark. In Python, Pyspark è un modulo Spark utilizzato per fornire un tipo di elaborazione simile utilizzando DataFrame.
Installazione
Ma dobbiamo solo installare Pyspark nel nostro sistema. Per installare qualsiasi modulo, dobbiamo utilizzare il comando PIP in Python. E la sintassi è la seguente.
Sintassi:
PIP Installa PysparkPrima di utilizzare questo pyspark, dobbiamo importare questo modulo nella nostra ORG e i nostri dati richiederanno un'app Spark. Quindi importa questo modulo e creiamo un'app.
Possiamo creare un'app utilizzando SparkSession importing questa classe dal Pyspark.Modulo SQL.
Questo creerà una sessione per la nostra app.
Ora, crea l'app Spark da questa sessione. Possiamo creare l'app Spark usando il metodo getOrCreate ()
Sintassi:
Spark_app = SparkSession.costruttore.appname ('LinuxHint').getOrCreate ()È tempo di creare un'eccellente struttura di dati nota come frame di dati che memorizza i dati dati in formato di riga e colonna.
In PysPark, possiamo creare un Frame Data dall'app Spark con il metodo createAtaFrame ()
Sintassi:
Spark_app.creatotaframe (input_data, colonne)Dove input_data forse un dizionario o un elenco per creare un frame di dati da questi dati e se input_data è un elenco di dizionari, le colonne non sono necessarie; Se si tratta di un elenco nidificato, dobbiamo fornire i nomi delle colonne.
Creiamo i dati PysPark
Codice:
#IMPORT Il modulo PYSPRKProduzione
Nel codice sopra, abbiamo creato il dizionario con 5 righe e 6 colonne e abbiamo superato questo dizionario al metodo createAtaFrame () per generare il Frame Data. Infine, stiamo visualizzando il frame dati con il metodo show (). Questo metodo visualizzerà il frame dati in un formato tabulare.
Visualiamo le colonne in PysPark DataFrame.
Possiamo ottenere i nomi delle colonne in un formato dell'elenco usando il metodo delle colonne.
Sintassi:
DataFrame.colonneEsempio 2:
#IMPORT Il modulo PYSPRKProduzione:
['indirizzo', 'age', 'altezza', 'nome', 'rollno', 'peso'Conclusione
In questo articolo, abbiamo discusso di come creare PysPark DataFrame insieme all'installazione e al modo in cui possiamo ottenere le colonne nel frame dati. E abbiamo usato il metodo show () per visualizzare il frame dati in formato tabulare.