Installazione di Apache Spark su Ubuntu

Installazione di Apache Spark su Ubuntu
Apache-Spark è un framework open source per l'elaborazione dei big data, utilizzato da data scientist e ingegneri professionisti per eseguire azioni su grandi quantità di dati. Poiché l'elaborazione di grandi quantità di dati richiede un'elaborazione rapida, la macchina/pacchetto di elaborazione deve essere efficiente per farlo. Spark utilizza DAG Scheduler, memorizzazione nella memorizzazione della memoria e esecuzione delle query per elaborare i dati il ​​più velocemente possibile e quindi per la gestione dei dati di grandi dimensioni.

La struttura dei dati di Spark si basa su RDD (acronimo del set di dati resilienti distribuiti); RDD è costituito da una raccolta distribuita immutabile di oggetti; Questi set di dati possono contenere qualsiasi tipo di oggetti relativi a Python, Java, Scala e possono anche contenere le classi definite dall'utente. L'ampio utilizzo di Apache-Spark è per il suo meccanismo di lavoro che segue:

L'Apache Spark funziona su fenomeni maestri e schiavi; Seguendo questo modello, un coordinatore centrale in Spark è noto come "autista"(Agisce come maestro) e i suoi lavoratori distribuiti sono nominati come" esecutori "(funge da schiavo). E il terzo componente principale di Spark è "Cluster Manager"; Come indica il nome è un manager che gestisce esecutori e driver. Gli esecutori sono lanciati da "Cluster Manager"E in alcuni casi i conducenti sono anche lanciati da questo manager di Spark. Infine, il gestore integrato di Spark è responsabile del lancio di qualsiasi applicazione Spark sulle macchine: Apache-Spark è costituito da una serie di caratteristiche notevoli necessarie per discutere qui per evidenziare il fatto che sono utilizzate nell'elaborazione di grandi dati? Quindi, le caratteristiche di Apache-Spark sono descritte di seguito:

Caratteristiche

Ecco alcune caratteristiche distintive che rendono Apache-Spark una scelta migliore rispetto ai suoi concorrenti:

Velocità: Come discusso in precedenza, utilizza DAG Scheduler (pianifica i lavori e determina la posizione adatta per ciascuna attività), l'esecuzione delle query e le librerie di supporto per eseguire qualsiasi attività in modo efficace e rapido.

Supporto multi -lingua: La funzione multi-linguaggio di Apache-Spark consente agli sviluppatori di creare applicazioni basate su Java, Python, R e Scala.

Elaborazione in tempo reale: Invece di elaborare i dati memorizzati, gli utenti possono ottenere l'elaborazione dei risultati mediante elaborazione in tempo reale dei dati e quindi produce risultati istantanei.

Migliore analisi: Per l'analisi, Spark utilizza una varietà di librerie per fornire analisi come algoritmi di apprendimento automatico, query SQL ecc. Tuttavia, il suo concorrente Apache-Mapreduce utilizza solo MAP e ridurre le funzioni per fornire analisi; Questa differenziazione analitica indica anche perché la scintilla supera le forme di mappa.

Focalizzare l'importanza e le incredibili caratteristiche di Apache Spark; La nostra scrittura di oggi aprirà la strada per installare Apache Spark sul tuo Ubuntu

Come installare Apache Spark su Ubuntu

Questa sezione ti guiderà a installare Apache Spark su Ubuntu:

Passaggio 1: aggiorna il sistema e installa Java

Prima di ottenere informazioni sulla parte centrale dell'installazione; Aggiorniamo il sistema utilizzando il comando menzionato di seguito:

$ sudo apt update

Dopo l'aggiornamento, il comando scritto di seguito installerà Java Environment poiché Apache-Spark è un'applicazione basata su Java:

$ sudo apt installare default-jdk

Passaggio 2: scarica il file di scintili apache ed estratto

Una volta installato correttamente Java, sei pronto per scaricare il file Apache Spark dal Web e il seguente comando scaricherà l'ultimo 3.0.3 Build of Spark:

$ wget https: // archivio.Apache.Org/Dist/Spark/Spark-3.0.3/Spark-3.0.3-bin-Hadoop2.7.TGZ

È necessario estrarre il file scaricato così; Il comando seguente eseguirà l'estrazione (nel mio caso):

$ TAR XVF Spark-3.0.3-bin-Hadoop2.7.TGZ

Dopodiché, sposta la cartella estratta su “/optare/"Directory seguendo il comando di seguito:

$ sudo mv spark-3.0.3-bin-Hadoop2.7//opt/scintili

Una volta completati i processi sopra, significa che hai finito con il download di Apache Spark, ma aspetta; Non funzionerà fino a quando non si configura l'ambiente Spark Le sezioni imminenti ti guideranno a configurare e utilizzare Spark:

Come configurare l'ambiente di scintilla

Per questo, è necessario impostare alcune variabili di ambiente nel file di configurazione "~/.profilo";

Accedi a questo file utilizzando il tuo editor (Nano nel mio caso), il comando scritto di seguito aprirà questo file in Nano Editor:

$ sudo nano ~/.profilo

E scrivere le seguenti righe alla fine di questo file; Una volta che hai finito, premere "Ctrl+s"Per salvare il file:

Esporta Spark_home =/opt/Spark
Export Path = $ Path: $ SPARK_HOME/BIN: $ SPARK_HOME/SBIN
Esporta pyspark_python =/usr/bin/python3

Carica il file per ottenere le modifiche per l'ambiente Spark:

$ fonte ~/.profilo

Come avviare il server master autonomo di Spark

Una volta impostate le variabili di ambiente; Ora puoi avviare il processo per il server master autonomo utilizzando il comando scritto di seguito:

$ Start-Master.sh

Una volta avviato il processo; L'interfaccia Web del server principale può essere recuperata utilizzando l'indirizzo indicato di seguito; Scrivi il seguente indirizzo nella barra dell'indirizzo del browser

https: // localhost: 8080/

Come avviare Slave/Worker Server di Spark

Il server slave può essere avviato utilizzando il comando indicato di seguito: si nota che è necessario URL di Master Server per avviare il lavoratore:

$ start-slave.SH SPARK: // ADNAN: 7077

Una volta che hai iniziato; Esegui l'indirizzo (https: // localhost: 8080) e noterai che c'è un lavoratore aggiunto in "Lavoratori" sezione. Si noti che il lavoratore sta usando il core "1" del processore e 3.3 GB di RAM per impostazione predefinita:

Ad esempio, limiteremo il numero di core dei lavoratori utilizzando il flag "-c": ad esempio, il comando menzionato di seguito avvierà un server con core "0" di utilizzo del processore:

$ start-slave.Sh -c 0 Spark: // Adnan: 7077

Puoi vedere le modifiche ricaricando la pagina (https: // localhost: 8080/)

Inoltre, è possibile limitare la memoria dei nuovi lavoratori utilizzando "-M"Flag: il comando scritto di seguito avvierà uno slave con un utilizzo della memoria di 256 MB:

$ start-slave.SH -M 256m Spark: // Adnan: 7077

Il lavoratore aggiunto con memoria limitata è visibile all'interfaccia Web (https: // localhost: 8080/)

Come avviare/fermare il maestro e lo schiavo

Puoi fermare o star master e slave immediatamente usando il comando menzionato di seguito:

$ start-all.sh

Allo stesso modo, il comando indicato di seguito fermerà tutte le istanze contemporaneamente:

$ stop-all.sh

Per iniziare e interrompere solo l'istanza principale, utilizzare i seguenti comandi:

$ Start-Master.sh

E per fermare il master in esecuzione:

$ stop-master.sh

Come eseguire Spark Shell

Una volta terminato la configurazione dell'ambiente Spark; È possibile utilizzare il comando menzionato di seguito per eseguire la shell di scintilla; In questo modo viene anche testato:

$ Spark-shell

Come eseguire Python in Spark Shell

Se la shell Spark è in esecuzione sul tuo sistema, puoi eseguire Python su questo ambiente; Esegui il seguente comando per ottenere questo:

$ pyspark

Nota: Il comando sopra non funzionerà se stai lavorando con Scala (lingua predefinita in Spark Shell), puoi uscirne digitando “: Q"E premendo"accedere"O semplicemente premere"Ctrl+c".

Conclusione

Apache Spark è un motore di analisi unificato open source che viene utilizzato per l'elaborazione dei big data utilizzando diverse librerie e per lo più utilizzate dagli ingegneri di dati e altri che devono lavorare su enormi quantità di dati. In questo articolo, abbiamo fornito una guida di installazione di Apache-Spark; così come la configurazione dell'ambiente Spark è anche descritta in dettaglio. L'aggiunta di lavoratori con numeri o core limitati e la memoria specificata sarebbe utile per salvare le risorse mentre si lavora con Spark.