La struttura dei dati di Spark si basa su RDD (acronimo del set di dati resilienti distribuiti); RDD è costituito da una raccolta distribuita immutabile di oggetti; Questi set di dati possono contenere qualsiasi tipo di oggetti relativi a Python, Java, Scala e possono anche contenere le classi definite dall'utente. L'ampio utilizzo di Apache-Spark è per il suo meccanismo di lavoro che segue:
L'Apache Spark funziona su fenomeni maestri e schiavi; Seguendo questo modello, un coordinatore centrale in Spark è noto come "autista"(Agisce come maestro) e i suoi lavoratori distribuiti sono nominati come" esecutori "(funge da schiavo). E il terzo componente principale di Spark è "Cluster Manager"; Come indica il nome è un manager che gestisce esecutori e driver. Gli esecutori sono lanciati da "Cluster Manager"E in alcuni casi i conducenti sono anche lanciati da questo manager di Spark. Infine, il gestore integrato di Spark è responsabile del lancio di qualsiasi applicazione Spark sulle macchine: Apache-Spark è costituito da una serie di caratteristiche notevoli necessarie per discutere qui per evidenziare il fatto che sono utilizzate nell'elaborazione di grandi dati? Quindi, le caratteristiche di Apache-Spark sono descritte di seguito:
Caratteristiche
Ecco alcune caratteristiche distintive che rendono Apache-Spark una scelta migliore rispetto ai suoi concorrenti:
Velocità: Come discusso in precedenza, utilizza DAG Scheduler (pianifica i lavori e determina la posizione adatta per ciascuna attività), l'esecuzione delle query e le librerie di supporto per eseguire qualsiasi attività in modo efficace e rapido.
Supporto multi -lingua: La funzione multi-linguaggio di Apache-Spark consente agli sviluppatori di creare applicazioni basate su Java, Python, R e Scala.
Elaborazione in tempo reale: Invece di elaborare i dati memorizzati, gli utenti possono ottenere l'elaborazione dei risultati mediante elaborazione in tempo reale dei dati e quindi produce risultati istantanei.
Migliore analisi: Per l'analisi, Spark utilizza una varietà di librerie per fornire analisi come algoritmi di apprendimento automatico, query SQL ecc. Tuttavia, il suo concorrente Apache-Mapreduce utilizza solo MAP e ridurre le funzioni per fornire analisi; Questa differenziazione analitica indica anche perché la scintilla supera le forme di mappa.
Focalizzare l'importanza e le incredibili caratteristiche di Apache Spark; La nostra scrittura di oggi aprirà la strada per installare Apache Spark sul tuo Ubuntu
Come installare Apache Spark su Ubuntu
Questa sezione ti guiderà a installare Apache Spark su Ubuntu:
Passaggio 1: aggiorna il sistema e installa Java
Prima di ottenere informazioni sulla parte centrale dell'installazione; Aggiorniamo il sistema utilizzando il comando menzionato di seguito:
$ sudo apt update
Dopo l'aggiornamento, il comando scritto di seguito installerà Java Environment poiché Apache-Spark è un'applicazione basata su Java:
$ sudo apt installare default-jdk
Passaggio 2: scarica il file di scintili apache ed estratto
Una volta installato correttamente Java, sei pronto per scaricare il file Apache Spark dal Web e il seguente comando scaricherà l'ultimo 3.0.3 Build of Spark:
$ wget https: // archivio.Apache.Org/Dist/Spark/Spark-3.0.3/Spark-3.0.3-bin-Hadoop2.7.TGZ
È necessario estrarre il file scaricato così; Il comando seguente eseguirà l'estrazione (nel mio caso):
$ TAR XVF Spark-3.0.3-bin-Hadoop2.7.TGZ
Dopodiché, sposta la cartella estratta su “/optare/"Directory seguendo il comando di seguito:
$ sudo mv spark-3.0.3-bin-Hadoop2.7//opt/scintili
Una volta completati i processi sopra, significa che hai finito con il download di Apache Spark, ma aspetta; Non funzionerà fino a quando non si configura l'ambiente Spark Le sezioni imminenti ti guideranno a configurare e utilizzare Spark:
Come configurare l'ambiente di scintilla
Per questo, è necessario impostare alcune variabili di ambiente nel file di configurazione "~/.profilo";
Accedi a questo file utilizzando il tuo editor (Nano nel mio caso), il comando scritto di seguito aprirà questo file in Nano Editor:
$ sudo nano ~/.profilo
E scrivere le seguenti righe alla fine di questo file; Una volta che hai finito, premere "Ctrl+s"Per salvare il file:
Esporta Spark_home =/opt/Spark
Export Path = $ Path: $ SPARK_HOME/BIN: $ SPARK_HOME/SBIN
Esporta pyspark_python =/usr/bin/python3
Carica il file per ottenere le modifiche per l'ambiente Spark:
$ fonte ~/.profilo
Come avviare il server master autonomo di Spark
Una volta impostate le variabili di ambiente; Ora puoi avviare il processo per il server master autonomo utilizzando il comando scritto di seguito:
$ Start-Master.sh
Una volta avviato il processo; L'interfaccia Web del server principale può essere recuperata utilizzando l'indirizzo indicato di seguito; Scrivi il seguente indirizzo nella barra dell'indirizzo del browser
https: // localhost: 8080/
Come avviare Slave/Worker Server di Spark
Il server slave può essere avviato utilizzando il comando indicato di seguito: si nota che è necessario URL di Master Server per avviare il lavoratore:
$ start-slave.SH SPARK: // ADNAN: 7077
Una volta che hai iniziato; Esegui l'indirizzo (https: // localhost: 8080) e noterai che c'è un lavoratore aggiunto in "Lavoratori" sezione. Si noti che il lavoratore sta usando il core "1" del processore e 3.3 GB di RAM per impostazione predefinita:
Ad esempio, limiteremo il numero di core dei lavoratori utilizzando il flag "-c": ad esempio, il comando menzionato di seguito avvierà un server con core "0" di utilizzo del processore:
$ start-slave.Sh -c 0 Spark: // Adnan: 7077
Puoi vedere le modifiche ricaricando la pagina (https: // localhost: 8080/)
Inoltre, è possibile limitare la memoria dei nuovi lavoratori utilizzando "-M"Flag: il comando scritto di seguito avvierà uno slave con un utilizzo della memoria di 256 MB:
$ start-slave.SH -M 256m Spark: // Adnan: 7077
Il lavoratore aggiunto con memoria limitata è visibile all'interfaccia Web (https: // localhost: 8080/)
Come avviare/fermare il maestro e lo schiavo
Puoi fermare o star master e slave immediatamente usando il comando menzionato di seguito:
$ start-all.sh
Allo stesso modo, il comando indicato di seguito fermerà tutte le istanze contemporaneamente:
$ stop-all.sh
Per iniziare e interrompere solo l'istanza principale, utilizzare i seguenti comandi:
$ Start-Master.sh
E per fermare il master in esecuzione:
$ stop-master.sh
Come eseguire Spark Shell
Una volta terminato la configurazione dell'ambiente Spark; È possibile utilizzare il comando menzionato di seguito per eseguire la shell di scintilla; In questo modo viene anche testato:
$ Spark-shell
Come eseguire Python in Spark Shell
Se la shell Spark è in esecuzione sul tuo sistema, puoi eseguire Python su questo ambiente; Esegui il seguente comando per ottenere questo:
$ pyspark
Nota: Il comando sopra non funzionerà se stai lavorando con Scala (lingua predefinita in Spark Shell), puoi uscirne digitando “: Q"E premendo"accedere"O semplicemente premere"Ctrl+c".
Conclusione
Apache Spark è un motore di analisi unificato open source che viene utilizzato per l'elaborazione dei big data utilizzando diverse librerie e per lo più utilizzate dagli ingegneri di dati e altri che devono lavorare su enormi quantità di dati. In questo articolo, abbiamo fornito una guida di installazione di Apache-Spark; così come la configurazione dell'ambiente Spark è anche descritta in dettaglio. L'aggiunta di lavoratori con numeri o core limitati e la memoria specificata sarebbe utile per salvare le risorse mentre si lavora con Spark.