Installa Apache Spark su Windows Top 10

Installa Apache Spark su Windows Top 10
Mentre si lavora con i dati di programmazione, di solito è abbastanza difficile per gli sviluppatori Web elaborare una così grande quantità di dati. Insieme a questo, a volte tendi a lavorare su diversi linguaggi di programmazione contemporaneamente per progettare il tuo sistema. In tali situazioni, potrebbe essere necessario passare attraverso un'immensa quantità di codice ed elaborarlo. Pertanto, abbiamo bisogno di un sistema per elaborare il nostro carico di lavoro senza passare l'intero processo dell'intero sistema. Apache Spark ci offre l'opportunità di lavorare con molte lingue alla volta, come Java, R, Python e Scala. Inoltre, nasconde l'elaborazione complessa e ci consente di lavorare con meno codici. Questa guida ti aiuterà a installare lo squalo Apache su Windows 11.

Installa Java:

A partire dal lancio del browser più utilizzato, scarica e installa l'ultima versione di Java. Per questo, cerca il sito ufficiale "Java" e il percorso verso la sua pagina di download. Dalla pagina qui sotto, scarica l'ultima versione Java in base alle specifiche del sistema.

Esegui il file "JRE" scaricato utilizzando l'opzione "Esegui come amministratore". Dopo aver eseguito questo file "JRE" scaricato, ti verrà presentata una nuova finestra mostrata di seguito. È necessario assentire al contratto di licenza di Java per installarlo. Quindi, tocca il pulsante "Installa" per continuare.

La configurazione di installazione Java inizierà a installarlo sul nostro sistema operativo Windows 11.

Dopo che l'installazione di Java è completa, premi il pulsante "Chiudi" per chiudere la finestra.

Controllando la versione di Java nel prompt dei comandi, vedrai la versione di Java installata sul nostro sistema nella prima riga dell'output del comando "-Version".

Installa Python:

È ora di installare l'ultima versione di Python sul nostro sistema operativo Windows 11. Senza Python, la nostra scintilla Apache potrebbe non funzionare. Pertanto, vai sul sito Web ufficiale di Python usando il browser e naviga verso la sua pagina di download. Ti verrà mostrato la più recente versione di Python. Tocca il link consigliato per scaricarlo sul tuo sistema, i.E, Windows 11.

Esegui il file EXE "Python" scaricato e attendi fino a iniziare la progressione dell'installazione.

Verrebbe visualizzata la finestra di installazione di Python, mostrandoci le informazioni sulla sua installazione. È necessario utilizzare l'opzione "Installa ora" dalle opzioni disponibili. Non segnare il "Aggiungi Python 3.Casella di controllo da 20 per percorso ”. L'installazione sarebbe stata avviata dopo.

Dopo un po ', il Python verrà installato correttamente e puoi chiudere la finestra di installazione mostrata di seguito utilizzando il pulsante "Chiudi" nella parte inferiore destra.

Utilizzando il comando versione per Python sul prompt dei comandi, vedrai la versione installata di Python, i.e., Python 3.10.6.

Scarica Spark:

Dopo le installazioni di successo di Java e Python, il nostro sistema è ora pronto per installare Spark. Per questo, scaricalo prima dal suo sito ufficiale. Assicurati di selezionare l'ultima versione e l'opzione “Pre-built per Apache Hadoop 3.3 e altera "dall'elenco a discesa e singolo clic sul file" TGZ "davanti alla terza riga, i.e., "Scarica Spark".

Verrai reindirizzato a un'altra pagina in cui puoi selezionare il file mirror per Spark secondo la tua scelta. Ti consigliamo di utilizzare il primo link fornito nell'immagine qui sotto.

Ora che il file "TGZ" Spark è stato scaricato, è tempo di usarlo per l'installazione.

Verifica il file di scintilla:

Per verificare l'affidabilità del software scaricato, è necessario utilizzare il comando di certutile in cima. Garantirà l'integrità del file utilizzando il suo checksum dall'opzione "checksums" sulla riga 4 della pagina di download. Devi fornire il percorso del tuo file in questo comando con l'opzione "-Hashfile". L'output visualizza il suo checksum insieme al messaggio di completamento con successo per questo comando. Puoi confermarlo visitando la pagina di download.

Installa Apache Spark:

Dopo questo, è necessario creare una nuova cartella per una scintilla nella cartella principale in cui si tende a installare il sistema operativo e anche gli altri, io.e., Drive "C". Quindi, usa l'istruzione "mkdir" per creare una cartella "scintilla" al suo interno.

Ora apri il tuo drive C e naviga nella cartella "Spark". Devi estrarre il file zip "Spark" scaricato al suo interno come mostrato nell'immagine.

Aggiungi winutili.File exe:

Apri la pagina GitHub usando il "percorso" dall'immagine in basso e tocca "WinTili.exe". Verrebbe un altro schermo e devi sbattere il pulsante "Download" per ottenerlo.

È necessario creare la cartella "Hadoop" nell'unità "C" e creare una cartella "Bin" al suo interno tramite la query MKDIR.

Posiziona i "winutili scaricati.File Exe "nella cartella" Hadoop \ bin "appena creata.

Configurare le variabili di ambiente per Spark:

È tempo di aggiungere Spark, Hadoop e Java alle nostre variabili di ambiente. Quindi, cerca la parola chiave "ambiente" nella barra di ricerca e tocca lo strumento "Modifica le variabili di ambiente di sistema" che è appena apparso sullo schermo.

La finestra denominata "Proprietà di sistema" si aprirà sullo schermo. Dalla sua sezione seguente, premi il pulsante "Variabili di ambiente ..." per procedere.

Puoi vedere tutte le variabili di sistema elencate lì. Tocca il pulsante "nuovo" per generare un ambiente nuovo mutabile per "Spark" prima.

Una finestra di dialogo con "Modifica la variabile utente" apparirà in un momento e devi nominare una variabile "Spark_home" con il percorso della cartella Spark come valore variabile, i.e., “C: \ Spark \ Spark-3.3.0-Bin-Hadoop3 ". Facendo clic sul pulsante "OK" imposterà una nuova variabile di ambiente in un sistema.

Vedrai una variabile denominata "Spark_home" nella sezione Variabili utente. Tocca la variabile denominata "percorso" e distruggi il pulsante "Modifica".

Verrà aperta una schermata "Modifica la variabile di ambiente". Premi il pulsante "nuovo" per aggiungere il percorso della variabile. Prendi in considerazione l'uso del nome variabile %Spark_home %"con la cartella" \ bin ".

Allo stesso modo, crea una nuova variabile per "Hadoop".

Quindi, crea anche una nuova variabile per "Java" e tocca "OK".

Allo stesso modo, tocca la variabile "percorso" e aggiungi un percorso per le variabili "Java" e "Hadoop" che abbiamo appena creato i.e. Utilizzando il "%Hadoop_home%" e i nomi delle variabili "%java_home%" con la cartella "\ bin" come visualizzato nella schermata seguente.

Ora avvia la tua applicazione "CMD" come "amministratore" tramite l'uso della scelta "Esegui come amministratore". Aggiungi il percorso di comando di seguito nella sua area di query con "Sparkshell" per vedere se la scintilla è configurata correttamente o no. Verrà aperta una nuova finestra di flusso di informazioni e è necessario utilizzare il pulsante "Consenti" per consentire l'accesso. Se il prompt dei comandi mostra il logo di progettazione "Spark" insieme alla versione installata, la scintilla è completamente configurata e pronta per l'uso.

C: \ Spark \ Spark-3.3.0-Bin-Hadoop3 \ bin \ Sparkshell

Apri il tuo browser preferito e inserisci il percorso "LocalHost: 4040/Jobs/" in esso. Verrà visualizzata l'interfaccia utente Web di Apache Spark, visualizzando il riepilogo degli eventi di sistema.

Conclusione:

Dopo aver esaminato questa guida, sarai in grado di utilizzare Apache Spark sul tuo sistema operativo Windows 11, poiché abbiamo implementato ogni bit della configurazione necessaria per impostare Apache Spark. Per assicurarti che la tua scintilla Apache funzioni bene alla fine, non dovresti lasciare un singolo passaggio sopra menzionato nella guida, a partire dall'installazione di Java, Python, Spark, aggiungendo i winutili.Exe File e la parte più importante dell'impostazione delle variabili di ambiente.