Come installare e configurare Apache Hadoop su Ubuntu

Come installare e configurare Apache Hadoop su Ubuntu
Apache Hadoop è una piattaforma software con sede a base di Java, open source e liberamente disponibile per la memorizzazione e l'analisi di grandi set di dati sui cluster di sistema. Mantiene i suoi dati nel file system distribuito Hadoop (HDFS) e elabora utilizzando MapReduce. Hadoop è stato utilizzato nelle tecniche di machine learning e data mining. Viene anche utilizzato per la gestione di più server dedicati.

I componenti principali di Apache Hadoop sono:

  • HDFS: In Apache Hadoop, HDFS è un file system distribuito su numerosi nodi.
  • Riduci mappa: È un framework per lo sviluppo di applicazioni che gestiscono un'enorme quantità di dati.
  • Hadoop comune: È un insieme di librerie e utility che sono necessarie dai moduli Hadoop.
  • Filato Hadoop: In Hadoop, Hadoop Yarn gestisce gli strati di risorse.

Ora, dai un'occhiata ai metodi di seguito per Installazione e configurazione di Apache Hadoop sul tuo sistema Ubuntu. Quindi iniziamo!

Come installare Apache Hadoop su Ubuntu

Prima di tutto, apriremo il nostro terminale Ubuntu premendo "Ctrl+alt+t", Puoi anche digitare"terminale"Nella barra di ricerca dell'applicazione come segue:

Il prossimo passo è aggiornare i repository di sistema:

$ sudo apt update

Ora installeremo Giava Sul nostro sistema Ubuntu scrivendo il seguente comando nel terminale:

$ sudo APT Installa OpenJDK-11-JDK

Accedere "y/y"Per consentire il processo di installazione di continuare:

Ora, verifica l'esistenza del Java installato controllando la sua versione:

$ java -version

Creeremo un utente separato per l'esecuzione di Apache Hadoop sul nostro sistema utilizzando il "Aggiungi utente"Comando:

$ sudo adduser hadoopuser

Immettere la password del nuovo utente, il suo nome completo e altre informazioni. Tipo "y/y"Per confermare che le informazioni fornite sono corrette:

È tempo di cambiare l'utente corrente con l'utente Hadoop creato, che è "Hadoopuser" nel nostro caso:

$ su - Hadoopuser

Ora, utilizza il comando di seguito per la generazione di coppie di chiavi private e pubbliche:

$ ssh -keygen -t rsa

Immettere l'indirizzo del file in cui si desidera salvare la coppia di chiavi. Dopo questo, aggiungi una passphrase che verrai utilizzato nell'intera configurazione dell'utente Hadoop:

Successivamente, aggiungi queste coppie di chiavi a SSH Authorized_keys:

a ~/.SSH/ID_RSA.Pub >> ~/.SSH/AUTORITED_KEYS

Dato che abbiamo memorizzato la coppia di chiavi generata nella chiave autorizzata SSH, ora cambieremo le autorizzazioni di file in "640"Il che significa che solo noi come"proprietario"Del file avrà le autorizzazioni di lettura e scrittura,"gruppi"Avrà solo il permesso di lettura. Nessun permesso sarà concesso a "Altri utenti":

$ chmod 640 ~/.SSH/AUTORITED_KEYS

Ora autentica il localhost scrivendo il seguente comando:

$ ssh localhost

Utilizza il di seguito Wget Comando per l'installazione del framework Hadoop per il tuo sistema:

$ wget https: // downloads.Apache.Org/Hadoop/Common/Hadoop-3.3.0/Hadoop-3.3.0.catrame.Gz

Estrai il download "Hadoop-3.3.0.catrame.Gz"File con il comando TAR:

$ tar -xvzf hadoop -3.3.0.catrame.Gz

Puoi anche rinominare la directory estratta come faremo eseguendo il comando di seguito:

$ MV Hadoop-3.3.0 Hadoop

Ora, configura le variabili di ambiente Java per l'impostazione di Hadoop. Per questo, controlleremo la posizione del nostro "Java_home"Variabile:

$ dirname $ (dirname $ (readlink -f $ (che java)))

Apri il "~/.Bashrc"File nel tuo"nano" editor di testo:

$ nano ~/.Bashrc

Aggiungi i seguenti percorsi nell'aperto "~/.Bashrc" file:

esporta java_home =/usr/lib/jvm/java-11-openjdk-amd64
Export Hadoop_Home =/Home/Hadoopuser/Hadoop
Export Hadoop_Install = $ hadoop_home
Export hadoop_mapred_home = $ hadoop_home
Export hadoop_common_home = $ hadoop_home
Export Hadoop_hdfs_home = $ hadoop_home
Export hadoop_yarn_home = $ hadoop_home
Export hadoop_common_lib_native_dir = $ hadoop_home/lib/nativo
Export Path = $ Path: $ Hadoop_home/sbin: $ hadoop_home/bin
Export hadoop_opts = "-djava.biblioteca.Path = $ hadoop_home/lib/nativo "

Dopodiché, premere "Ctrl+O"Per salvare le modifiche che abbiamo apportato nel file:

Ora, scrivi il comando di seguito per attivare il "Java_home" variabile d'ambiente:

$ fonte ~/.Bashrc

La prossima cosa che dobbiamo fare è aprire il file variabile di ambiente di Hadoop:

$ nano $ hadoop_home/etc/hadoop/hadoop-env.sh

Dobbiamo impostare il nostro "Java_home"Variabile nell'ambiente Hadoop:

esporta java_home =/usr/lib/jvm/java-11-openjdk-amd64

Ancora una volta, premere "Ctrl+O"Per salvare il contenuto del file:

Come configurare Apache Hadoop su Ubuntu

Fino a questo punto, abbiamo installato correttamente Java e Hadoop, creato utenti Hadoop, configurato autenticazione basata sulla chiave SSH. Ora andremo avanti per mostrarti Come configurare Apache Hadoop su Ubuntu sistema. Per questo, il passo è creare due directory: DataNode E Namenode, All'interno della directory di Home di Hadoop:

$ mkdir -p ~/hadoopdata/hdfs/namenode
$ mkdir -p ~/hadoopdata/hdfs/dataNode

Aggiorneremo l'Hadoop "Core-site.XML"File aggiungendo il nostro nome host, quindi in primo luogo, conferma il tuo nome host di sistema eseguendo questo comando:

$ hostname

Ora, apri il "Core-site.XML"File nel tuo"nano"Editore:

$ nano $ hadoop_home/etc/hadoop/core-site.XML

Il nostro nome host di sistema in “Linuxhint-Vbox", Puoi aggiungere le seguenti righe con il nome host del sistema nel" sito core.XML ”File Hadoop:



fs.defaultfs
HDFS: // Hadoop.Linuxhint-Vbox.com: 9000

Premere "Ctrl+O"E salva il file:

Nel "HDFS-Site.XML"File, cambieremo il percorso di directory di"DataNode" E "Namenode":

$ nano $ hadoop_home/etc/hadoop/hdfs-site.XML


dfs.replica
1


dfs.nome.Dir
File: /// Home/HadoopUser/Hadoopdata/HDFS/Namenode


dfs.dati.Dir
File: /// Home/HadoopUser/HadoopData/HDFS/DataNode

Ancora una volta, per scrivere il codice aggiunto nel file, premere "CRTL+O":

Successivamente, apri il "sito mapprato.XML"File e aggiungi il codice di seguito donati in esso:

$ nano $ hadoop_home/etc/hadoop/mapped-site.XML


Riduci mappa.struttura.nome
filato

Premere "Ctrl+O"Per salvare le modifiche apportate nel file:

L'ultimo file che deve essere aggiornato è il "filato.XML". Apri questo file Hadoop nel "nano"Editore:

$ nano $ hadoop_home/etc/hadoop/filato.XML

Scrivi le righe di seguito donate in "filato.XML" file:



filato.NodeManager.Aux-Services
mapReduce_shuffle

Dobbiamo avviare il cluster Hadoop per gestire Hadoop. Per questo, formatteremo il nostro "Namenode" Primo:

$ HDFS Namenode -Format

Ora inizia il cluster Hadoop scrivendo il comando di seguito nel tuo terminale:

$ start-DFS.sh

Nel processo di avvio del cluster Hadoop, se ottieni il "Potrebbe risolvere l'errore di nome host", Quindi devi specificare il nome host in"/etc/host" file:

$ sudo nano /etc /host

Salva il "/etc/host"File, e ora siete tutti pronti per avviare il cluster Hadoop:

$ start-DFS.sh

Nel prossimo passaggio, inizieremo il "filato"Servizio dell'Hadoop:

$ start-yarn.sh

L'esecuzione del comando sopra dato ti mostrerà il seguente output:

Per verificare lo stato di tutti i servizi di Hadoop, eseguire il "JPS"Comando nel tuo terminale:

$ jps

L'output mostra che tutti i servizi sono in esecuzione con successo:

Hadoop ascolta al porto 8088 E 9870, Quindi devi consentire queste porte tramite il firewall:

$ firewall-cmd -permanent --add-port = 9870/TCP
$ firewall-cmd -permanent --add-port = 8088/TCP

Ora ricarica le impostazioni del firewall:

$ firewall-cmd--ricarico

Ora, apri il tuo browser e accedi al tuo Hadoop "Namenode"Inserisci il tuo indirizzo IP con la porta 9870:

Utilizzare il porto "8080"Con il tuo indirizzo IP per accedere al gestore delle risorse Hadoop:

Sull'interfaccia Web Hadoop, puoi cercare il "Sfoglia la directory"Scorri verso il basso la pagina Web aperta come segue:

Si trattava di installazione e configurazione di Apache Hadoop sul sistema Ubuntu. Per fermare il cluster Hadoop, devi fermare i servizi di "filato" E "Namenode":

$ stop-DFS.sh
$ stop-yarn.sh

Conclusione

Per diverse applicazioni di big data, Apache Hadoop è una piattaforma liberamente disponibile per la gestione, la memorizzazione e l'elaborazione di dati che operano su server cluster. È un file system distribuito tollerante ai guasti che consente l'elaborazione parallela. In Hadoop, il modello MapReduce viene utilizzato per archiviare ed estrarre dati dai suoi nodi. In questo articolo, ti abbiamo mostrato il metodo Per l'installazione e la configurazione di Apache Hadoop sul tuo sistema Ubuntu.