I componenti principali di Apache Hadoop sono:
Ora, dai un'occhiata ai metodi di seguito per Installazione e configurazione di Apache Hadoop sul tuo sistema Ubuntu. Quindi iniziamo!
Come installare Apache Hadoop su Ubuntu
Prima di tutto, apriremo il nostro terminale Ubuntu premendo "Ctrl+alt+t", Puoi anche digitare"terminale"Nella barra di ricerca dell'applicazione come segue:
Il prossimo passo è aggiornare i repository di sistema:
$ sudo apt update
Ora installeremo Giava Sul nostro sistema Ubuntu scrivendo il seguente comando nel terminale:
$ sudo APT Installa OpenJDK-11-JDK
Accedere "y/y"Per consentire il processo di installazione di continuare:
Ora, verifica l'esistenza del Java installato controllando la sua versione:
$ java -version
Creeremo un utente separato per l'esecuzione di Apache Hadoop sul nostro sistema utilizzando il "Aggiungi utente"Comando:
$ sudo adduser hadoopuser
Immettere la password del nuovo utente, il suo nome completo e altre informazioni. Tipo "y/y"Per confermare che le informazioni fornite sono corrette:
È tempo di cambiare l'utente corrente con l'utente Hadoop creato, che è "Hadoopuser" nel nostro caso:
$ su - Hadoopuser
Ora, utilizza il comando di seguito per la generazione di coppie di chiavi private e pubbliche:
$ ssh -keygen -t rsa
Immettere l'indirizzo del file in cui si desidera salvare la coppia di chiavi. Dopo questo, aggiungi una passphrase che verrai utilizzato nell'intera configurazione dell'utente Hadoop:
Successivamente, aggiungi queste coppie di chiavi a SSH Authorized_keys:
a ~/.SSH/ID_RSA.Pub >> ~/.SSH/AUTORITED_KEYS
Dato che abbiamo memorizzato la coppia di chiavi generata nella chiave autorizzata SSH, ora cambieremo le autorizzazioni di file in "640"Il che significa che solo noi come"proprietario"Del file avrà le autorizzazioni di lettura e scrittura,"gruppi"Avrà solo il permesso di lettura. Nessun permesso sarà concesso a "Altri utenti":
$ chmod 640 ~/.SSH/AUTORITED_KEYS
Ora autentica il localhost scrivendo il seguente comando:
$ ssh localhost
Utilizza il di seguito Wget Comando per l'installazione del framework Hadoop per il tuo sistema:
$ wget https: // downloads.Apache.Org/Hadoop/Common/Hadoop-3.3.0/Hadoop-3.3.0.catrame.Gz
Estrai il download "Hadoop-3.3.0.catrame.Gz"File con il comando TAR:
$ tar -xvzf hadoop -3.3.0.catrame.Gz
Puoi anche rinominare la directory estratta come faremo eseguendo il comando di seguito:
$ MV Hadoop-3.3.0 Hadoop
Ora, configura le variabili di ambiente Java per l'impostazione di Hadoop. Per questo, controlleremo la posizione del nostro "Java_home"Variabile:
$ dirname $ (dirname $ (readlink -f $ (che java)))
Apri il "~/.Bashrc"File nel tuo"nano" editor di testo:
$ nano ~/.Bashrc
Aggiungi i seguenti percorsi nell'aperto "~/.Bashrc" file:
esporta java_home =/usr/lib/jvm/java-11-openjdk-amd64
Export Hadoop_Home =/Home/Hadoopuser/Hadoop
Export Hadoop_Install = $ hadoop_home
Export hadoop_mapred_home = $ hadoop_home
Export hadoop_common_home = $ hadoop_home
Export Hadoop_hdfs_home = $ hadoop_home
Export hadoop_yarn_home = $ hadoop_home
Export hadoop_common_lib_native_dir = $ hadoop_home/lib/nativo
Export Path = $ Path: $ Hadoop_home/sbin: $ hadoop_home/bin
Export hadoop_opts = "-djava.biblioteca.Path = $ hadoop_home/lib/nativo "
Dopodiché, premere "Ctrl+O"Per salvare le modifiche che abbiamo apportato nel file:
Ora, scrivi il comando di seguito per attivare il "Java_home" variabile d'ambiente:
$ fonte ~/.Bashrc
La prossima cosa che dobbiamo fare è aprire il file variabile di ambiente di Hadoop:
$ nano $ hadoop_home/etc/hadoop/hadoop-env.sh
Dobbiamo impostare il nostro "Java_home"Variabile nell'ambiente Hadoop:
esporta java_home =/usr/lib/jvm/java-11-openjdk-amd64
Ancora una volta, premere "Ctrl+O"Per salvare il contenuto del file:
Come configurare Apache Hadoop su Ubuntu
Fino a questo punto, abbiamo installato correttamente Java e Hadoop, creato utenti Hadoop, configurato autenticazione basata sulla chiave SSH. Ora andremo avanti per mostrarti Come configurare Apache Hadoop su Ubuntu sistema. Per questo, il passo è creare due directory: DataNode E Namenode, All'interno della directory di Home di Hadoop:
$ mkdir -p ~/hadoopdata/hdfs/namenode
$ mkdir -p ~/hadoopdata/hdfs/dataNode
Aggiorneremo l'Hadoop "Core-site.XML"File aggiungendo il nostro nome host, quindi in primo luogo, conferma il tuo nome host di sistema eseguendo questo comando:
$ hostname
Ora, apri il "Core-site.XML"File nel tuo"nano"Editore:
$ nano $ hadoop_home/etc/hadoop/core-site.XML
Il nostro nome host di sistema in “Linuxhint-Vbox", Puoi aggiungere le seguenti righe con il nome host del sistema nel" sito core.XML ”File Hadoop:
fs.defaultfs HDFS: // Hadoop.Linuxhint-Vbox.com: 9000
Premere "Ctrl+O"E salva il file:
Nel "HDFS-Site.XML"File, cambieremo il percorso di directory di"DataNode" E "Namenode":
$ nano $ hadoop_home/etc/hadoop/hdfs-site.XML
dfs.replica 1 dfs.nome.Dir File: /// Home/HadoopUser/Hadoopdata/HDFS/Namenode dfs.dati.Dir File: /// Home/HadoopUser/HadoopData/HDFS/DataNode
Ancora una volta, per scrivere il codice aggiunto nel file, premere "CRTL+O":
Successivamente, apri il "sito mapprato.XML"File e aggiungi il codice di seguito donati in esso:
$ nano $ hadoop_home/etc/hadoop/mapped-site.XML
Riduci mappa.struttura.nome filato
Premere "Ctrl+O"Per salvare le modifiche apportate nel file:
L'ultimo file che deve essere aggiornato è il "filato.XML". Apri questo file Hadoop nel "nano"Editore:
$ nano $ hadoop_home/etc/hadoop/filato.XML
Scrivi le righe di seguito donate in "filato.XML" file:
filato.NodeManager.Aux-Services mapReduce_shuffle
Dobbiamo avviare il cluster Hadoop per gestire Hadoop. Per questo, formatteremo il nostro "Namenode" Primo:
$ HDFS Namenode -Format
Ora inizia il cluster Hadoop scrivendo il comando di seguito nel tuo terminale:
$ start-DFS.sh
Nel processo di avvio del cluster Hadoop, se ottieni il "Potrebbe risolvere l'errore di nome host", Quindi devi specificare il nome host in"/etc/host" file:
$ sudo nano /etc /host
Salva il "/etc/host"File, e ora siete tutti pronti per avviare il cluster Hadoop:
$ start-DFS.sh
Nel prossimo passaggio, inizieremo il "filato"Servizio dell'Hadoop:
$ start-yarn.sh
L'esecuzione del comando sopra dato ti mostrerà il seguente output:
Per verificare lo stato di tutti i servizi di Hadoop, eseguire il "JPS"Comando nel tuo terminale:
$ jps
L'output mostra che tutti i servizi sono in esecuzione con successo:
Hadoop ascolta al porto 8088 E 9870, Quindi devi consentire queste porte tramite il firewall:
$ firewall-cmd -permanent --add-port = 9870/TCP
$ firewall-cmd -permanent --add-port = 8088/TCP
Ora ricarica le impostazioni del firewall:
$ firewall-cmd--ricarico
Ora, apri il tuo browser e accedi al tuo Hadoop "Namenode"Inserisci il tuo indirizzo IP con la porta 9870:
Utilizzare il porto "8080"Con il tuo indirizzo IP per accedere al gestore delle risorse Hadoop:
Sull'interfaccia Web Hadoop, puoi cercare il "Sfoglia la directory"Scorri verso il basso la pagina Web aperta come segue:
Si trattava di installazione e configurazione di Apache Hadoop sul sistema Ubuntu. Per fermare il cluster Hadoop, devi fermare i servizi di "filato" E "Namenode":
$ stop-DFS.sh
$ stop-yarn.sh
Conclusione
Per diverse applicazioni di big data, Apache Hadoop è una piattaforma liberamente disponibile per la gestione, la memorizzazione e l'elaborazione di dati che operano su server cluster. È un file system distribuito tollerante ai guasti che consente l'elaborazione parallela. In Hadoop, il modello MapReduce viene utilizzato per archiviare ed estrarre dati dai suoi nodi. In questo articolo, ti abbiamo mostrato il metodo Per l'installazione e la configurazione di Apache Hadoop sul tuo sistema Ubuntu.