Come installare e utilizzare Apache Mahout in Linux

Come installare e utilizzare Apache Mahout in Linux

Mahout è un progetto open source della Apache Software Foundation. Viene utilizzato per la creazione di algoritmi di apprendimento automatico e analisi statistiche o matematiche. Mahout è in grado di assumere attività di data mining e apprendimento automatico abbastanza grandi a causa del suo approccio di calcolo distribuito a tali problemi. Usando Hadoop in background, Mahout è in grado di dividere le grandi attività di data mining in sottottacini più piccoli che sono quindi programmati per funzionare in diverse istanze in modo parallelo. Ciò consente all'utente di svolgere un'attività complessa relativamente rapidamente dividendola in compiti più piccoli e eseguendoli tutti insieme su diverse istanze dell'applicazione utilizzando l'infrastruttura cloud.

Mahout fornisce ai suoi utenti una serie di funzionalità diverse. Questi includono tecniche relative all'apprendimento automatico e all'analisi dei dati, alcune delle quali sono raccomandazione Modelli, classificazione tecniche e clustering Modelli. Dal momento che è costruito sopra Hadoop, consente agli utenti di utilizzare il cloud computing distribuito di Hadoop. Lavorando perfettamente a fianco di Hadoop, Mahout è in grado di svolgere molto rapidamente le attività di data mining e analisi, rendendolo una delle migliori soluzioni a grandi problemi di data mining.

Installazione

Usare Mahout, hai prima bisogno della versione 1 Java (JDK).7, Maven versione 3.0 o superiore e sovversione. Senza queste tre dipendenze, Apache Mahout non funzionerà sulla macchina Linux.

Installazione Java JDK

1. Vai alla pagina Download Java facendo clic su questo link.

2. Seleziona Linux X64: JDK-7U45-Linux-X64.catrame.GZ, accetta i termini di licenza e scarica il file.

3. Vai alla directory in cui hai scaricato il file e apri il terminale qui.


Esegui il seguente comando:

$ sudo CP JDK-7U45-Linux-X64.catrame.GZ/USR/Local/Lib/

Questo copia la cartella estratta in /usr/locale/lib/.

4. Spostarsi nel /usr/locale/lib/ cartella eseguendo il seguente comando:

$ cd/usr/locale/lib/

5. Esegui il comando seguente nel terminale per estrarre il contenuto della cartella compressa:

$ sudo tar -xzvf jdk-7u45-linux-x64.catrame.Gz


6. Rimuovi il file compresso che abbiamo appena estratto:

$ Sudo RM JDK-7U45-Linux-X64.catrame.Gz

7. Spostati nel tuo Home/Nome utente/ eseguendo il seguente comando:

$ CD /Home //

8. Aggiungi la casa Java sul percorso eseguendo i seguenti passaggi:

Esegui il seguente comando:

$ nano .profilo

Aggiungi le seguenti due righe alla fine del profilo che abbiamo appena aperto.

esporta java_home = "/usr/local/lib/jdk1.7.0_45 "
Export Path = "$ java_home/bin: $ path"


Installazione di Maven

1. Con un Java JDK ora installato, ora installiamo Maven, che è il secondo requisito per eseguire il Mahout.

Esegui il seguente comando nel terminale:

$ sudo apt-get install maven

Dovresti vedere un output simile alla seguente illustrazione:

Per verificare se Maven è stato installato correttamente sulla macchina, eseguire il seguente comando nel terminale:

$ mvn -v



Installazione di sovversione

1. Con Maven ora installato correttamente, ora installiamo la sovversione. La sovversione è un sistema di controllo della revisione software gratuito. Consente agli utenti di tenere traccia delle diverse versioni del codice sorgente sulle loro macchine.

Esegui il seguente comando:

$ sudo apt-get Installa Subversion

Dovresti vedere un output simile nel tuo terminale:

Esegui il comando seguente per verificare se la sovversione è stata installata correttamente:

$ svn -version


2. Con la sovversione ora installata, abbiamo installato con successo tutte le dipendenze Mahout.

Ora procederemo a scaricare e installare mahout.

Innanzitutto, spostati nella directory in cui si desidera installare Mahout.

Esegui il seguente comando:

$ svn co http: // svn.Apache.org/repos/asf/mahout/trunk

Dovresti vedere un'uscita terminale simile:

Ora ci spostiamo nel tronco Directory:

$ cd trunk

Ora, esegui il seguente comando:

$ mvn -dskiptest

Ora dovresti avere Apache Mahout pronto per l'uso sulla tua macchina Linux.

Guida utente

Mahout utilizza un'interfaccia di programmazione per sbloccare il potenziale del calcolo distribuito Mahout. La lingua che viene utilizzata per interagire con questo framework è Java.

Mahout è una soluzione completa a complesse attività di apprendimento automatico e data mining. Poiché non fornisce un'interfaccia utente interattiva, gli utenti devono conoscere l'uso del linguaggio Java per scatenare il pieno potenziale di questo framework.

Ciò significa che Mahout non può essere usato da persone che non fanno fluente. Ciò non significa tuttavia che non si deve provare. Imparare un nuovo linguaggio di programmazione è qualcosa che non è complesso oggi. Con le risorse prontamente disponibili, si può facilmente imparare Java e interagire con il framework Mahout per creare algoritmi che possono essere utilizzati con set di dati di grandi dimensioni per trovare soluzioni e modelli ai problemi in un ambiente distribuito.

Conclusione

Ci sono molti quadri di data mining e machine learning che sono disponibili oggi sul mercato. Mahout di Apache è uno di questi framework. Mahout è famoso per aver consentito l'uso di un ambiente distribuito che utilizza Hadoop sul cloud per dividere le complesse attività di mining di dati in sottointazioni più piccole che possono essere eseguite su più istanze dell'applicazione. Ciò si traduce in un compito più grande completato in un arco di tempo più breve, ridimensionando anche la potenza di calcolo complessiva che viene utilizzata a unità più piccole.

Mahout viene utilizzato scrivendo il codice in Java che è una lingua che ha fatto il nome sopravvivendo ai test del tempo. Questo rende Java un'abilità molto utile da avere. Imparare Java per usare questa funzionalità offerta da Apache è qualcosa che la maggior parte dei data scientist fa ad un certo punto nella loro carriera. Mentre la maggior parte dei professionisti del data mining non dovrà mai utilizzare il cloud computing distribuito nel campo della scienza dei dati, esiste tuttavia per la piccola quantità di attività che richiedono una soluzione distribuita più scalabile.