Come installare e utilizzare MOA in Linux

Come installare e utilizzare MOA in Linux

Massive Online Analytics (MOA) è uno strumento software open source gratuito che consente agli utenti di lavorare con i flussi di dati. I flussi di dati sono pacchetti continui di dati trasmessi in tempo reale da utilizzare quando vengono ricevuti. Ciò che rende speciale MOA è che è in grado di ricevere flussi di dati come input e aumentare l'esecuzione di un algoritmo sottostante per soddisfare le esigenze dei dati in arrivo.

MOA è ampiamente utilizzato dalla comunità di dati di dati per generare approfondimenti sui dati che sono in natura continua. Contiene clustering, classificazione, regressione, rilevamento anomalo, deriva concettuale e algoritmi di apprendimento attivo che possono utilizzare i flussi di dati in arrivo per generare preziose inferenze. Queste inferenze possono quindi essere valutate utilizzando gli algoritmi di valutazione integrati.

Strumenti come MOA che viene fornito con interfacce utente grafiche intuitive rendono facile per tutti creare algoritmi complessi in grado di generare utili approfondimenti sui dati che altrimenti richiederebbero la codifica in un linguaggio di programmazione. MOA consente alle persone provenienti da sfondi non di programmazione di lavorare con modelli di apprendimento automatico complessi e consente anche loro di ottenere risultati preziosi come output in forme diverse tra cui grafici, tabelle e grafici.

Installazione

Per installare MOA su qualsiasi macchina Linux, iniziamo prima con il download del file MOA.

1. Scarica il file dalla pagina web del MOA.

2. Dopo che il file è stato scaricato, estraiamo il file scaricato e lo inseriamo dove ne abbiamo bisogno.


3. Ora apriamo la cartella estratta e ci spostiamo nella directory della radice per MOA.

4. Dopo essersi trasferiti alla directory principale, apriamo un'istanza del terminale qui facendo clic con il tasto destro e selezionando il Aperto nel terminale opzione.

5. Ora eseguiamo il seguente comando per eseguire MOA su qualsiasi macchina Linux:

$ bin/moa.sh

Dovresti ottenere un'output del terminale che è simile a questo:

Con questo, un'istanza di MOA dovrebbe avviare un'esecuzione sulla macchina Linux.

Sembra qualcosa di simile a questo:

Guida utente

Con Moa Ora installato e pronto per l'uso sulla macchina Linux, puoi iniziare a creare il flusso di lavoro dell'analisi dei dati.

Per iniziare, devi fare clic su Configurare Opzione nella parte superiore dell'interfaccia utente grafica MOA. Ciò ti fornisce diverse categorie e opzioni tra cui scegliere e selezionare in base al tipo di modello di data mining richiesto dall'applicazione specifica.

Per questo esperimento, creiamo a Classificazione Modello selezionando l'opzione di classificazione sul lato sinistro.

Le tre categorie principali che puoi cambiare o piuttosto scegliere sono le Studente, Flusso, E Valutatore.


Studente

Questo specifica che tipo di modello vuoi che il tuo flusso di lavoro utilizzi per la formazione sui tuoi dati. Ci sono più opzioni tra cui scegliere, alcune delle quali sono:

    1. NaiveBayes
    2. MultinomialnaiveBayes
    3. Maggiorityclass
    4. Driftdectionmethodclassifier

Per questo esperimento, usiamo il MultinomialnaiveBayes modello.


Flusso

Questo specifica che tipo di istanze di dati vogliamo generare il nostro modello. Ci sono più opzioni tra cui scegliere tra cui includono:

    1. RandomTreeGenerator
    2. Staggeneratore
    3. GENERATORE
    4. WaveFormGenerator

Questa opzione dipende specificamente dal tipo di istanze generate che richiede il caso d'uso.

Noi usiamo WaveFormGenerator Per questa guida.


Valutatore

Ciò specifica il tipo di valutazione che vogliamo che le uscite generate siano. Esistono tre opzioni principali tra cui scegliere in questa categoria che includono:

    1. BasicClassificationPerformanceEvaluator
    2. FadingFactorClassificationPerformanceEvaluator
    3. WindowsClassificationPerformanceEvaluator

Noi usiamo il Classificazione delle finestre Valutatore con precisione, richiamo, precisione per classe, richiamo per classe e punteggio F1 per classe tutti output come risultato. Queste metriche delle prestazioni ci aiutano a comprendere meglio la distribuzione saggia e i punteggi delle prestazioni individualmente per i nostri dati.


Ci sono altre opzioni dopo le tre opzioni relative al modello principale che possiamo anche modificare. Includono cose come limitare il numero di istanze al modello e le informazioni su dove produrre i risultati della previsione generati dal modello. Li lasceremo ai loro preset predefiniti poiché non sono richiesti ai fini di questo esperimento.

Dopo aver finito di configurare il modello per soddisfare le nostre esatte esigenze, facciamo clic sul Correre Opzione che essenzialmente esegue il modello così com'è. Con i dati continui alimentati ad esso tramite flussi di dati, continua a eseguire le iterazioni del modello mentre continua a ricevere i dati come input. Con ogni iterazione in esecuzione, i risultati che generano vengono emessi sullo schermo.

La seguente immagine mostra i diversi risultati che il modello ha generato. Questi includono categorie come il numero di istanze su cui il modello si è formato e il tempo di valutazione che la CPU prende per generare i risultati su questi dati.


Se scorriamo oltre, possiamo vedere le metriche per le prestazioni di classe che vengono emesse. Queste metriche di performance ci dicono i punteggi saggiamente di precisione, richiamo e F1. Tutti abilitati durante la fase di configurazione nella creazione del modello.

Conclusione

Il mondo dell'analisi dei dati ha molti strumenti che possono essere utilizzati per realizzare i flussi di lavoro di data mining. Alcuni di loro sono dotati di interfacce utente grafiche mentre altri sono rigorosamente basati sulla programmazione. L'analisi online enorme è uno di questi strumenti che utilizza una GUI intuitiva. Questo aiuta le persone con poca o nessuna esperienza di programmazione a creare ed eseguire anche modelli intelligenti complessi che li aiutano a generare risultati sui loro flussi di dati.

Il vantaggio chiave dell'utilizzo di MOA è che consente agli utenti di lavorare con i flussi di dati. Ciò significa che gli algoritmi di analisi dei dati in tempo reale possono essere creati e utilizzati per determinati casi d'uso. Di conseguenza, questo strumento è diventato la soluzione di riferimento per la maggior parte delle applicazioni di generazione di inferenza in tempo reale.