Quando si lavora con grandi quantità di dati che vengono acquisiti utilizzando un ampio insieme di parametri, cercare di trovare le relazioni e i modelli tra le funzionalità può diventare un compito noioso. Nonostante abbiano diversi modelli preesistenti che sono già disponibili nello spazio dell'analisi dei dati, usando uno per trovare effettivamente un'inferenza significativa su set di dati di grandi dimensioni può diventare un compito di scoperta di conoscenza complessa e completa. I set di dati di grandi dimensioni con un insieme molto ampio di parametri di raccolta dei dati tendono ad avere più tipi diversi di inferenze di dati tutte accumulate insieme. L'intelligenza leggera nella ricerca di algoritmi non è quindi in grado di trovare correttamente tutte le relazioni contenute in tale set di dati.
Qui è dove entra Apache Uima. Le applicazioni di gestione delle informazioni non strutturate (UIMA) sono specificamente costruite a tale scopo - per trovare il significato in una distribuzione dei dati altrimenti apparentemente non significativa. Di solito viene utilizzato per ordinare i dati non strutturati e per classificare i significati contenuti nelle relazioni tra diverse caratteristiche presenti in un set di dati. Ciò che fa l'Apache UIMA è consentire agli utenti di capire quali funzionalità sono codipendenti l'uno sull'altro, quali relazioni sono importanti per quali categorie in un set di dati e come tutte le istanze in un set di dati finiscono per spingere il set di dati in una determinata direzione.
UIMA non si limita a lavorare con i dati basati sul testo; Può anche essere utilizzato con dati basati su segni (dati video e audio). Ciò significa che non solo l'UIMA può trovare il significato nei dati testuali, ma può anche analizzare i set di dati di grandi dimensioni che contengono campioni audio o video e generare il significato per l'utente in base a alcuni set di parametri forniti. Per riassumere, Apache UIMA abilita la scoperta della conoscenza utilizzando un approccio analitico multimodale che vede il set di dati da diverse prospettive per trovare tutte le relazioni contenute all'interno.
Installazione
Per iniziare con l'installazione di Apache UIMA, iniziamo con l'aggiornamento del repository locale APT che contiene i nomi e le informazioni dei pacchetti.
1. Esegui il seguente comando nel terminale per aggiornare i repository e le informazioni locali APT:
$ sudo apt -get update -yDovresti vedere un output simile a quanto segue:
2. Ora installiamo Apache Uima eseguendo il seguente comando nel terminale:
$ sudo apt-get install -y uima-doocNOTA: L'argomento -y garantisce che l'installazione si verifichi in silenzio senza che tu debba inserire "sì" per qualsiasi prompt che l'installazione dell'installazione richiede.
Dovresti vedere un output simile a quanto segue:
3. Ora scarichiamo il pacchetto di distribuzione UIMA preferito visitando il link o utilizzando lo strumento WGET ed eseguendo il comando nel terminale (solo per gli utenti Linux):
$ wget https: // dlcdn.Apache.org // uima // uimaj-3.3.1/uimaj-3.3.1-bin.catrame.GzDovresti vedere un output simile a quanto segue:
4. Una volta completato il download, estraiamo il file e il CD scaricati.
Esegui il seguente comando nel terminale:
$ tar xzfCosì:
Quindi, spostati nella cartella estratta eseguendo il comando seguente:
$ cd apache-uima5. Ora creiamo una variabile di ambiente UIMA e gli diamo il percorso in cui risiede la cartella estratta.
Esegui il seguente comando nel terminale:
6. Esegui i seguenti comandi nel terminale. Vedrai un'istanza di Apache Uima che si aprirà:
$ $ UIMA_HOME/BIN/ADOGEXAMPHPATHS.sh $ $ $ uima_home/bin/documanAlyzer.shGuida utente
Con Apache Uima ora pronto per l'uso, iniziamo con la selezione della posizione del descrittore XML del motore di analisi. Ai fini di questa guida, selezioniamo una distribuzione dei dati premade per eseguire l'analisi e troviamo i modelli in questa distribuzione dei dati.
Ora eseguiamo il modello ed esaminiamo gli output che genera.
Diamo un'occhiata a una delle uscite generate:
Possiamo vedere che dall'intero set di dati che contengono le moltitudini dei passaggi basati sul testo contenenti informazioni diverse su materie diverse, l'UIMA è in grado di risolverli in distribuzioni più piccole che contiene le informazioni su un determinato argomento.
Selezionando il personaggio nelle annotazioni disponibili, possiamo vedere che è in grado di evidenziare tutte le persone che sono menzionate nella distribuzione dei dati.
Conclusione
Trovare il significato e l'inferenza in grandi set di dati non strutturati può essere un compito difficile. Il numero di parametri diversi da cercare e analizzare rende lo spazio target davvero enorme e diventa in qualche modo inefficiente analizzare un tale set di dati con algoritmi tradizionali. Apache UIMA aiuta a risolvere questo problema poiché è in grado di analizzare i set di dati di grandi dimensioni con relativa facilità e generare inferenza, trovare relazioni e scoprire i modelli anche nei set di dati più grandi che sono compilati sulla base di un insieme molto ampio di parametri di input. Non solo funziona brillantemente sui dati basati sul testo, ma fa anche bene sui dati audio o video.