Linuxhint ha già pubblicato un tutorial che spiega come installare e comprendere la formazione di Tesseract.
Questo tutorial mostra il processo di installazione di Tesseract nei sistemi Debian/Ubuntu ma non si estenderà alle funzionalità di formazione, se non si è familiarizzato con questo software che leggono l'articolo menzionato potrebbe essere una buona introduzione. Quindi ti mostreremo come elaborare un'immagine GIF con Tesseract per farne uscire il testo.
Correre:
Apt Installa Tesseract-Ooc
Ora devi installare ImageMagick che è un convertitore di immagini.
Una volta installato possiamo già testare il tesseract, per testarlo ho trovato una gif autorizzata per il riutilizzo.
Ora vediamo cosa succede quando eseguiamo Tesseract sull'immagine GIF:
Tesseract 2002NY40.Gif 1 Result
Ora fai un "meno" su 1 Result.TXT
Meno 1 Result.TXT
Ecco l'immagine con il suo testo:
In questo tesseract, le impostazioni predefinite sono abbastanza accurate, di solito per ottenere tale precisione richiede una formazione. Proviamo un'altra immagine gratuita che ho trovato su Wiki Commons, dopo averlo scaricato:
Tesseract Actualizar_GnulInux_Terminal_Apt-get.Gif 2Result
Ora controlla il contenuto del file.
Meno 2Result.TXT
Questo è stato il risultato mentre il contenuto dell'immagine originale era:
Al fine di migliorare il riconoscimento dei personaggi abbiamo molte opzioni e passaggi da seguire che sono stati dettagliati nel nostro tutorial precedente: rimozione del bordo, rimozione del rumore, ottimizzazione delle dimensioni e rotazione della pagina tra le altre funzioni come la coltura.
Per questo tutorial useremo TextCleaner, una sceneggiatura sviluppata dagli script di Fred ImageMagick.
Scarica lo script ed esegui:
./TextCleaner -g -e Stretch -f 25 -o 10 -s 1
Actualizar_GnulInux_terminal_apt-get.Test GIF.GIF
Nota: Prima di eseguire lo script dà le autorizzazioni di esecuzione eseguendo "Chmod +X TextCleaner"Come radice o con sudo prefisso.
Dove:
TextCleaner: chiama il programma
-G: Converti l'immagine in scala di grigi
-e: enche
-F: filtrizzare
-S: Shartamt, quantità di affiliazione di pixel da applicare al risultato.
Per informazioni ed esempi di utilizzo con TextCleaner visitare http: // www.fmwconcepts.com/imagemagick/textcleaner/indice.PHP
Come vedi TextCleaner ha cambiato il colore di sfondo, aumentando il contrasto tra il carattere e lo sfondo.
Se eseguiamo Tesseract probabilmente il risultato sarà diverso:
test di tesseract.GIF Testeutput
Meno testutput
Come vedi il risultato davvero migliorato anche quando non è completamente accurato.
Il comando convertire Fornito da ImageMagick ci consente di estrarre i frame dalle immagini GIF da elaborare in seguito da Tesseract, questo è utile se esiste un contenuto extrasposto in diversi fotogrammi dell'immagine GIF.
La sintassi è semplice:
convertire
Il risultato verrà generato come numero di file come frame nella GIF, nell'esempio fornito i risultati sarebbero: output-0.jpg, Output-1.jpg, Output-2.jpg, eccetera.
Quindi puoi elaborarli con Tesseract, istruendolo a elaborare tutti i file con un jolly salvando il risultato in un singolo file eseguendo:
per i in output-*; fare tesseract $ i outputesult; Fatto;
ImageMagick ha una vasta gamma di opzioni per ottimizzare le immagini e non esiste una modalità generica, per ogni tipo di scenario dovresti leggere la pagina di comando di convert.
Spero che tu abbia trovato questo tutorial su Tesseract è stato utile.