Tesseract è la soluzione gratuita e probabilmente la migliore soluzione OCR sul mercato. Dal 2006 è stato sponsorizzato da Google; In precedenza, è stato sviluppato da Hewlett Packard in C e C ++ tra il 1985 e il 1998. Il sistema può identificare anche la calligrafia; Può imparare, aumentando la sua precisione ed è tra i più sviluppati e completi sul mercato.
Se adeguatamente addestrato, può battere concorrenti commerciali come Abby; Se stai cercando una soluzione seria per OCR, Tesseract è la più accurata, ma non aspettarti soluzioni enormi: utilizza un core per processo, il che significa 16 immagini contemporaneamente.
Tesseract è un'ottima soluzione, ma prima di pensarci, devi sapere che le versioni dell'ultima tessact hanno portato grandi miglioramenti, alcuni dei quali significano un duro lavoro. Mentre l'allenamento potrebbe durare per ore o giorni, le versioni recenti di Tesseract potrebbero essere di giorni, settimane o addirittura mesi, soprattutto se stai cercando una soluzione OCR multilingue.
Installazione di Tesseract su Debian e Ubuntu:
Per installare Tesseract sulla distribuzione di Debian o Ubuntu Linux, utilizzare APT come mostrato nello screenshot seguente.
SUDO APT Installa Tesseract -Ooc -y
Questo installerà tesseract sotto /usr/share/tesseract-ocr/4.00/tessdata.
Nota: Per altre distribuzioni Linux, salta per installare il tesseract da fonti.
Per impostazione predefinita, Tesseract installerà la lingua inglese. Per installare ulteriori lingue, la sintassi è la seguente. Nell'esempio seguente, installerò il pacchetto linguistico ebraico.
SUDO APT Installa Tesseract-OCR-HEB
Per installare tutte le lingue disponibili, eseguire:
SUDO APT Installa Tesseract-OCR-ALL -y
Affinché Tesseract funzioni correttamente, dovremo utilizzare il comando "Converti". Questo comando è utile per convertire tra i formati dell'immagine e ridimensionare un'immagine, sfocatura, raccolto, disponde, dither, disegni, lancia, join, ri-campione e molto altro ancora. Questo strumento è fornito da ImageMagick:
SUDO APT Installa ImageMagick
Ora test tesseract, trova un'immagine contenente testo ed esegui:
tesseract
Tesseract estraggerà il testo dall'immagine.
Quando ho lavorato con Tesseract, tutto ciò di cui avevamo bisogno era di contare le parole documenti. Come con qualsiasi altro programma, puoi e devi addestrarlo per capire la calligrafia.
Nei redattori di testo avanzati, possiamo definire alcuni simboli che possono essere contati o meno, se contare o meno, ecc., Lo stesso con la possibilità è disponibile su Tesseract.
Ottimizzazione del tesseract:
Introduzione al processo di formazione di Tesseract:
In precedenza questo articolo ha riguardato il processo di formazione di Tesseract, che si è evoluto in un processo più manuale che merita un articolo dedicato. Pertanto, questa sezione copre solo le informazioni teoriche sul processo di formazione e le istruzioni per installare gli strumenti di formazione in tesseract e avviarli.
Secondo il wiki ufficiale di Tesseract, abbiamo 3 opzioni attuali per formare il nostro sistema OCR:
Prima di proseguire le istruzioni di addestramento a tesseract, dovremo installare ulteriori librerie:
sudo apt installa libicu-dev libicu-dev libcairo2-dev
Sulle distribuzioni Linux con sede a Debian, installa il pacchetto di sviluppo Tesseract, inclusi gli strumenti di formazione in Tesseract che utilizzano APT come mostrato di seguito. Se non si utilizza una distribuzione Linux basata su Debian, leggi le istruzioni per installare gli strumenti di addestramento a tesseract da fonti.
SUDO APT Installa Libtesseract -dev -y
Dopo l'installazione, sarai in grado di vedere gli strumenti di formazione sotto /usr/share/tesseract-ooc/ come mostrato di seguito.
LS/USR/SHARE/Tesseract-OCR
Prima di iniziare ad addestrare una lingua, è necessario fornire a Tesseract il contenuto da cui imparare.
Per questo, è necessario creare la directory di Langdata e la sottodirectory Eng all'interno della directory principale dell'installazione di Tesseract. Quindi crea il file di testo di addestramento come mostrato di seguito.
sudo mkdir/usr/share/tesseract-ooc/langdata/
Sudo Mkdir/USR/Share/Tesseract-OCr/Langdata/Eng/
Sudo Nano/USR/Share/Tesseract-OCr/Langdata/Eng/Eng.training_text
Nota: Ricorda di aggiungere contenuti al Eng.training_text file.
Una volta aggiunto il file di testo di addestramento, la sintassi per iniziare ad allenare una lingua è la seguente. Il seguente comando è addestrare la lingua inglese definita come "Eng".
./Tesstrain.Sh--Lang Eng--Langdata_dir/usr/share/tesseract-ocr/langdata--tessdata_dir/usr/share/tesseract-ocr/tessdata
Questo processo potrebbe richiedere molto tempo. Naturalmente, questo dipende anche dai file di testo di allenamento. Questa è l'introduzione al processo di formazione Tesseract. Pubblicheremo un nuovo articolo focalizzato solo sul processo di formazione.
Risoluzione dei problemi dei caratteri mancanti:
Nel mio caso, ho ricevuto un errore quando ho provato a allenare il tesseract. Mancava il carattere audace Arial. L'ho risolto eseguendo il comando di seguito.
Sudo Apt Installa TTF-MScoreFonts-Installer
Installa tesseract da fonti su Linux:
Su diverse distribuzioni Linux, è possibile ottenere il tesseract usando Git, come mostrato di seguito.
Git clone https: // github.com/tesseract-ocr/tesseract.idiota
Una volta clonato, vai nella directory Tesseract eseguendo il CD.
CD tesseract
Quindi eseguire il autogen.sh Script come mostrato di seguito.
sudo ./autogen.sh
Il comando sopra crea i file di installazione; Ora esegui il seguente comando per avviare il processo di installazione.
sudo ./configura
Correre Fare Per iniziare a compilare Tesseract.
sudo make
Quindi corri Installa l'installazione, Come mostrato nello screenshot seguente.
sudo fare installazione
Eseguire ldconfig come mostrato di seguito.
sudo ldconfig
Per compilare strumenti di addestramento, eseguire il seguente comando.
Sudo fare formazione
Quindi corri:
sudo crea l'installazione di allenamento
Ora puoi seguire le istruzioni per iniziare con il processo di formazione.
Conclusione:
Come puoi vedere, l'installazione di Tesseract su Linux è abbastanza semplice, soprattutto sulle distribuzioni Linux basate su Debian. Quando ho usato Tesseract, abbiamo gestito migliaia di potenziali clienti che caricano contenuti scritti a mano, immagini con testo, ecc. Abbiamo usato 48 server core, con databasebydesign e poi con AWS; Non abbiamo mai avuto un problema di risorse.
Avevamo un caricatore che discriminava tra file di testo come Microsoft Office o Open Office File e immagini o documenti scansionati. L'argicazione ha determinato qualunque cosa gli script OCR o PHP avrebbero elaborato un ordine nel campo del riconoscimento del testo.
Nella mia esperienza, Tesseract è la migliore soluzione OCR disponibile sul mercato ed è open-source.
Grazie per aver letto questo tutorial spiegando come installare e configurare Tesseract OCR su Linux. Continua a seguirci per ulteriori suggerimenti e tutorial Linux.