Installa tesseract OCR su Linux

Installa tesseract OCR su Linux
Questo tutorial spiega come installare Tesseract su Linux utilizzando sia Debian Apt Packages Manager sia i repository Git per altre distribuzioni Linux.

Tesseract è la soluzione gratuita e probabilmente la migliore soluzione OCR sul mercato. Dal 2006 è stato sponsorizzato da Google; In precedenza, è stato sviluppato da Hewlett Packard in C e C ++ tra il 1985 e il 1998. Il sistema può identificare anche la calligrafia; Può imparare, aumentando la sua precisione ed è tra i più sviluppati e completi sul mercato.

Se adeguatamente addestrato, può battere concorrenti commerciali come Abby; Se stai cercando una soluzione seria per OCR, Tesseract è la più accurata, ma non aspettarti soluzioni enormi: utilizza un core per processo, il che significa 16 immagini contemporaneamente.

Tesseract è un'ottima soluzione, ma prima di pensarci, devi sapere che le versioni dell'ultima tessact hanno portato grandi miglioramenti, alcuni dei quali significano un duro lavoro. Mentre l'allenamento potrebbe durare per ore o giorni, le versioni recenti di Tesseract potrebbero essere di giorni, settimane o addirittura mesi, soprattutto se stai cercando una soluzione OCR multilingue.

Installazione di Tesseract su Debian e Ubuntu:

Per installare Tesseract sulla distribuzione di Debian o Ubuntu Linux, utilizzare APT come mostrato nello screenshot seguente.

SUDO APT Installa Tesseract -Ooc -y

Questo installerà tesseract sotto /usr/share/tesseract-ocr/4.00/tessdata.

Nota: Per altre distribuzioni Linux, salta per installare il tesseract da fonti.

Per impostazione predefinita, Tesseract installerà la lingua inglese. Per installare ulteriori lingue, la sintassi è la seguente. Nell'esempio seguente, installerò il pacchetto linguistico ebraico.

SUDO APT Installa Tesseract-OCR-HEB

Per installare tutte le lingue disponibili, eseguire:

SUDO APT Installa Tesseract-OCR-ALL -y

Affinché Tesseract funzioni correttamente, dovremo utilizzare il comando "Converti". Questo comando è utile per convertire tra i formati dell'immagine e ridimensionare un'immagine, sfocatura, raccolto, disponde, dither, disegni, lancia, join, ri-campione e molto altro ancora. Questo strumento è fornito da ImageMagick:

SUDO APT Installa ImageMagick

Ora test tesseract, trova un'immagine contenente testo ed esegui:

tesseract

Tesseract estraggerà il testo dall'immagine.

Quando ho lavorato con Tesseract, tutto ciò di cui avevamo bisogno era di contare le parole documenti. Come con qualsiasi altro programma, puoi e devi addestrarlo per capire la calligrafia.

Nei redattori di testo avanzati, possiamo definire alcuni simboli che possono essere contati o meno, se contare o meno, ecc., Lo stesso con la possibilità è disponibile su Tesseract.

Ottimizzazione del tesseract:

  • Ottimizzazione delle dimensioni: Secondo fonti ufficiali, la dimensione ottimale dei pixel per un'immagine da elaborare con successo da Tesseract è 300 dpi. Dovremo elaborare qualsiasi immagine usando il parametro -r per applicare questo DPI. L'aumento del DPI aumenterà anche il tempo di elaborazione.
  • Rotazione della pagina: Se, quando scansionato, la pagina non è posizionata correttamente e rimane 180 ° o 45 °, la precisione di Tesseract diminuirà, quindi puoi utilizzare uno script Python per rilevare e risolvere i problemi di rotazione automaticamente.
  • Rimozione del confine: Secondo l'uomo ufficiale di Tesseract, i confini possono essere erroneamente scelti come personaggi, in particolare i bordi scuri e dove c'è una varietà di gradazione. La rimozione dei bordi può essere un buon passo per ottenere la massima precisione con il tesseract.
  • Rimozione del rumore: Secondo le fonti di Tesseract, il rumore "è una variazione casuale di luminosità o colore in un'immagine". Possiamo rimuovere questa variazione nella fase di binarizzazione, il che significa polarizzare i suoi colori.

Introduzione al processo di formazione di Tesseract:

In precedenza questo articolo ha riguardato il processo di formazione di Tesseract, che si è evoluto in un processo più manuale che merita un articolo dedicato. Pertanto, questa sezione copre solo le informazioni teoriche sul processo di formazione e le istruzioni per installare gli strumenti di formazione in tesseract e avviarli.

Secondo il wiki ufficiale di Tesseract, abbiamo 3 opzioni attuali per formare il nostro sistema OCR:

  • "Sintonizzare. A partire da un linguaggio addestrato esistente, allenati sui tuoi dati aggiuntivi specifici. Questo può funzionare per problemi vicini ai dati di allenamento esistenti ma diversi in un modo sottile, come un carattere particolarmente insolito. Può funzionare anche con una piccola quantità di dati di formazione.
  • Taglia il livello superiore (o un numero arbitrario di livelli) dalla rete e riqualifica un nuovo livello superiore utilizzando i nuovi dati. Se la messa a punto non funziona, questa è molto probabilmente l'opzione migliore. Se inizi con lo script più simile, tagliare il livello superiore potrebbe comunque funzionare per addestrare un linguaggio o uno script completamente nuovo.
  • Riqualificare da zero. A meno che tu non abbia una formazione molto rappresentativa e sufficientemente grande per il tuo problema, questo è un compito scoraggiante. In caso contrario, probabilmente finirai con una rete troppo adatta che si fa davvero bene sui dati di formazione ma non sui dati effettivi.

Prima di proseguire le istruzioni di addestramento a tesseract, dovremo installare ulteriori librerie:

sudo apt installa libicu-dev libicu-dev libcairo2-dev

Sulle distribuzioni Linux con sede a Debian, installa il pacchetto di sviluppo Tesseract, inclusi gli strumenti di formazione in Tesseract che utilizzano APT come mostrato di seguito. Se non si utilizza una distribuzione Linux basata su Debian, leggi le istruzioni per installare gli strumenti di addestramento a tesseract da fonti.

SUDO APT Installa Libtesseract -dev -y

Dopo l'installazione, sarai in grado di vedere gli strumenti di formazione sotto /usr/share/tesseract-ooc/ come mostrato di seguito.

LS/USR/SHARE/Tesseract-OCR

Prima di iniziare ad addestrare una lingua, è necessario fornire a Tesseract il contenuto da cui imparare.

Per questo, è necessario creare la directory di Langdata e la sottodirectory Eng all'interno della directory principale dell'installazione di Tesseract. Quindi crea il file di testo di addestramento come mostrato di seguito.

sudo mkdir/usr/share/tesseract-ooc/langdata/
Sudo Mkdir/USR/Share/Tesseract-OCr/Langdata/Eng/
Sudo Nano/USR/Share/Tesseract-OCr/Langdata/Eng/Eng.training_text

Nota: Ricorda di aggiungere contenuti al Eng.training_text file.

Una volta aggiunto il file di testo di addestramento, la sintassi per iniziare ad allenare una lingua è la seguente. Il seguente comando è addestrare la lingua inglese definita come "Eng".

./Tesstrain.Sh--Lang Eng--Langdata_dir/usr/share/tesseract-ocr/langdata--tessdata_dir/usr/share/tesseract-ocr/tessdata

Questo processo potrebbe richiedere molto tempo. Naturalmente, questo dipende anche dai file di testo di allenamento. Questa è l'introduzione al processo di formazione Tesseract. Pubblicheremo un nuovo articolo focalizzato solo sul processo di formazione.

Risoluzione dei problemi dei caratteri mancanti:

Nel mio caso, ho ricevuto un errore quando ho provato a allenare il tesseract. Mancava il carattere audace Arial. L'ho risolto eseguendo il comando di seguito.

Sudo Apt Installa TTF-MScoreFonts-Installer

Installa tesseract da fonti su Linux:

Su diverse distribuzioni Linux, è possibile ottenere il tesseract usando Git, come mostrato di seguito.

Git clone https: // github.com/tesseract-ocr/tesseract.idiota

Una volta clonato, vai nella directory Tesseract eseguendo il CD.

CD tesseract

Quindi eseguire il autogen.sh Script come mostrato di seguito.

sudo ./autogen.sh

Il comando sopra crea i file di installazione; Ora esegui il seguente comando per avviare il processo di installazione.

sudo ./configura

Correre Fare Per iniziare a compilare Tesseract.

sudo make

Quindi corri Installa l'installazione, Come mostrato nello screenshot seguente.

sudo fare installazione

Eseguire ldconfig come mostrato di seguito.

sudo ldconfig

Per compilare strumenti di addestramento, eseguire il seguente comando.

Sudo fare formazione

Quindi corri:

sudo crea l'installazione di allenamento

Ora puoi seguire le istruzioni per iniziare con il processo di formazione.

Conclusione:

Come puoi vedere, l'installazione di Tesseract su Linux è abbastanza semplice, soprattutto sulle distribuzioni Linux basate su Debian. Quando ho usato Tesseract, abbiamo gestito migliaia di potenziali clienti che caricano contenuti scritti a mano, immagini con testo, ecc. Abbiamo usato 48 server core, con databasebydesign e poi con AWS; Non abbiamo mai avuto un problema di risorse.

Avevamo un caricatore che discriminava tra file di testo come Microsoft Office o Open Office File e immagini o documenti scansionati. L'argicazione ha determinato qualunque cosa gli script OCR o PHP avrebbero elaborato un ordine nel campo del riconoscimento del testo.

Nella mia esperienza, Tesseract è la migliore soluzione OCR disponibile sul mercato ed è open-source.

Grazie per aver letto questo tutorial spiegando come installare e configurare Tesseract OCR su Linux. Continua a seguirci per ulteriori suggerimenti e tutorial Linux.