Le migliori app OCR per Linux

Le migliori app OCR per Linux
Questo articolo coprirà un elenco di utili software "Riconoscimento di caratteri ottici" disponibile per Linux. Un software OCR (Optical Character Recognition) tenta di rilevare il contenuto di testo di file non text il cui contenuto non può essere selezionato o copiato ma può essere visualizzato o letto. Ad esempio, un software OCR può identificare il testo da immagini, PDF o altri documenti scansionati in formati di file digitali utilizzando vari algoritmi e soluzioni basate sull'intelligenza artificiale.

Questi software OCR sono particolarmente utili per convertire e preservare i vecchi documenti in quanto possono essere utilizzati per identificare il testo e creare copie digitali. A volte il testo identificato potrebbe non essere accurato al 100% ma il software OCR rimuove la necessità di modifiche manuali in larga misura estraendo il più possibile. Le modifiche manuali possono essere fatte in seguito per migliorare ulteriormente l'accuratezza e creare repliche individuali. La maggior parte del software OCR può estrarre il testo in file separati, anche se alcuni supportano anche la sovrapposizione di un livello di testo nascosto sui file originali. Il testo superimposto consente di leggere il contenuto in stampa e formato originali, ma consente anche di selezionare e copiare il testo. Questa tecnica è usata appositamente per digitalizzare vecchi documenti in formato PDF.

Tesseract OCR

Tesseract OCR è un software OCR gratuito e open source disponibile per Linux. Sponsorizzato da Google e mantenuto da molti volontari, è probabilmente la suite OCR più completa disponibile là fuori che può persino battere alcune soluzioni proprietarie e proprietarie. Fornisce strumenti di riga di comando e un'API che puoi integrare nei tuoi programmi. Può rilevare il testo in molte lingue con una buona precisione. Viene fornito con una serie di dati pre-addestrati che possono essere utilizzati per identificare ed estrarre il testo. Puoi anche utilizzare i tuoi dati addestrati se hai bisogno di una soluzione personalizzata o puoi ottenere più modelli da terzi. Tesseract OCR viene fornito con più motori di rilevamento e puoi usarli in base alle tue esigenze a seconda del metodo di installazione.

Per installare Tesseract OCR in Ubuntu, utilizzare il comando specificato di seguito:

$ sudo apt installare tesseract-obr

È possibile installarlo in altre distribuzioni Linux dai repository predefiniti tramite il gestore pacchetti. Sono disponibili un file di Appimage universale e altre istruzioni di installazione.

Tesseract OCR viene fornito con supporto per rilevare il contenuto della lingua inglese per impostazione predefinita. Se si desidera abilitare ulteriori lingue, potresti dover scaricare più pacchetti di lingue. Il link sopra indicato ha istruzioni per l'installazione di linguettature aggiuntive. In Ubuntu, puoi trovare direttamente i pacchetti linguistici eseguendo il comando di seguito:

$ APT-Cache Search Tesseract-Ooc-

Il comando sopra emetterà i nomi dei pacchetti per diversi pacchetti di lingue. Basta installarli eseguendo un comando nel seguente formato:

$ sudo APT Installa

Puoi ottenere un elenco di tutti i pacchetti di lingue installati eseguendo il comando di seguito:

$ tesseract--list-langs

Una volta installato il pacchetto OCR Tesseract principale e i pacchetti di lingue aggiuntivi, è possibile iniziare a rilevare il testo da immagini e file PDF. Per estrarre il testo, utilizzare i comandi nei seguenti formati:

$ tesseract immagine.PNG Output -l Eng
$ tesseract immagine.PNG Output -l Eng+Spa
$ tesseract immagine.PNG Output -l Eng PDF

Il primo comando estraggerà il testo da "Immagine.File PNG "in lingua" Eng "e archivialo in un file chiamato" output ". Il secondo comando analizzerà l'immagine usando più lingue. Il terzo comando può essere utilizzato per creare un file PDF con un livello di testo sovrapposto nel file dell'immagine.

Per ulteriori informazioni sull'utilizzo della riga di comando di Tesseract OCR, utilizzare i seguenti due comandi:

$ tesseract - -help
$ man tesseract

gimagereader

GIMAGEREADER è un client grafico per il motore OCR Tesseract sopra menzionato. È possibile utilizzarlo per eseguire la maggior parte delle opzioni e delle azioni della riga di comando supportate da Tesseract OCR, incluso l'estrazione del testo da più file, checking di un testo estratto ed eseguendo la post-elaborazione sul testo identificato.

Per installare GimagEReader in Ubuntu, utilizzare il comando specificato di seguito:

$ sudo apt install gimagereader

È possibile installarlo in altre distribuzioni Linux dai repository predefiniti tramite il gestore pacchetti. Altri pacchetti specifici della distribuzione sono disponibili qui.

Documenti

Le scartoffie sono un gestore di documenti gratuito e open source. Puoi usarlo per gestire in modo efficiente la tua libreria di documenti, soprattutto se hai una grande collezione. Viene inoltre fornito con una modalità OCR incorporata che utilizza "Pyocr", un modulo Python basato su motori OCR Tesseract e Cuneiform. Altre caratteristiche principali delle scartoffie includono la possibilità di modificare documenti scansionati, una barra di ricerca per la libreria di documenti, la possibilità di ordinare documenti, supporto dello scanner e così via.

Per installare i documenti in Ubuntu, utilizzare il comando specificato di seguito:

$ sudo APT Installa scartoffie-gtk

È possibile installarlo in altre distribuzioni Linux dai repository predefiniti tramite il gestore pacchetti. Un pacchetto Flatpak universale è disponibile anche qui.

Ocrfeeder

OCRFeeder è un software OCR grafico gratuito e open source gestito dal team GNOME. Supporta il riconoscimento del testo in numerose lingue e può esportare contenuto in numerosi formati di file. Supporta molti motori OCR, tra cui Tesseract OCR, Gocr, Ocrad e Cuneiforme. Ti consente anche di fare un po 'di post-elaborazione per migliorare la formattazione e il layout del contenuto di testo estratto.

Per installare Ocrfeeder in Ubuntu, utilizzare il comando specificato di seguito:

$ sudo APT Installa Ocrfeeder

È possibile installarlo in altre distribuzioni Linux dai repository predefiniti tramite il gestore pacchetti. Un pacchetto Flatpak universale è disponibile anche qui.

Si noti che nei miei test, Ocrfeeder installato dai repository di Ubuntu è arrivato con un solo motore OCR. Tuttavia, la build FlatPak è arrivata con tutti e quattro i motori OCR supportati sebbene scaricasse circa 2 GB di dati. Il pacchetto incluso nel repository di Ubuntu era di dimensioni molto più piccole.

gscan2pdf

GSCAN2PDF è un'utilità grafica libera e open source in grado di identificare ed estrarre il testo da una varietà di formati di file. Può funzionare direttamente con gli scanner per scansionare documenti e quindi esportare il contenuto di testo rilevato OCR in file PDF. Supporta anche più motori OCR tra cui Tesseract OCR, Gocr, Ocropus e Cuneiform, purché i pacchetti per questi motori sono installati sul sistema. Oltre alla scansione diretta di documenti, è anche possibile importare file di immagini ed estrarre testo da essi.

Per installare GSCAN2PDF in Ubuntu, utilizzare il comando specificato di seguito:

$ sudo apt Installa gscan2pdf gocr cuneiform tesseract-obr

È possibile installarlo in altre distribuzioni Linux dai repository predefiniti tramite il gestore pacchetti. Il codice sorgente e i binari eseguibili sono anche disponibili qui.

Conclusione

Questi sono alcuni dei motori e software OCR più utili e software per Linux disponibili per Linux. Tesseract OCR è lo strumento più attivamente sviluppato e più completo per rilevare il testo e dovrebbe essere sufficiente per la maggior parte delle tue esigenze. Anche se puoi anche provare altre app menzionate in questo articolo se non sei soddisfatto dei risultati di Tesseract OCR.