Tesseract è uno strumento di riconoscimento del testo open source liberamente disponibile anche come OCR (riconoscimento ottico dei caratteri). Viene utilizzato principalmente per identificare ed estrarre il testo dalle immagini. Leggerà il testo dai dati delle immagini e scriverà l'output in un nuovo .file txt. Tesseract sta anche lavorando sotto Python, in quanto è usato principalmente per riconoscere la calligrafia dalle immagini. Sta usando il modello LSTR (memoria a breve termine). Tesseract funziona sotto Apache 2.0 licenza.
Elaboreremo il metodo per installare Tesseract su Windows in questo blog.
Quindi iniziamo!
Come installare Tesseract su Windows?
Il tesseract è uno strumento di riga di comando che viene utilizzato per l'estrazione del testo dalle immagini. Per installare Tesseract su Windows, è necessario seguire le istruzioni di seguito.
Passaggio 1: scarica il programma di installazione di tesseract
Innanzitutto, vai al collegamento sotto fornito e scarica il programma di installazione Tesseract secondo le specifiche del sistema:
https: // github.com/ub-mannheim/tesseract/wiki
Passaggio 2: eseguire il programma di installazione di Tesseract
Visitare il "Download"Directory in cui viene scaricato il programma di installazione Tesseract. Per installare Tesseract su Windows, eseguire il programma di installazione Tesseract facendo doppio clic su di esso:
Passaggio 3: selezionare la lingua
Molte lingue sono supportate dal programma di installazione di Tesseract. Per interagire con l'interfaccia utente di installazione, scegli "Inglese"Come lingua e fai clic su"OK":
Passaggio 4: installa tesseract
In tal modo, la procedura guidata di setup OCR Tesseract apparirà sullo schermo. Per iniziare l'installazione di Tesseract, premi il "Prossimo"Pulsante:
Per accettare il "Accordo di licenza", clicca il "Sono d'accordo"Pulsante:
Seleziona il "Installa per chiunque usi questo computer"Opzione e premere il"Prossimo"Pulsante:
Se si desidera aggiungere dati di script o includere un'altra lingua, contrassegna le rispettive caselle di controllo e premi il "Prossimo"Pulsante. Dato che non desideriamo alcuna script o linguaggio di dati aggiuntivo, continueremo con le opzioni selezionate predefinite:
Scegli la posizione dell'installazione e fai clic su "Prossimo"Pulsante:
Se non si desidera creare un collegamento nel menu Start, segna "Non creare scorciatoie"Casella di controllo e premere il"Installare"Pulsante:
Successivamente, l'installazione di Tesseract verrà avviata. Attendere fino al completamento dell'installazione e colpire il "Prossimo"Pulsante:
Infine, fai clic su "Fine"Pulsante:
Passaggio 5: imposta la variabile dell'ambiente
Dopo l'installazione, è necessario impostare la variabile ambientale del Tesseract. Per fare ciò, visitare in primo luogo la directory in cui è stato installato il Tesseract e copiare il percorso da "Indirizzo" sbarra:
Fare una ricerca "variabili ambientali" nel "Avviare"Menu e aprire"Modifica le variabili di ambiente del sistema":
All'interno delle impostazioni, navigare su "Avanzate"Impostazione del menu e fare clic su"variabili ambientali"Pulsante:
Scegli il "Sentiero"Variabile da"Variabili di sistema"Pannello e colpisci il"Modificare"Pulsante:
Dopo di che "Modifica la variabile di ambiente"La finestra apparirà sullo schermo. Premi il "Nuovo"Pulsante e incolla il percorso della directory di installazione di tesseract copiata qui. Infine, fai clic su "OK"Pulsante:
Passaggio 6: verificare l'installazione di tesseract
Per verificare l'installazione di Tesseract, aprire il prompt dei comandi di Windows selezionando "Prompt dei comandi" nel "Avviare" menù:
Dai un'occhiata alla versione Tesseract utilizzando il comando fornito:
> Tesseract --Version
L'output di seguito è indicato che abbiamo installato correttamente la versione Tesseract "V5.2.0" Su Windows:
Andiamo avanti per verificare come utilizzare Tesseract su Windows.
Come usare il tesseract su Windows?
Il tesseract viene utilizzato per leggere la scrittura a mano o estrarre il testo dalle immagini. Vediamo come funziona:
Passaggio 1: selezionare l'immagine
Seleziona l'immagine da cui si desidera estrarre il testo. Come abbiamo scelto "1.png":
Passaggio 2: estrarre il testo dall'immagine
Una volta aperto il CMD. Utilizzare il "CD"Comando per modificare la directory in cui viene memorizzata l'immagine. Quindi eseguire il "tesseract"Comando e definire il nome del file di immagine come abbiamo specificato"1.png". IL "Testo"Il parametro mostra denotare il nome del file di output:
> CD C: \ Users \ Anuma \ OneDrive \ Pictures \ Saved Pictures
> Tesseract 1.png "testo"
Passaggio 3: verificare l'estrazione del testo
Per verificare l'estrazione del testo, navigare nella directory in cui esiste il file di immagine. Puoi vedere che il file di output "Testo"Viene anche salvato qui. Fare doppio clic sul file di output per verificare se il Tesseract ha estratto il testo dall'immagine o meno:
Puoi vedere che abbiamo estratto correttamente il testo usando lo strumento di riga di comando Tesseract:
Abbiamo dimostrato la tecnica per installare e utilizzare Tesseract su Windows.
Conclusione
Per installare il Tesseract su Windows, è necessario scaricare il programma di installazione Tesseract. A tale scopo, segui la prima sessione di questo articolo. Avanti Imposta la variabile per il percorso per l'utilizzo e l'accesso a tesseract dal prompt dei comandi di Windows. Quindi, selezionare il file di immagine e utilizzare il "Tesseract"Comanda di riconoscere ed estrarre il testo dall'immagine. Qui, hai imparato a installare e utilizzare il "Tesseract" Su Windows.