Come usare il textract per estrarre il testo dai file

Come usare il textract per estrarre il testo dai file
Questo articolo coprirà una guida sull'uso del modulo Python "Textract" e dell'utilità della riga di comando per estrarre il contenuto basato sul testo da una varietà di diversi formati di file. Può estrarre testo da oltre 20 diversi formati di file e puoi usarlo programmaticamente nel tuo programma Python importando il suo modulo principale. Potresti aver usato altri strumenti di riga di comando di estrazione di testo simili. Tuttavia, sono per lo più limitati a uno o due formati di file specifici. Textract fornisce una soluzione a un punto con un'interfaccia unificata per estrarre il testo da una moltitudine di diversi formati di file. Può anche utilizzare le tecnologie di riconoscimento ottico dei caratteri (OCR) e di riconoscimento vocale per estrarre rispettivamente il testo da file di immagini e audio.

Installazione di Textract in Linux

È possibile installare Textract in Linux dal Gestione pacchetti PIP. È possibile installare PIP Package Manager in Ubuntu eseguendo il comando di seguito:

$ sudo apt install python3-pip

Dopo aver installato PIP Manager, eseguire il comando seguente per installare dipendenze per Textract:

$ sudo apt Installa python3-dev libxml2-dev libxslt1-dev antiword unrtf poppler-otils pStoText tesseract-oCr ffmpeg LAME libmad0 libsox-fmt-mp3 sox libjpeg-dev swig python3-testresources

Ora usa PIP Package Manager per installare Textract in Ubuntu:

$ PIP3 Installa Textract

È possibile installare PIP Package Manager in altre distribuzioni Linux dal Gestione pacchetti. In alternativa, è possibile installare PIP Package Manager in Linux seguendo le istruzioni di installazione ufficiali disponibili qui. Una volta installato il gestore pacchetti PIP, è possibile utilizzare il comando PIP specificato sopra o seguire ulteriori istruzioni di installazione disponibili nella documentazione ufficiale di Textract (solo per distribuzioni Linux diverse da Ubuntu).

Estrarre il testo dai file

Secondo la documentazione ufficiale di Textract, puoi usarlo per estrarre il testo dai seguenti formati di file:

Per estrarre il testo da uno di questi file supportati e mostrare l'output come stdout nel terminale, eseguire un comando nel seguente formato:

$ textract file.PDF

È possibile sostituire “File.PDF "con qualsiasi altro formato di file supportato da Textract. A seconda del contenuto di un file, dovresti vedere un output simile a questo:

Per salvare l'output estratto in un altro file, eseguire un comando nel seguente formato:

$ textract file.file pdf -o.TXT

È possibile sostituire i nomi dei file secondo necessità. L'interruttore "-o" viene utilizzato per specificare il nome del file di output in cui verrà memorizzato il testo estratto.

Textract rileva automaticamente il tipo di estensione dei file e utilizza la tecnologia appropriata per analizzare ed estrarre contenuti di file. Quindi, per rilevare ed estrarre il testo da un file di immagine, è possibile utilizzare il comando sopra menzionato e fornire un tipo di file di immagine supportato come argomento. Finché si utilizza il tipo di file supportato e specifica correttamente il nome file con estensione sulla riga di comando, Textract farà tutto il lavoro per te. Ad esempio, per estrarre il contenuto di testo da un file "PNG" o "OGG", puoi semplicemente eseguire questi comandi:

$ textract file.file png -o.TXT
$ textract file.file ogg -o.TXT

Per saperne di più sull'utilizzo della riga di comando di Textract, esegui il seguente comando:

$ textract - -help

Utilizzo di Textract come modulo Python

È possibile utilizzare Textract in un programma Python a partire dal seguente campione di codice:

Importa Textract
text = textract.Process ("File.png ")
Stampa (testo)

La prima dichiarazione importa il modulo Textract principale. Successivamente, il metodo "processo" viene chiamato fornendolo un nome di file come argomento. Come l'utilità della riga di comando, il metodo di processo rileva automaticamente il tipo di file corrente utilizzando il suo nome di estensione e quindi utilizza un parser di contenuto appropriato e un estrattore adatto per l'estensione del file.

È inoltre possibile sovrascrivere manualmente l'estensione dei file usando l'argomento "estensione". Ecco un esempio di codice:

Importa Textract
text = textract.Process ("File.OGG ", Extension =" Ogg ")
Stampa (testo)

Se si desidera sovrascrivere manualmente un metodo di estrazione automatico utilizzato da Textract, è possibile utilizzare l'argomento "Metodo" (come mostrato nel campione di codice seguente):

Importa Textract
text = textract.Process ("File.ogg ", metod =" sox ")
Stampa (testo)

I tipi di file supportati e i metodi di estrazione sono elencati qui.

Per saperne di più sui metodi di Textract Python e sul loro utilizzo, puoi visualizzare la documentazione API disponibile qui.

Conclusione

Textract fornisce una singola interfaccia di riga di comando unificata e API Python per estrarre il testo da diversi tipi di file. Puoi persino usarlo per estrarre il contenuto dai file multimediali. È particolarmente adatto nei casi in cui non si desidera passare attraverso una moltitudine di diverse utility di comando per gestire l'estrazione del testo e vuoi usare una singola API per tutto.