Installazione di Textract in Linux
È possibile installare Textract in Linux dal Gestione pacchetti PIP. È possibile installare PIP Package Manager in Ubuntu eseguendo il comando di seguito:
$ sudo apt install python3-pip
Dopo aver installato PIP Manager, eseguire il comando seguente per installare dipendenze per Textract:
$ sudo apt Installa python3-dev libxml2-dev libxslt1-dev antiword unrtf poppler-otils pStoText tesseract-oCr ffmpeg LAME libmad0 libsox-fmt-mp3 sox libjpeg-dev swig python3-testresources
Ora usa PIP Package Manager per installare Textract in Ubuntu:
$ PIP3 Installa Textract
È possibile installare PIP Package Manager in altre distribuzioni Linux dal Gestione pacchetti. In alternativa, è possibile installare PIP Package Manager in Linux seguendo le istruzioni di installazione ufficiali disponibili qui. Una volta installato il gestore pacchetti PIP, è possibile utilizzare il comando PIP specificato sopra o seguire ulteriori istruzioni di installazione disponibili nella documentazione ufficiale di Textract (solo per distribuzioni Linux diverse da Ubuntu).
Estrarre il testo dai file
Secondo la documentazione ufficiale di Textract, puoi usarlo per estrarre il testo dai seguenti formati di file:
Per estrarre il testo da uno di questi file supportati e mostrare l'output come stdout nel terminale, eseguire un comando nel seguente formato:
$ textract file.PDF
È possibile sostituire “File.PDF "con qualsiasi altro formato di file supportato da Textract. A seconda del contenuto di un file, dovresti vedere un output simile a questo:
Per salvare l'output estratto in un altro file, eseguire un comando nel seguente formato:
$ textract file.file pdf -o.TXT
È possibile sostituire i nomi dei file secondo necessità. L'interruttore "-o" viene utilizzato per specificare il nome del file di output in cui verrà memorizzato il testo estratto.
Textract rileva automaticamente il tipo di estensione dei file e utilizza la tecnologia appropriata per analizzare ed estrarre contenuti di file. Quindi, per rilevare ed estrarre il testo da un file di immagine, è possibile utilizzare il comando sopra menzionato e fornire un tipo di file di immagine supportato come argomento. Finché si utilizza il tipo di file supportato e specifica correttamente il nome file con estensione sulla riga di comando, Textract farà tutto il lavoro per te. Ad esempio, per estrarre il contenuto di testo da un file "PNG" o "OGG", puoi semplicemente eseguire questi comandi:
$ textract file.file png -o.TXT
$ textract file.file ogg -o.TXT
Per saperne di più sull'utilizzo della riga di comando di Textract, esegui il seguente comando:
$ textract - -help
Utilizzo di Textract come modulo Python
È possibile utilizzare Textract in un programma Python a partire dal seguente campione di codice:
Importa Textract
text = textract.Process ("File.png ")
Stampa (testo)
La prima dichiarazione importa il modulo Textract principale. Successivamente, il metodo "processo" viene chiamato fornendolo un nome di file come argomento. Come l'utilità della riga di comando, il metodo di processo rileva automaticamente il tipo di file corrente utilizzando il suo nome di estensione e quindi utilizza un parser di contenuto appropriato e un estrattore adatto per l'estensione del file.
È inoltre possibile sovrascrivere manualmente l'estensione dei file usando l'argomento "estensione". Ecco un esempio di codice:
Importa Textract
text = textract.Process ("File.OGG ", Extension =" Ogg ")
Stampa (testo)
Se si desidera sovrascrivere manualmente un metodo di estrazione automatico utilizzato da Textract, è possibile utilizzare l'argomento "Metodo" (come mostrato nel campione di codice seguente):
Importa Textract
text = textract.Process ("File.ogg ", metod =" sox ")
Stampa (testo)
I tipi di file supportati e i metodi di estrazione sono elencati qui.
Per saperne di più sui metodi di Textract Python e sul loro utilizzo, puoi visualizzare la documentazione API disponibile qui.
Conclusione
Textract fornisce una singola interfaccia di riga di comando unificata e API Python per estrarre il testo da diversi tipi di file. Puoi persino usarlo per estrarre il contenuto dai file multimediali. È particolarmente adatto nei casi in cui non si desidera passare attraverso una moltitudine di diverse utility di comando per gestire l'estrazione del testo e vuoi usare una singola API per tutto.