Come estrarre testo da PDF e immagini su Linux utilizzando gImageReader

Se sei uno studente o il tuo lavoro prevede di lavorare con molte immagini e PDF, a un certo punto avresti sentito il bisogno di estrarre del testo da un'immagine o da un documento.

Fortunatamente, l'estrazione del testo lo rende possibile. E ci sono diversi strumenti che puoi usare per farlo. gImageReader è uno dei tanti strumenti. È gratuito e funziona sia con file di immagine che con documenti PDF.

Diamo un'occhiata a gImageReader in dettaglio e vediamo come puoi usarlo per estrarre testo da immagini e PDF.

Che cos'è gImageReader?

gImageReader è un'app che ti consente di estrarre testo da immagini e PDF su Linux. È essenzialmente una GUI o un front-end per il motore Tesseract OCR, un open source motore sviluppato da Hewlett-Packard che è considerato uno dei migliori motori OCR disponibili.

Con gImageReader, puoi estrarre facilmente e abbastanza accuratamente testo da immagini o documenti PDF con pochi semplici clic. È quindi possibile esportare il testo estratto in un file di testo o PDF per un ulteriore utilizzo.

instagram viewer

Caratteristiche di gImageReader

gImageReader racchiude le seguenti funzionalità:

Importa documenti PDF e immagini da diverse fonti (disco, dispositivi di scansione, appunti e screenshot)
Elabora in batch immagini o documenti, ovvero estrai testo da più immagini o documenti contemporaneamente
Riconosci i frammenti di testo come testo normale o documenti hOCR
Controllo ortografico integrato
Rilevamento automatico dell'area di testo
Modifica di base di immagini/documenti
Salva l'output come file di testo

Come installare gImageReader su Linux

gImageReader è disponibile su la maggior parte delle principali distribuzioni Linux. Ma prima di procedere con la sua installazione, devi installare il motore OCR Tesseract sul tuo sistema.

Per fare ciò, apri il Gestore del software sul tuo sistema e cerca tesseract. Quando restituisce un elenco di risultati, installa il file tesseract-ocr e tesseract-ocr-eng pacchi. Puoi anche utilizzare i gestori di pacchetti della riga di comando per installare il pacchetto se ti senti più a tuo agio con il terminale.

Dopodiché, controlla le istruzioni di installazione nelle sezioni seguenti per installare gImageReader sul tuo computer.

Se sei su Debian o Ubuntu, apri il terminale ed esegui i comandi seguenti per installare gImageReader:

sudo add-apt-repository ppa: sandromani/gimagereader
sudo apt-ottenere aggiornare
sudo apt installare gimagereader

Su Fedora, CentOS o Red Hat Enterprise Linux (RHEL):

sudo dnf installare gimagereader-qt

SU Arch Linux o Mangiaro:

sudo pacman -S gimagereader

Gli utenti di openSUSE possono installare gImageReader utilizzando:

sudo zypper installare gimagereader

Nel caso in cui tu stia utilizzando un'altra distribuzione Linux, puoi creare gImageReader dal sorgente seguendo le istruzioni su GitHub di gImageReader.

Come usare gImageReader su Linux

gImageReader è abbastanza facile da usare e funziona con tutti i tipi di file immagine e documenti PDF. Segui le istruzioni seguenti per estrarre testo da immagini o PDF su Linux.

Apri il menu delle applicazioni, cerca gImageReadere avvia l'app. Colpire il Massimizza pulsante nella finestra di gImageReader per aprirlo nella visualizzazione a schermo intero.

Ora, fai clic su Aggiungi immagini pulsante nel riquadro di sinistra sotto la barra degli strumenti e utilizzare il browser di file per selezionare l'immagine o i PDF da cui si desidera estrarre il testo.

Clic Ok per importare le immagini oi PDF in gImageReader. Oppure, se desideri estrarre il testo da ciò che viene visualizzato sullo schermo, fai clic sul menu a discesa accanto a Aggiungi immagini pulsante e selezionare Fai uno screenshot. gImageReader acquisirà uno screenshot del contenuto dello schermo.

Dopo aver aggiunto l'immagine a gImageReader, fai clic su Attiva/disattiva il riquadro di output pulsante (uno con l'icona del blocco note) per visualizzare il riquadro di output. Qui è dove appare il testo che estrai dalle immagini o dai PDF.

A seconda di come vuoi procedere, ora hai la possibilità di identificare il testo nell'immagine o nel PDF automaticamente o manualmente. Per farlo automaticamente, fare clic su Rileva automaticamente il layout e evidenzierà tutti i blocchi di testo nell'immagine o nel documento PDF selezionato.

Dopodiché, tocca Riconosci la selezione > Pagina corrente per iniziare il processo di estrazione del testo.

In alternativa, per selezionare il testo manualmente, passa il mouse sopra il testo che desideri estrarre e, utilizzando il mirino, disegna un riquadro attorno all'area da cui desideri estrarre il testo. Quindi, colpisci il Riconosci la selezione pulsante per procedere.

Se si tratta di un documento PDF e desideri estrarre testo da pagine diverse, tocca Più (+) per capovolgere le pagine.

Per tornare indietro, premi il Meno (-) pulsante. E poi, seleziona il testo che vuoi estrarre e premi il Riconosci la selezione pulsante per estrarlo.

Sebbene rari, potrebbero esserci momenti in cui gImageReader restituirebbe il testo estratto in una lingua diversa dall'inglese. Quando ciò accade, tocca semplicemente il pulsante a discesa accanto Riconosci la selezione e selezionare una delle opzioni in inglese.

Infine, per salvare il testo estratto, fare clic su Salva output pulsante. Questo farà apparire la finestra Salva. Qui, dai un nome al file e premi Ok.

Cos'altro puoi fare con gImageReader?

Come accennato in precedenza, gImageReader ti dà anche la possibilità di modificare alcuni aspetti delle immagini o dei documenti importati, come la loro luminosità, contrasto e risoluzione. Inoltre, puoi anche invertire i colori o ruotare le immagini o i documenti, se necessario.

La maggior parte di queste opzioni può rivelarsi utile quando il testo in un'immagine o in un documento non è leggibile in gImageReader e, pertanto, impedisce allo strumento di riconoscere il testo.

Per accedere a una di queste opzioni di modifica, fare clic su Controlli dell'immagine pulsante e rivelerà una mini barra degli strumenti sotto la barra degli strumenti principale. Da qui, seleziona i pulsanti appropriati per eseguire l'operazione di modifica desiderata sull'immagine o sul documento.

Estrazione di testo su Linux semplificata con gImageReader

L'estrazione del testo spesso richiede lo strumento giusto: uno che utilizzi un motore OCR affidabile e preciso che gli consente di identificare il testo in un'immagine o in un documento in modo efficace, in modo da poterlo estrarre in modo efficiente senza alcuno problemi.

gImageReader lo fa bene, grazie al motore OCR Tesseract che utilizza in background. Considerando la sua facilità d'uso, gImageReader è senza dubbio uno dei migliori strumenti di estrazione di testo disponibili per Linux.

In alternativa, se stai cercando una soluzione più semplice, puoi dare un'occhiata a TextSnatcher, che è veloce e abbastanza facile da usare.

About Technology - denizatm.com

Come estrarre testo da PDF e immagini su Linux utilizzando gImageReader

Che cos'è gImageReader?

Caratteristiche di gImageReader

Come installare gImageReader su Linux

Come usare gImageReader su Linux

Cos'altro puoi fare con gImageReader?

Estrazione di testo su Linux semplificata con gImageReader

Categorie

Recent Post

Utilizzare il servizio Trapster Mobile per evitare una presa

Edizioni per collezionisti di videogiochi che detengono effettivamente valore [MUO Gaming]

Dave LeClair, autore di MakeUseOf