Annuncio pubblicitario
Estrarre il testo dalle immagini non è mai stato così facile come lo è oggi grazie alla tecnologia di riconoscimento ottico dei caratteri (OCR).
L'OCR ci consente di fare tutti i tipi di cose utili, come la ricerca di immagini utilizzando query di testo, la riproduzione di documenti senza digitarli a mano e persino convertire il testo scritto a mano in testo digitale Come convertire un'immagine con la grafia in testo tramite OCRDevi digitalizzare le note scritte a mano per modificarle o salvarle per dopo? Ecco i migliori strumenti OCR per convertire la scrittura a mano in testo. Leggi di più .
Ma cos'è il riconoscimento ottico dei caratteri? Come funziona davvero? Potrebbe sembrare una magia nera per te, ma alla fine di questo articolo, avrai una solida comprensione di come i computer possono riconoscere lettere e parole.
Come funziona il riconoscimento ottico dei caratteri
Per capire come viene estratto il testo da un'immagine, dobbiamo prima capire cosa sono le immagini e come sono archiviate sui computer.
UN pixel è un singolo punto di un colore particolare. Un Immagine è essenzialmente una raccolta di pixel. Più pixel in un'immagine, maggiore è la sua risoluzione. Un computer non sa che l'immagine di un cartello è davvero un cartello: sa solo che il primo pixel è di questo colore, il pixel successivo è quel colore e mostra tutti i suoi pixel per farti vedere.
Ciò significa che testo e non testo non sono diversi da un computer, ed è per questo che il riconoscimento ottico dei caratteri è così difficile. Con questo in mente, ecco come funziona.
Passaggio 1: pre-elaborazione dell'immagine
Prima di poter estrarre il testo, l'immagine deve essere massaggiata in alcuni modi per rendere più semplice l'estrazione e maggiori probabilità di successo. Questo si chiama pre-elaborazione e diverse soluzioni software utilizzano diverse combinazioni di tecniche.
Le tecniche di pre-elaborazione più comuni includono:
Binarization
Ogni singolo pixel nell'immagine viene convertito in bianco o nero. L'obiettivo è chiarire quali pixel appartengono al testo e quali pixel appartengono allo sfondo, il che accelera il processo OCR effettivo.
Raddrizza
Poiché i documenti vengono scansionati raramente con un allineamento perfetto, i personaggi possono finire inclinati o addirittura capovolti. L'obiettivo qui è quello di identificare le linee di testo orizzontali e quindi ruotare l'immagine in modo che tali linee siano effettivamente orizzontali.
Smacchia
Sia che l'immagine sia stata binarizzata o meno, potrebbe esserci del rumore che può interferire con l'identificazione dei caratteri. Il despeckling elimina quel rumore e cerca di appianare l'immagine.
Rimozione linea
Identifica tutte le linee e i segni che probabilmente non sono caratteri, quindi li rimuove in modo che il processo OCR effettivo non venga confuso. È particolarmente importante durante la scansione di documenti con tabelle e scatole.
azzonamento
Separa l'immagine in blocchi di testo distinti, come ad esempio l'identificazione di colonne in documenti a più colonne.
Passaggio 2: elaborazione dell'immagine
Per prima cosa, il processo OCR tenta di stabilire la linea di base per ogni riga di testo nell'immagine (o se è stata suddivisa in zone in pre-elaborazione, funzionerà attraverso ciascuna zona una alla volta). Ogni riga di caratteri identificata viene gestita una alla volta.
Per ogni riga di caratteri, il software OCR identifica la spaziatura tra i caratteri cercando linee verticali di pixel non testuali (che dovrebbe essere ovvio con una corretta binarizzazione). Ogni blocco di pixel tra queste righe non di testo è contrassegnato come un "token" che rappresenta un carattere. Quindi, questo passaggio viene chiamato tokenizzazione.
Una volta che tutti i potenziali caratteri nell'immagine sono tokenizzati, il software OCR può usare due diverse tecniche per identificare quali caratteri sono effettivamente quei token:
Riconoscimento del modello
Ogni token viene confrontato pixel per pixel rispetto a un intero insieme di glifi noti, inclusi numeri, punteggiatura e altri simboli speciali, e viene scelta la corrispondenza più vicina. Questa tecnica è anche nota come corrispondenza della matrice.
Ci sono molti svantaggi qui. Innanzitutto, i token e glifi devono essere di dimensioni simili, altrimenti nessuno di questi corrisponderà. In secondo luogo, i token devono essere in un carattere simile ai glifi, che esclude la scrittura a mano. Ma se il carattere del token è noto, il riconoscimento del modello può essere rapido e preciso.
Estrazione di funzionalità
Ogni token viene confrontato con regole diverse che descrivono che tipo di personaggio potrebbe essere. Ad esempio, due linee verticali di uguale altezza collegate da un'unica linea orizzontale sono probabilmente una H maiuscola
Questa tecnica è utile perché non è limitata a determinati caratteri o dimensioni. Può anche essere più sfumato nel riconoscere le sottili differenze tra una I maiuscola, L minuscola e il numero 1. Il rovescio della medaglia? La programmazione delle regole è molto più complessa del semplice confronto dei pixel in un token con i pixel in un glifo.
Passaggio 3: Post-elaborazione dell'immagine
Una volta terminata la corrispondenza di tutti i token, il software OCR potrebbe semplicemente chiamarlo un giorno e presentarti i risultati. Ma di solito è necessario fare un po 'più di confusione per assicurarsi di non alzare gli occhi al cielo con risultati incomprensibili.
Limitazione lessicale
Tutte le parole vengono confrontate con un lessico di parole approvate e quelle che non corrispondono vengono sostituite con la parola più adatta. Un dizionario è un esempio di lessico. Questo può aiutare a correggere le parole con caratteri errati, come "spina" anziché "th0rn".
Ottimizzazioni specifiche dell'applicazione
Quando l'OCR viene utilizzato in ambienti di nicchia, ad esempio per documenti medici o legali, è possibile utilizzare un tipo speciale di OCR appositamente progettato per tale impostazione. In questi casi, il software OCR può cercare equazioni matematiche, termini specifici del settore, ecc.
Linguaggio naturale
Questa tecnica avanzata corregge le frasi utilizzando un modello linguistico che descrive la probabilità che determinate parole debbano essere seguite da altre parole. È simile alla tecnologia che prevede quale parola desideri digitare successivamente su una tastiera mobile.
Se fatto bene, questo può risultare in un testo che è notevolmente leggibile.
Strumenti di riconoscimento ottico dei caratteri consigliati
Ora che sai come funziona l'OCR, dovrebbe essere facile vedere che non tutti gli strumenti OCR sono uguali. L'accuratezza dei risultati dipenderà fortemente dalla capacità del software di implementare le varie tecniche OCR discusse in questo articolo.
Consigliamo vivamente OneNote per questo, che è solo uno dei motivi perché batte Evernote per prendere appunti Evernote vs. OneNote: quale app per prendere appunti è giusta per te?Evernote e OneNote sono straordinarie app per prendere appunti. È difficile scegliere tra i due. Abbiamo confrontato tutto dall'interfaccia all'organizzazione delle note per aiutarti a scegliere. Cosa funziona meglio per te? Leggi di più . Se sei disposto a pagare per una soluzione premium, prendi in considerazione OmniPage. Vedi il nostro confronto di OneNote vs. OmniPage per OCR Gratuito vs. Software OCR a pagamento: Microsoft OneNote e Nuance OmniPage a confrontoIl software scanner OCR consente di convertire il testo in immagini o PDF in documenti di testo modificabili. Uno strumento OCR gratuito come OneNote è abbastanza buono? Scopriamolo! Leggi di più . Per i documenti mobili, ti consigliamo di dare un'occhiata a questi App OCR per dispositivi Android 6 migliori app Android OCR per l'estrazione di testo dalle immaginiDevi digitalizzare qualsiasi testo stampato in modo da poterne conservare una copia software? In tal caso, è sufficiente uno strumento di riconoscimento ottico dei caratteri (OCR). Leggi di più .
Come usi l'OCR? Hai qualche strumento OCR preferito che non abbiamo menzionato? Fateci sapere nei commenti qui sotto!
Joel Lee ha un B.S. in Informatica e oltre sei anni di esperienza professionale nella scrittura. È caporedattore di MakeUseOf.