OCR white paper
Recunoasterea optica a caracterelor (OCR) este identificarea electronica si codificarea digitala a textului scris sau printat cu ajutorul unui scaner optic si software specializat.
Utilizarea software-ului OCR permite unui computer sa citeasca imagini statice de text si sa le transforme in date editabile, care pot fi cautate.
OCR implica de obicei trei pasi: deschiderea si / sau scanarea unui document in software-ul OCR, recunoasterea documentului din software-ul OCR, si apoi salvarea documentului produs de OCR intr-un format ales.
Folosit pe scara larga ca forma de inregistrare a datelor din inregistrari de date tiparite pe hartie - indiferent daca sunt documente de pasaport, facturi, declaratii bancare, chitante computerizate, carti de vizita, posta, tiparituri de date statice sau orice documentatie adecvata - este o metoda obisnuita de digitalizare a tiparirii texte, astfel incat sa poata fi editate electronic, cautate, stocate mai compact, afisate on-line si utilizate in procesele de masini, cum ar fi calculul cognitiv, traducerea automata, extras text-in-vorbire, date cheie si extragerea textului.
OCR este un domeniu de cercetare in recunoasterea modelelor, inteligenta artificiala si viziunea computerului.
Sistemele avansate capabile sa produca un grad ridicat de acuratete de recunoastere pentru majoritatea fonturilor sunt acum comune si cu suport pentru o varietate de intrari digitale in format de fisier imagine. Unele sisteme sunt capabile sa reproduca iesire formatata care sa apropie indeaproape pagina initiala, inclusiv imagini, coloane si alte componente non-textuale. (Sursa: Wikipedia)