Tekstintunnistus eli OCR (Optical Character Recognatization)-ohjelma tulee melkeinpa jokaisen skannerin mukana valmiina. Tämän lisäksi löytyy Internetistä muutamia ilmaisia ohjelmia, muun muassa tässä kokeiltu Windows-ohjelma CuneiForm. Lisäksi Omnipage Pro 9.0-ohjelmasta on saatavana rajoitettu demoversio, jolla voi kokeilla tunnistamista 15 kertaa. Ohjelmilla voidaan joko lukea kuva suoraan skannerista tai käyttää jo aikaisemmin hankittuja kuvia. Erityisesti Windows-ympäristössä skannaus sujuu helposti sillä skanneri yleensä aseentuu yleisenä laitteena, jonka avulla ohjelmat voivat hankkia kuvainformaatiota.
Kun kuva on luettu ohjelmaan käynniostetään varsinainen tunnistusosa. Tunnistus tapahtuu hyvin automaatisesti ja tuloksena on tekstitiedosto niista kirjaimista jotka ohjelma tunnisti. Hyvä ohjelma antaa vielä ennen tallettamista kuitenkin korjailla tekstiä ja mahdollisesti opettaa koneelle merkkejä, jotka jäivät tunnistamatta.
Seuraavassa on tehty pientä kokeilua. Ohjelmana käytettiin
CuneiForm-shareware-ohjelmaa, joka on ominaisuuksiltaan melko vaatimaton,
mutta yksinkertaiseen ja satunnaiseen käyttöön ihan kelpo
ohjelma. Lähdemateriaali on sivu mitta- ja integroimisteoria kirjasta,
joka sisältää monenlaisia matemaattisia notaatioita: summa,
integraali, ylä- ja alaindeksi ja niin edelleen. Kuten arvata saattaa
nämä jäivät kokonaan tunnistamatta, mutta teksti tunnistui
melkein oikein, myös saksan kielen erikoiskirjaimet ü, ß,
ä, ja ö tulivat oikein kun ohjelman kielen asetti saksaksi. Tosin
ei aivan ongelmitta, sillä ne tallentuvat eri lailla koodattuna kuin
mitä Windows ne käsittää, joten muutos esim ä
=> ä täytyy tehdä käsin.
Esimerkkitiedostot ovat tässä
Aivan mitä tahansa tekstiä ei kuitenkaan pystytä tunnistamaan, esimerkiksi käsinkirjoitettu teksti on lähestulkoon mahdotonta (ellei ohjelmalle pysty erikseen opettamaan) tunnistaa. Kuitenkin painettu ja koneella tuotettu teksti tunnistuu erittäin hyvin johtuen juuri sen säännönmukaisista ja samanlaisista kirjaimista.