Skannatut dokumentit Webbiin

Kuvien siirtäminen sähköiseen muotoon ei ole enää hankalaa. Skanneri ei ole enää suuri hankinta edes kotikäyttöön, sillä halvimmat ovat jo reilusti alle tuhannen markan hintaisia, tosin laadusta saa aina maksaa enemmän. Eräs skannerin hyötykäyttöominaisuuksista onkin, että sillä luettuja dokumentteja pystytään sopivan ohjelmiston kanssa kääntämään tavan tekstitiedostoksi. Toisin sanoen skannatusta kuvasta pyritään tunnistamaan kirjaimia ja tallentamaan ne tekstitiedostoksi. Seuraavassa on hieman tarkasteltu sitä, kuinka käy kun teksti sisältää myös matemaattisia symboleja, siis "epätavallisia kirjaimia".

Tekstintunnistus eli OCR (Optical Character Recognatization)-ohjelma tulee melkeinpa jokaisen skannerin mukana valmiina. Tämän lisäksi löytyy Internetistä muutamia ilmaisia ohjelmia, muun muassa tässä kokeiltu Windows-ohjelma CuneiForm. Lisäksi Omnipage Pro 9.0-ohjelmasta on saatavana rajoitettu demoversio, jolla voi kokeilla tunnistamista 15 kertaa. Ohjelmilla voidaan joko lukea kuva suoraan skannerista tai käyttää jo aikaisemmin hankittuja kuvia. Erityisesti Windows-ympäristössä skannaus sujuu helposti sillä skanneri yleensä aseentuu yleisenä laitteena, jonka avulla ohjelmat voivat hankkia kuvainformaatiota.

Kun kuva on luettu ohjelmaan käynniostetään varsinainen tunnistusosa. Tunnistus tapahtuu hyvin automaatisesti ja tuloksena on tekstitiedosto niista kirjaimista jotka ohjelma tunnisti. Hyvä ohjelma antaa vielä ennen tallettamista kuitenkin korjailla tekstiä ja mahdollisesti opettaa koneelle merkkejä, jotka jäivät tunnistamatta.

Seuraavassa on tehty pientä kokeilua. Ohjelmana käytettiin CuneiForm-shareware-ohjelmaa, joka on ominaisuuksiltaan melko vaatimaton, mutta yksinkertaiseen ja satunnaiseen käyttöön ihan kelpo ohjelma. Lähdemateriaali on sivu mitta- ja integroimisteoria kirjasta, joka sisältää monenlaisia matemaattisia notaatioita: summa, integraali, ylä- ja alaindeksi ja niin edelleen. Kuten arvata saattaa nämä jäivät kokonaan tunnistamatta, mutta teksti tunnistui melkein oikein, myös saksan kielen erikoiskirjaimet ü, ß, ä, ja ö tulivat oikein kun ohjelman kielen asetti saksaksi. Tosin ei aivan ongelmitta, sillä ne tallentuvat eri lailla koodattuna kuin mitä Windows ne käsittää, joten muutos esim ä => ä täytyy tehdä käsin.
Esimerkkitiedostot ovat tässä

Vaikka matemaattisen tekstin suoraan tuottamiseen skannaus ei sovellu, on siitä silti apua. Erityisesti jos sivu sisältää paljon tekstiä, mutta vain vähän esimerkiksi erikoisia kaavoja, saadaan suurin osa materiaalista automaattisesti talteen. Tämän jälkeen riittää, että ottaa itse kuvat esimerkiksi Paint Shop Pron avulla kuvasta ja liittää ne oikeille paikoilleen. Tämä on helppoa esimerkiksi Netscape Composeria käytettäessa. Esimerkki edellisistä tiedostoista yhdistelemällä tuotetusta sivusta.

Aivan mitä tahansa tekstiä ei kuitenkaan pystytä tunnistamaan, esimerkiksi käsinkirjoitettu teksti on lähestulkoon mahdotonta (ellei ohjelmalle pysty erikseen opettamaan) tunnistaa. Kuitenkin painettu ja koneella tuotettu teksti tunnistuu erittäin hyvin johtuen juuri sen säännönmukaisista ja samanlaisista kirjaimista.