Tekstusivuloin skanniruičendu tekstakse

Tänne paginat kuduat ei synnytä piälolijoih forumoih

Valvoi: verkomuagari

BUTTON_POST_REPLY
Käyttäjän avatar
mp
Viestit: 2108
Liittyi: 05 08 2008, 19:45

Tekstusivuloin skanniruičendu tekstakse

Viesti Kirjuttai mp »

Ongo kel kogemuksii karjalazen tekstan skanniruičendas tekstakse? Libo suomelazengi? Mittuzel ohjelmal, mittuzil tuloksil? Iče olen vägi äijängi skanniruinnuh karjalankielisty tekstua, a kohendettavua on jiännyh äijän. Vaigevuksii tiettäväine tuvvah huono algutekstu da skanniruičendu, a segi ku ohjelmu ei tunne karjalazii umlaut da šliäppy kirjaimii da sanoin rakendehtu. Iče aijembi käytin gocr -nimisty ilmastu ohjelmua, ongo parembua?

Internetas kirjutetah, ku Tesseract -nimine ohjelmu olis parembi. Olen jälgiaijannu tuttavunnuh senke. Algujah sidä kehitettih vuvves 1984 algajen HP tiedokonehfirman laboratouries ga hyö sidä ei luajittu valmehekse. Vuonnu 2005 hyö se annettih avvoimennu ohjelmannu kehitettäväkse. Tesseract ohjelmas käytettylöis menetelmis on kirjutettu tiijollizii artikloi, kudamien mugah sen tovengi pidäs olla hyvä ohjelmu. Ga ohjelmu ei ole vie tuottehennu valmis. Ohjelman versien 2.04 voi ičele kopiruija Googlen sivuloilpäi, toimiu Windowsas, Debian linuxah on valmis pakiettu i m.i. Ken tahtou iče kiändiä da muutella ohjelmua, voi lad'd'ata 3.00 versien. Ohjelmua lad'd'ates pidäy lad'd'ata abupakiettu anglien kielele. Karjalan kielele pakiettua ei ole, ga germuanien kieles ollah hos čökkehellizet äöü kirjaimet.

Enne gu sellitän omii kogemuksii, vähäzen Tesseractan toimindas. Kirjaimien tunnustamizekse (OCR) skanniruittu sivu pidäy jagua rivilöikse da rivit kirjaimikse. Tämägi ei ole ihan kebjei hommu, a Tesseract oppiu sen hyvin luadie. (Toizes teemas mainittu djvu ohjelmu, tarkembi sen kučistusohjelmu jbig2, sežo jagau sivun "kirjaimikse" a se käyttäy kirjaimien huahmoloi tunnustamattah.) Kirjaimien tunnustus perustuu opastamizeh. Sendäh ohjelmale pidäy syöttiä kohtehkielen näytehainehistuo, kaikkii kirjaimii kaikil fontoil. Ezimerkikse germuanienkielizes opastusainhistos on 32 jygiedy, segavan nägösty germuanienkielisty sivuu, kudamien mugah Tesseract opastuu kirjaimii tunnustamah. Ga sit vie voi syöttiä sanaluvetteluo avukse, hos kogonazen sanakirjan sanat.

Opastusainehiston luadimine on aiga jygei ruado sendäh ku ainehiston jogahizen kirjaimen kuva pidäy sijoittua kodazeh (abuohjelmu sijoittau ga voi olla gu pidäy kohendua) da sih pidäy liittiä oigei kirjainkoodi (ohjelmu ehtoittau ga pidäy tarkistua da kohendua). Sen verdu iče opittelin, ku luajin kahtes kolmes erähän karjalankielizen kirjan sivus opastussivut da niilöil opastuksen jälgeh skanniruičin toizii sivuloi. Tulos on äijiä parembi migu skanniruija samua kirjua germuanieh opastetul Tesseractal libo gocr ohjelmal.Tämä kirju on skanniruittavakse vaigei, ku sangiet da kursiivat puaksuh vuorotellah perusfontanke. Kohendettavua vie jiäy ga tulos on pättävy.Toinah pidäy vie vähäzen školie Tesseractua tädä kirjua lugemah.

Maria

Re: Tekstusivuloin skanniruičendu tekstakse

Viesti Kirjuttai Maria »

Mondu vuottu tagaperin olen tekstua tekstakse skanniruinnuh engo musta ohjelman nimiä.. No sil roih äijäl kohendettavuo Suomen kielesgi. Tesseract pättäväl kuulostau. Ylengo terävät kirjaimet pidäy alguversiis olla sto tunnustau, tunnustaugo vahnas kniigas kudamas kai kirjaimet ei hyväh nävy?

Käyttäjän avatar
mp
Viestit: 2108
Liittyi: 05 08 2008, 19:45

Re: resolutsii

Viesti Kirjuttai mp »

Lyhyt vastavus OCR:h näh: Resolutsii 600 dpi binaarine (mustu/valgei) ku ei olle syydy toizin vallita.

Käyttäjän avatar
mp
Viestit: 2108
Liittyi: 05 08 2008, 19:45

Skanniruičendan soveldus

Viesti Kirjuttai mp »

Oppikkuas duumaija midä tämä merkiččöy.

Otin erinomazen kirillitsal kirjutetun "Douhturi Ajkibie" kirjan kudaman olin aijembi skanniruinnuh djvu-kirjakse KKS:n kirjastoh. Otin kolme sivuu, kudamienke opastin Tesseract-ohjelman: Enzimäzes läs jogahine kirjain pidi nevvuo. Toine oli enzimäzen opastuksel kebjiembi da kolmandes aiga vähä kohendettavua. Sen jälgeh skanniruičin alolijan enne nägemättömän sivun. Hural alguperäine, oigiel skanniruittu, Tesseract-tunnustettu. Hairehii on vie, net enimyölleh johtutah tačmois kirjan sivul. Noumer 9 on ohjelmale vie opastamatoin kirjain..

Kuva

(Sivuu on vähäzel muutettu 4.8. - lizätty kolmas opastussivu)

Käyttäjän avatar
mp
Viestit: 2108
Liittyi: 05 08 2008, 19:45

Re: Tekstusivuloin skanniruičendu tekstakse

Viesti Kirjuttai mp »

Juohtui mieleh, voisgo luadie samah tabah Raja-Karjalan murdehien verdailuu, kui Bubrih luadi Nevvostoliitos. Karjalazien pajettuu Raja-Karjalaspäi da levittyy ymbäri Suomen moine verdailu jo on mahtotoi, a kudamidä ennevoinallizii arhiivumaterjualoi löydyy. Eräs moine lähteh on Eino Leskizen 3-ozaine "Karjalan kielen näytteitä", SKS 1934-1936 (lövvytäh KKS:n digikirjastos), kudaman toizes ozas on näyttehii Salmis, Impilahtes, Suistamos, Suojärves, Korpiselläs da Ilomantsis, jogahizes nenga kymmene sivuu. A kuibo čotaija eroloi da yhtäläzyksii. Parem olis verrata, ku net tekstat oldas tiedokonehel digitualizesti lugiettavat.

On skannerit, a tekstoi kačottuu kerras ellendäy ku tavalline OCR-ohjelmu (Optical Character Recognition - optine kirjaimentunnustus) nimidä ei ellendä moizes suomelazes foneetizes kirjutukses. Hos joukos on tavallizii ASCII-koodavukseh kuulujii kirjaimii, a puaksuh enämbi migo puolii kirjaimis on "comendettu" čökkehil, viivoil, pilkuloil, aktsentoil, kuaril, karonoil, tsirkumfleksoil i m.i. ylähän, alahan libo čuppulois, erähičči mondu "čomendustu" yhtelaigua. Ku vie fontannu on kursiivu painanduluadu, kirjaimet ei eroituta libo ollah ozittain hävitty, libo segah on puuttunuh kiärbäzen šittua, alguperäine vaigiesti lugiettavu tekstu menöy lugemattomakse.

Nenga kymmene vuottu tagaperin rubein ečittelemäh da skanniruiččemah vahnoi karjalankielizii kirjoi. Ylen mieldykiinittäjikse ozutettihes Nevvostoliitos enne voinua luajitut karjalankielizet opastundukirjat, kudamat jälgiaijoil kirjutettih kirillizel kirjaimikol. Silloi probliemannu oli, voisgo net kirjuttua latinalazel kirjaimikol. Yksi mahto ved' olis olluh käyttiä ven'ankielisty OCR-ohjelmua, ga ei ihan tävvelline sendäh, ku joukkoh oli lizätty erähii ven'an kirjaimikkoh lizättylöi kirjaimii. Ga sit keksin, ku sen voi luadie Tesseract-nimizel OCR-ohjelmal. Tesseractan eričys on, ku sidä voi opastua omien tarbehien mugah. Voi tunduo kummallizel, ku kirillitsal kirjutetun sivun lugemine latinalazel kirjaimikol kirjutetukse tekstakse on kebmiembi migu suomelazen "tarkekirjutuksen" lugemine suomelazel kirjaimikol kirjutetukse tekstakse. Mindäh? Ga sendäh ku yhtes kirjaimes foneettizien "comenduksienke" rodieu suuri joukko variantoi, kudamat pidäs eroittua.

Tiedokonehohjelmat ruttoh muututah eigo kerral opastuttu toizel kerral jo päi. Muga on Tesseractangi ker, a toiminduprintsippu on sama. Ohjelmu tunnustau ku sivu jagavuu rivilöikse da rivi kirjaimikse. Sivu jagavuu kuvarivilöikse, joga kuvajuaššiekas yksi kirjain. Ga ainos se ei mene ihan oigein, erähičči samah juaššiekkah liččavuu moni kirjaindu, da toičči ohjelmu nägöy yhtes kirjaimes moini kirjaindu. Silloi ohjelmua pidäy opastua - jagua libo yhtistiä, toinah siirdiägi juaššiekoi, kuni jogahizes hyvin rajatus juaššiekas on yksi kirjain. Sit pidäy vie nimittiä se kirjain, midä sen kirjaimen kuvan kohtah kirjutetah - voibi olla yksi libo kaksigi merkii, ezim n' ozuttamah pehmiedy n-kirjaindu.

Tesseract-ohjelmu iče maltau luadie (tekstu)tiijoston, kudai javoittelou sivun kuvan kirjaimen kogozikse juaššiekoikse. A tämän javottelun kohendamizeh, ohjelman opastandah niškoi, on parembi käyttiä erillizii graafizii ohjelmii. Jo ammui käytin sih pyTesseractTrainer nimisty Python ohjelmua. Nygöi enämbi käytetäh jTessBoxTrainer Java ohjelmua. Se on ylen suuri ohjelmu, a senke voi ajua opastuksen loppussah. Opastuksen "siemenekse" voi ottua mintah kielen, ezim. anglien kirjaimikon. Karjalastu tekstua skanniruijes siemenekse pätäh ezim. suomi libo lätti. Opastukses pidäy löydiä tazapaino, min verran opastua da min verran kohendua hairavoloi. Opastandu on hil'l'ua, terstaittavua ruaduo, a jygei on i jälgehpäi kohendua pahoi skanniruittuu tekstua. Tämänkerdazes ruavos toinah maksau opastua yksi sivu da sen vuoh skanniruija da kohendua kymmene sivuu.

Tuloksii kieličupun näyttehis.

BUTTON_POST_REPLY