Tekstusivuloin skanniruičendu tekstakse
Työnnetty: 03 08 2010, 10:47
Ongo kel kogemuksii karjalazen tekstan skanniruičendas tekstakse? Libo suomelazengi? Mittuzel ohjelmal, mittuzil tuloksil? Iče olen vägi äijängi skanniruinnuh karjalankielisty tekstua, a kohendettavua on jiännyh äijän. Vaigevuksii tiettäväine tuvvah huono algutekstu da skanniruičendu, a segi ku ohjelmu ei tunne karjalazii umlaut da šliäppy kirjaimii da sanoin rakendehtu. Iče aijembi käytin gocr -nimisty ilmastu ohjelmua, ongo parembua?
Internetas kirjutetah, ku Tesseract -nimine ohjelmu olis parembi. Olen jälgiaijannu tuttavunnuh senke. Algujah sidä kehitettih vuvves 1984 algajen HP tiedokonehfirman laboratouries ga hyö sidä ei luajittu valmehekse. Vuonnu 2005 hyö se annettih avvoimennu ohjelmannu kehitettäväkse. Tesseract ohjelmas käytettylöis menetelmis on kirjutettu tiijollizii artikloi, kudamien mugah sen tovengi pidäs olla hyvä ohjelmu. Ga ohjelmu ei ole vie tuottehennu valmis. Ohjelman versien 2.04 voi ičele kopiruija Googlen sivuloilpäi, toimiu Windowsas, Debian linuxah on valmis pakiettu i m.i. Ken tahtou iče kiändiä da muutella ohjelmua, voi lad'd'ata 3.00 versien. Ohjelmua lad'd'ates pidäy lad'd'ata abupakiettu anglien kielele. Karjalan kielele pakiettua ei ole, ga germuanien kieles ollah hos čökkehellizet äöü kirjaimet.
Enne gu sellitän omii kogemuksii, vähäzen Tesseractan toimindas. Kirjaimien tunnustamizekse (OCR) skanniruittu sivu pidäy jagua rivilöikse da rivit kirjaimikse. Tämägi ei ole ihan kebjei hommu, a Tesseract oppiu sen hyvin luadie. (Toizes teemas mainittu djvu ohjelmu, tarkembi sen kučistusohjelmu jbig2, sežo jagau sivun "kirjaimikse" a se käyttäy kirjaimien huahmoloi tunnustamattah.) Kirjaimien tunnustus perustuu opastamizeh. Sendäh ohjelmale pidäy syöttiä kohtehkielen näytehainehistuo, kaikkii kirjaimii kaikil fontoil. Ezimerkikse germuanienkielizes opastusainhistos on 32 jygiedy, segavan nägösty germuanienkielisty sivuu, kudamien mugah Tesseract opastuu kirjaimii tunnustamah. Ga sit vie voi syöttiä sanaluvetteluo avukse, hos kogonazen sanakirjan sanat.
Opastusainehiston luadimine on aiga jygei ruado sendäh ku ainehiston jogahizen kirjaimen kuva pidäy sijoittua kodazeh (abuohjelmu sijoittau ga voi olla gu pidäy kohendua) da sih pidäy liittiä oigei kirjainkoodi (ohjelmu ehtoittau ga pidäy tarkistua da kohendua). Sen verdu iče opittelin, ku luajin kahtes kolmes erähän karjalankielizen kirjan sivus opastussivut da niilöil opastuksen jälgeh skanniruičin toizii sivuloi. Tulos on äijiä parembi migu skanniruija samua kirjua germuanieh opastetul Tesseractal libo gocr ohjelmal.Tämä kirju on skanniruittavakse vaigei, ku sangiet da kursiivat puaksuh vuorotellah perusfontanke. Kohendettavua vie jiäy ga tulos on pättävy.Toinah pidäy vie vähäzen školie Tesseractua tädä kirjua lugemah.
Internetas kirjutetah, ku Tesseract -nimine ohjelmu olis parembi. Olen jälgiaijannu tuttavunnuh senke. Algujah sidä kehitettih vuvves 1984 algajen HP tiedokonehfirman laboratouries ga hyö sidä ei luajittu valmehekse. Vuonnu 2005 hyö se annettih avvoimennu ohjelmannu kehitettäväkse. Tesseract ohjelmas käytettylöis menetelmis on kirjutettu tiijollizii artikloi, kudamien mugah sen tovengi pidäs olla hyvä ohjelmu. Ga ohjelmu ei ole vie tuottehennu valmis. Ohjelman versien 2.04 voi ičele kopiruija Googlen sivuloilpäi, toimiu Windowsas, Debian linuxah on valmis pakiettu i m.i. Ken tahtou iče kiändiä da muutella ohjelmua, voi lad'd'ata 3.00 versien. Ohjelmua lad'd'ates pidäy lad'd'ata abupakiettu anglien kielele. Karjalan kielele pakiettua ei ole, ga germuanien kieles ollah hos čökkehellizet äöü kirjaimet.
Enne gu sellitän omii kogemuksii, vähäzen Tesseractan toimindas. Kirjaimien tunnustamizekse (OCR) skanniruittu sivu pidäy jagua rivilöikse da rivit kirjaimikse. Tämägi ei ole ihan kebjei hommu, a Tesseract oppiu sen hyvin luadie. (Toizes teemas mainittu djvu ohjelmu, tarkembi sen kučistusohjelmu jbig2, sežo jagau sivun "kirjaimikse" a se käyttäy kirjaimien huahmoloi tunnustamattah.) Kirjaimien tunnustus perustuu opastamizeh. Sendäh ohjelmale pidäy syöttiä kohtehkielen näytehainehistuo, kaikkii kirjaimii kaikil fontoil. Ezimerkikse germuanienkielizes opastusainhistos on 32 jygiedy, segavan nägösty germuanienkielisty sivuu, kudamien mugah Tesseract opastuu kirjaimii tunnustamah. Ga sit vie voi syöttiä sanaluvetteluo avukse, hos kogonazen sanakirjan sanat.
Opastusainehiston luadimine on aiga jygei ruado sendäh ku ainehiston jogahizen kirjaimen kuva pidäy sijoittua kodazeh (abuohjelmu sijoittau ga voi olla gu pidäy kohendua) da sih pidäy liittiä oigei kirjainkoodi (ohjelmu ehtoittau ga pidäy tarkistua da kohendua). Sen verdu iče opittelin, ku luajin kahtes kolmes erähän karjalankielizen kirjan sivus opastussivut da niilöil opastuksen jälgeh skanniruičin toizii sivuloi. Tulos on äijiä parembi migu skanniruija samua kirjua germuanieh opastetul Tesseractal libo gocr ohjelmal.Tämä kirju on skanniruittavakse vaigei, ku sangiet da kursiivat puaksuh vuorotellah perusfontanke. Kohendettavua vie jiäy ga tulos on pättävy.Toinah pidäy vie vähäzen školie Tesseractua tädä kirjua lugemah.