Kirjan skanniruičendas

Tänne paginat kuduat ei synnytä piälolijoih forumoih

Valvoi: verkomuagari

BUTTON_POST_REPLY
Käyttäjän avatar
mp
Viestit: 2108
Liittyi: 05 08 2008, 19:45

Kirjan skanniruičendas

Viesti Kirjuttai mp »

Tuandoi Ol'ga G. työndi minule rasteri-pdf tiijoston, kudaman häi oli löydännyh kuslienne Internetas. Ei olluh bibliogruafizii tiedoloi, ga ozutihes ku se oli suarnukirju 143 sivunke. Luvin sidä da duumaičih, ku toinah toizetgi tahtottas sidä lugie. Ga se ved' oli 1930-luvul Petroskois painettu, yhtehizel karjalan kirjukielel, kirillizel kirjaimikol painettu kirju. Nengozennu se ei avauvu suomenkarjalazile. Sendäh duumaičin, pidänöy translitteroija se latinalazele kirjaimikole. Kuibo? Tädähäi jo luajiin erähii vuozii tagaperin, konzu keräin opastundukirjoi da toizii karjalankielizii kirjoi opastajat.net:tah. Ga se nero jo oli vähäzen piässyh unohtumah, da ohjelmatgi ollah sen jälgeh vähäzel muututtu, sendäh pidi uvvessah opastuo.

Minul on printsipannu, ku ei ole tolkuu ruadua käzin sidä, min voi kebjiembi ruadua tiedokonehel. Eigo ole tolkuu ruadua tiedokonehel sidä, min ruadau kebjiembiu ikäzin. Ga on tolkuu eččie ruadotaba, mi on kebjevin. Konzu silmien al on 143 ei ylen hyväluadustu kirjan sivun kuvua, nikudai iärivaihtoehto ei ole optimualine. Ei himoita ruveta sidä käzin kirjuttamah. Eigo ole täyzin automuattistu metodua sih ruadoh. Kuibo sit?

Skanneri, moine kudamii löydyy toimistolois, on bruja, kudai luadiu rasterikuvan bumuagulehtes. Erähičči skannerinke tulou OCR-ohjelmu (OCR = Optical Character Recognition - optine kirjaimen tunnustus), kudai muuttau tekstusivun kuvan digitualizekse tekstakse - kirjaimien koudoin čiepikse, kudamua sit voi monel tabua tiedokonehes käzitellä. Opiin kiändiä rasterikuvua suomenkielizel OCR:l da ven'ankielizel OCR:l, tulos oli ihan hyövytöi segavo, kudai vouse ei mustoita alguperästy tekstua. Mindäh muga? Ku OCR ozavus, pidäy täydyö nämmä ehtot: 1. tekstusivus on hyväluaduine suurikontrastine kuva suurel rezolutsiel, 2. OCR-ohjelmu tunnustau fontan, kai tekstas käytetyt kirjaimet, da 3. OCR-ohjelmu tunduo kirjutukses käytetyn kielen sanastuo, kudamas eččie abuu ebävarmas tilandehes. Meijän suarnukirju ei täytä nimidä nämis kolmes ehtos. Tekstu on skanniruittu aiga pienel rezolutsiel da kučistukses luadu vie huononou. Kuva ei ole mustu-valgei a ebätazazesti harmai. Ku opit lizätä kontrastua, toine puoli häviey valgieh, toine puoli muuttuu mustakse. Kirillizeh kirjaimikkoh on lizätty kirjaimii (ÿ, ä, ö) kudamii ven'an kieles ei käytetä. Käytetys fontas on vaigei eroittua kirjaimii, ezim. кни, гт, пл, цч, эз3. Eigo ven'alaine OCR tunne karjalan kielen sanastuo.

Karjalan kielele pättäviä OCR-ohjelmua ei ole. Kuibo sit ruadua? On olemas eräs OCR-ohjelmu, avoin da ilmaine, Tesseract, kudamah voi iče lizätä kielen. Kačommo ezmäi, kui OCR-ohjelmat toimitah. Allukse OCR-ohjelmu eččiy rivivälit da nega jagau sivun rivilöikse. Sit se joga rivil eččiy kirjainvälit da jagau rivin kirjaimien juaššiekoikse. Jogahizes juaššiekas on kirjaimen kuva. Sit pidäy vie eččie midä kirjaindu se tarkoittau käytetys fontas. Nenga sivu muuttuu kirjaimien čiepikse, digitualizekse tekstakse. Ku erästy kirjaindu ollou vaigei tunnustua, toinah sanakirju nevvou vaihtamas sen nenga ku rodieu kohtehkielen sana. Enzimäine askel on oppie kohendua kirjan sivuloin kuvii. Kui iel mainičin, kirjaimien tunnustustu haittua sivuloin ebätazaine muzavus. Teories sidä voi kohendua nenga. Liziämäl ylen äijäl kuvan ebäterävyttä (ezim. Gaussian blur) kuvankäzittelyohjelmas, kirjaimet suletah pohjuvärih - rodieu harmaifil'tru - panemal sen negatiivu puolikse läbinägyjänny kuvan piäl, muzavus tazoittuu. Täs kuvas voi sit luadie mustuvalgien libo harmaisävykuvan, kus kirjaimet eroitutah valgies libo tazazen muzavas pohjas. Gimp kuvankäzittelyohjelmas tämä on helppo luadie käyttämäl Internetas löydyjiä script-fu-simple-contrast-mask_0.scm skriptua. Nenga kohendin erähii sivuloi Tesseractan opastukses käytettäväkse, a kaikkien kirjan sivuloin kohendamine yksitellen olis jygei, pidäs olla toine skriptu, kudai kohendas kai sivut kerral. Ilmai nengomua Gimp skriptua käytin kaikkien sivuloin kohendamizeh sarjannu ImageMagick ohjelmua. Ezmäi leikkain kuvan valgien reunan trim toimindol. Sit lizäin vähäzen ebäterävytty gaussian-blur toimindol, da jälgimäi lizäin kontrastua contrast-stretch toimindol. Tuloksennu sain kudakui käyttökelbozet sivuloin kuvat.

Tärgevin vaihe Tesseract-ohjelman opastandas on opastua se tunnustamah kirjaimet. Pidäy vallita hyväluaduine sivu libo sivuloi, kudamal lövvyttäs kai karjalan kirjaimet. Erilline java-kieline ohjelmu jTessBoxEditor.jar luadiu ekruanale sivun, kudamas kirjaimien ymbärile on piirretty juaššiekat da ohjelman ehtotus, mi kirjain se on. Pidäy kohendua se arbavus da siirdiä juaššiekoin rajat oigieh kohtah. Puaksuh ohjelmu liččuau mondu kirjaindu samah juaššiekkah, libo jagau yhten kirjaimen monekse. Tämä on aiga jygei ruado - ku sivul on enämbi tuhattu kirjaindu, aigua menöy. Yhtelläh, jogahizes kirjaimes pidäs löydyö hos puolikymmendy, vähäzen erilastu kuvua. Sit konzu on tarbehekse da tarbehekse hyvii opastussivuloi, samal ohjelmal voi ajua opastundan. Sen jälgeh hyväs lykys Tesseract voi jo aiga hyvin muuttua sivut tekstakse. Ku hairavoloi ei olle liigua, net voi kohendua kohendusluvendas, kudai ainos on vältämätöi. Sit konzu kohendettuloi sivuloi rubieu kerdymäh, niilöis voi luadie sanaluvettelon. Täh niškoi luajiin pikkarazen Python skriptan. Sanaluvettelo pidäy syöttiä Tesseract-ohjelmale. Se parandau huomattavasti kirjaimien tunnustamistu.

Nygöi jo sain läs kaiken kniigan translitteroittuu latinalazele kirjaimikole. Tesseractan jälgeh jiäy vie kohendettavua, ga se jo ei ylen äijiä hillendä kohendusluvendua. A ku pidäs vie sama ruadua toizile kirjoile, sit toinah rubiezin opastumah Gimp-skriptoin luajindah, ku ezmäi parembi kohendua skanniruičendan jälgie. Yksi näyteh kirjan suarnois tiä Täs suarnas minuu miellytti sanelijan irounine stiilu, da opastushäi oli pozitiivine.

P.S. Kai suarnat nygöi adresis https://opastajat.net/luvekkua/trad/printsessa.html

kat't'i

Re: Kirjan skanniruičendas

Viesti Kirjuttai kat't'i »

Passiibo ruavos!

1900-luvun alushäi piäsi ilmah äijäl kirjutuksii SSSR:n vähembistökielilöil, da puaksuh kirjoih pantavikse vallittih net paginat, kudamii piettih pättävinny kirjukielen luadimiseh niškoi. Ainagi ersänkielizes skuaskukn'iigas, kudaman sain käzih yliopistol, saneltih, što pidäz kehittie kirjukielty vallittujen skuaskojen andamas materjualus. Kn'iigu oli työnnetty vuvvennu 1928. Nämmis vahnois kn'iigois nägyy ajan ideolougii.

On mieldykiinnittäi dielo, što ylen äijäl on tekstas ven'an sanua.

Sinilind
Viestit: 33
Liittyi: 23 08 2017, 10:25

Re: Kirjan skanniruičendas

Viesti Kirjuttai Sinilind »

kat't'i kirjutti:
10 03 2018, 12:46
On mieldykiinnittäi dielo, što ylen äijäl on tekstas ven'an sanua.
Allus kielipolitiekan tarkoituksennu vikse oli suaja vähembistörahvahat maltamah kirjah da työndiä heile propagandua heijän omal kielel, ku hyö roittas putin kommunistat. 1930-luvun lopul Nevvostoliiton kielipolitiekan tarkoituksennu oli ven’avuttua karjalazet. Sit jo ei suannuh käyttiä vahnoi karjalazii sanoi – kotkan da nizun sijas pidi olla orla da pšenitsa – eigo karjalazii neologismoi, sendäh ku net oldih fašistizet sanat. Muutos hyvin nägyy opastuskniigoin terminolougies: 1930-luvun allus käytetyt kieliopillizet terminät tunnussana (adjektiivu) da kyzyndä sanonda (kyzymysvirkeh) roittih vuozikymmenen lopus prilagatel'noi da voprositel’noi predloženija.

1930-luvun karjalan kirjukielih näh voibi lugie Esa Anttikosken ylen hyväs tutkimukses: http://www.oocities.org/esaanttikoski/lisuri.html

BUTTON_POST_REPLY