Projektni sklopi

Delovni sklop 1: vzdrževanje in nadgradnja korpusov (jezikovni viri)

Cilji vključujejo nadgradnjo programa za strojno označevanje besedil in vzpostavitev spletnega delotoka, izdelavo ali nadgradnjo učnih množic za procesiranje naravnega jezika, nadgradnjo leksikona, korpusov pisne standardne in nestandardne slovenščine, (5) korpusa govorjene slovenščine ter gradnjo korpusa usvajanja slovenščine kot prvega in kot drugega/tujega jezika, korpusa parlamentarnih razprav in metakorpusa vseh večjih korpusov slovenskega jezika.

Delovni sklop 2: govorne tehnologije

Predvidena je izdelava govorne baze, ki bo osnova za izdelavo splošnega razpoznavalnika govora, izdelava podpornih orodij in postopka za razvoj robustnega splošnega ter specializiranega razpoznavalnika, razvoj portala s podpornimi orodji in modeli razpoznave ter priprava dolgoročnega načrta nadgradnje splošnega razpoznavalnika z velikim slovarjem besed ter načrta izdelave razpoznavalnika v realnem času za domeno izobraževanja.

Delovni sklop 3: semantični viri in tehnologije

Cilji vključujejo izdelavo osrednje digitalne slovarske baze, ki združuje različne tipe jezikovnih podatkov o slovenščini v odprtem dostopu, avtomatsko izdelavo baze znanja oz. semantične mreže, izdelavo virov in orodij za razdvoumljanje pomenov in prepoznavanje semantičnih premikov ter za za avtomatsko povzemanje in odgovarjanje na vprašanja, izdelavo korpusov za izvajanje semantičnih analiz.

Delovni sklop 4: strojno prevajanje

Cilji zajemajo namestitev referenčnega prevajalnika ter razvoj podpornih orodij in definiranje evalvacijskih metod, testiranje alternativnih ogrodij nevronskega strojnega prevajanja (NMT), izdelavo modelov NMT in njihovo osveževanje glede na rast korpusa prevodov, razvoj dela portala s strojnim prevajalnikom, pripravo dolgoročnega načrta za razvoj strojnega prevajalnika v domeni izobraževanja ter načrta za nadaljnji razvoj splošnega prevajalnika, zbiranje besedil za korpus prevodov.

Delovni sklop 5: terminološki portal

Predvidena je izdelava terminološkega portala z iskalnikom po terminoloških virih in spletnim konkordančnikom za analizo specializiranih korpusov, orodja za luščenje terminoloških kandidatov iz korpusov, spletnega urejevalnika terminoloških virov, smernic in navodil za sestavljanje terminoloških virov z vzorčnimi podatkovnimi zbirkami, vzpostavitev svetovalnice za reševanje terminoloških vprašanj in zagotovitev ažurne objave odgovorov ter priprava načrta razvoja in nadgradnje terminološkega portala po zaključku projekta.

Delovna sklopa 6 (vzdrževanje infrastrukturnega centra za jezikovne vire in tehnologije) in 7 (koordinacija in informiranje)

Cilji so zagotoviti obstoječe in nadgrajene storitve infrastrukture CLARIN.SI, poskrbeti za razvoj in vzdrževanje shem XML, za distribucijo jezikovnih virov in orodij ter zagotoviti odkup obstoječih jezikovnih virov ter informirati uporabnike o projektnih rezultatih.