NAGLAŠEVANJE LEKSIKONA SLOLEKS

V projektu je bil slovenski oblikoslovni leksikon Sloleks opremljen z avtomatsko pripisanimi in delno ročno pregledanimi naglasi. Poleg tega je bil nadgrajen obstoječi vmesnik leksikona, ki zdaj omogoča množičenje naglasnih podatkov. Projekt se je osredotočil na leme z nepremičnimi naglasnimi paradigmami. Naglasi so bili v prvem koraku celotni leksikonski bazi pripisani avtomatsko. Z uporabo obstoječih slovarskih virov je bilo avtomatsko pripisane naglase za 55 % leksikona mogoče potrditi s predvideno 75-odstotno natančnostjo. Ročno je bilo pregledanih 24 % leksikona, od tega večina z množičenjem. Z avtomatskimi in ročnimi spremembami je bil v projektu popravljen 21,7-odstotni delež avtomatsko naglašene baze. Za nadaljnje delo je ostalo predvsem lastnoimensko gradivo, pri občnoimenskem pa primeri s premičnim naglasnim tipom in naglasno variantnostjo.

V sklopu projekta je bila tudi nadgrajena oblikovna podoba uporabniškega vmesnika: (a) aplicirana je bila grafična podoba, razvita za vire CJVT, in (b) vmesnik je bil nadgrajen z elementi, ki omogočajo jezikovni skupnosti sodelovanje pri nadaljnjem čiščenju oz. dopolnjevanju naglasnih podatkov (pozitivno/negativno ocenjevanje avtomatsko pripisanih naglasov in fonetičnih zapisov ter generiranih posnetkov izgovora). Pod okriljem drugih projektov, ki še potekajo, so v razvoju tudi dodatne funkcionalnosti, kot je možnost, da uporabniki sami snemajo posnetke izgovora.

Baza leksikona Sloleks 2.0 je za prevzem dostopna pod licenco CC BY-NC-SA na:

Dobrovoljc, Kaja; et al., 2019, Morphological lexicon Sloleks 2.0, Slovenian language resource repository CLARIN.SI, http://hdl.handle.net/11356/1230.

POVEZAVE IN KONTAKT

dr. Špela Arhar Holdt
Center za jezikovne tehnologije Univerze v Ljubljani
Fakulteta za računalništvo in informatiko Univerze v Ljubljani
Večna pot 113, SI-1000 Ljubljana