LIST

ORODJE ZA UČINKOVITO ANALIZO SLOVENSKIH KORPUSOV

V projektu je bil razvit pregleden in razumljiv uporabniški vmesnik za orodje corpusStatistics (z novim imenom LIST), ki uporabnikom omogoča prijazen dostop do jezikovnih statistik v slovenskih in drugih korpusih. Orodje je bilo prilagojeno tudi za več formatov zapisa in preizkušeno na večjih slovenskih in tujih korpusih.

Izpisom so bili dodani metapodatki, ki omogočajo ponovljivost. Elementom vmesnika so bile dodane kratke razlage, ki se prikažejo ob preletu z miško. Dodana je bila možnost izračuna in izpisa različnih mer povezovalnosti (npr. Dice, t-score, MI, MI3) za izluščene besedne nize. Poleg tega je bil dodan izračun ocene obdelovalnega časa. Pri nastavitvah, ki lahko močno vplivajo na obdelovalni čas, so bila dodana opozorila. Dodana je bila tudi možnost preklapljanja med slovensko in angleško različico poimenovanj in možnost obdelave nelatiničnih pisav. Program je bil nadgrajen s podporo za format TEI P5, ki se uporablja za zapis novejših korpusov v repozitoriju CLARIN.SI, in format Vert, ki ga uporablja SketchEngine.

Program LIST je dostopen pod odprto licenco Apache2 na:

Krsnik, Luka; et al., 2019, Corpus extraction tool LIST 1.0, Slovenian language resource repository CLARIN.SI, http://hdl.handle.net/11356/1227.

POVEZAVE IN KONTAKT

Jaka Čibej
Center za jezikovne tehnologije Univerze v Ljubljani
Fakulteta za računalništvo in informatiko Univerze v Ljubljani
Večna pot 113, SI-1000 Ljubljana