STARK

ORODJE ZA STATISTIČNO ANALIZO SKLADENJSKO RAZČLENJENIH KORPUSOV

V projektu smo razvili računalniški program za statistično analizo skladenjsko razčlenjenih korpusov (orodje STARK), ki omogoča izdelavo frekvenčnih seznamov skladenjskih dreves iz odvisnostnoskladenjsko razčlenjenih korpusov. Uporabnik lahko v konfiguracijski datoteki nastavi več parametrov, s katerimi določa lastnosti izluščenih dreves, kot so število vozlišč v drevesu, tip izpisanih vozlišč (od konkretnih besed do abstraktnejših slovničnih lastnosti) ter (ne)upoštevanje zaključenosti drevesa, relacij med vozlišči in zaporedja besed v besedilu. Poleg tovrstnega induktivnega luščenja dreves brez vnaprejšnjih jezikoslovnih predpostavk orodje omogoča tudi luščenje dreves na podlagi dodatnih restrikcij in vnaprej opisanih drevesnih struktur. Rezultati se izpisujejo v obliki tabelaričnega formata, v katerem so poleg podatkov o strukturi dreves in njegovih vozliščih pripisani še izkorpusni podatki o pogostosti in stopnji statistične povezanosti med vozlišči glede na različne mere povezovalnosti. Orodje kot vhodno datoteko sprejme skladenjsko razčlenjen korpus v standardnem formatu CONLL-U, s čimer je poleg skladenjsko razčlenjenih korpusov v slovenščini, kot sta učni korpus ssj500k in referenčni korpus Gigafida, neposredno uporaben tudi za skladenjske analize več kot 70 drugih svetovnih jezikov, za katere so že na voljo korpusi v omenjenem formatu.

Orodje STARK je orodje ukazne vrstice, ki je pod odprto licenco Apache 2.0 prosto dostopno na https://gitea.cjvt.si/lkrsnik/STARK, za prevzem pa tudi v repozitoriju CLARIN.SI:

Krsnik, Luka; Dobrovoljc, Kaja and Robnik-Šikonja, Marko, 2019, Dependency tree extraction tool STARK 1.0, Slovenian language resource repository CLARIN.SI, http://hdl.handle.net/11356/1284.

POVEZAVE IN KONTAKT

dr. Kaja Dobrovoljc
Institut “Jožef Stefan”
Jamova cesta 39, SI-1000 Ljubljana