DS2: Semantični nizi kolokatorjev

Cilji in rezultati

2.1 Razvoj statistične metode za avtomatsko semantično grupiranje oz. kategoriziranje kolokatorjev v slovenščini

Metodo avtomatskega grupiranja kolokacij na podlagi mere povezanosti (angl. association score), ki je bila na voljo v orodju Sketch Engine, smo na podlagi evalvacije v 2.2 prilagodili za slovenščino in jo uporabili pri pripravi podatkov za Kolokacijski slovar sodobne slovenščine (https://viri.cjvt.si/kolokacije/slv/#).

Izdelali smo tudi delotok za semantično grupiranje kolokacij s pomočjo metode besednih vložitev in ga objavili v repozitoriju CLARIN.SI, skupaj z izbranimi kolokacijskimi podatki za tri skladenjske strukture. Delotok se poganja v prosto dostopnem orodju Orange Data Minining. Raziskovalcem omogoča analiziranje že obstoječih podatkov, pa tudi nalaganje in obdelavo lastnih podatkov.

  • Kosem, Iztok; Gantar, Polona; Krek, Simon; Arhar Holdt, Špela; Čibej, Jaka; Laskowski, Cyprian Adam; Pori, Eva; Klemenc, Bojan; Dobrovoljc, Kaja; Gorjanc, Vojko; Ljubešić, Nikola (2019). Collocations dictionary of modern Slovene KSSS 1.0, Slovenian language resource repository CLARIN.SI. Ljubljana: Centre for Language Resources and Technologies, University of Ljubljana. https://www.clarin.si/repository/xmlui/handle/11356/1250; [COBISS.SI-ID 20172291]
  • Kosem, Iztok; Čibej, Jaka; Ljubešić, Nikola; Krek, Simon; Gantar, Polona; Arhar Holdt, Špela; Logar, Nataša; Laskowski, Cyprian Adam; Klemenc, Bojan; Dobrovoljc, Kaja; Gorjanc, Vojko; Pori, Eva (2020). The Orange workflow for observing collocation clusters ColEmbed 1.0, Slovenian language resource repository CLARIN.SI. Ljubljana: Centre for Language Resources and Technologies, University of Ljubljana. https://www.clarin.si/repository/xmlui/handle/11356/1425; [COBISS.SI-ID 62599939]

2.2 Jezikoslovna evalvacija rezultatov statistične metode grupiranja kolokatorjev

Opravili smo evalvacijo avtomatskega grupiranja kolokatorjev v učni množici iz 1.3 in identificirali optimalno nastavitev praga podobnosti za vključitev kolokacij v gručo, ki je 0,2. To nastavitev smo potem uporabili pri pripravi gruč kolokacij za Kolokacijski slovar sodobne slovenščine (https://viri.cjvt.si/kolokacije/slv/#). (glej 2.1).

Gručenje kolokacij in njegova evalvacija je bila opravljena tudi na splošnostrokovnih iztočnicah, pridobljenih iz korpusa akademske slovenščine KAS. Rezultati so del leksikalno-skladenjske podatkovne zbirke ALEKS, ki je prosto dostopna na portalu Termania.

2.3 Izdelava ontologije semantičnih nizov oz. kategorij kolokatorjev v slovenščini

Na podlagi učnih množic iz sklopa 1, ugotovitev iz analiz gručenja kolokacij, podatkov za Kolokacijski slovar sodobne slovenščine, Leksikalne baze za slovenščino in nekaterih ostalih odprto dostopnih leksikalnih virov smo izdelali ontologijo semantičnih tipov za samostalnike in samostalniške kolokatorje (271 kategorij), ki smo jo objavili v repozitoriju CLARIN.SI (http://hdl.handle.net/11356/1428). Pri tem smo sodelovali z Berlinsko-brandenburško akademijo znanosti in Inštitutom za estonski jezik. Ontologija se že uporablja v različnih leksikografskih projektih (Veliki slovensko-madžarski slovar, Digitalna slovarska baza), in sicer za označevanje tako kolokacijskih gruč kot pomenskih konceptov, pa tudi za oblikovanje indikatorjev oz. kratkih pomenskih opisov, ki predstavljajo različne možnosti slovarske realizacije ontologije in so usmerjeni predvsem k ciljnemu uporabniku jezikovnega vira, ne pa njegovemu izdelovalcu.

  • Kosem, Iztok; Gantar, Polona; Krek, Simon (2017). Sense menus in collocations dictionary of Slovene. V: Electronic lexicography in the 21st century: lexicography from scratch, zbornik konference, str. 43. Leiden: Dutch Language Institut; Brno: Lexical Computing; Ljubljana: Trojina Institute for Applied Slovene Studies. [COBISS.SI-ID 66143586]
  • Kosem, Iztok; Pori, Eva; Gantar, Polona; Logar, Nataša; Krek, Simon; Laskowski, Cyprian Adam; Arhar Holdt, Špela; Čibej, Jaka; Dobrovoljc, Kaja; Gorjanc, Vojko; Klemenc, Bojan; Ljubešić, Nikola (2020). Slovene ontology of semantic types for nouns SLONEST-noun 1.0, Slovenian language resource repository CLARIN.SI. https://www.clarin.si/repository/xmlui/handle/11356/1428; [COBISS.SI-ID 62581507]