DS4: Kolokacije – časovni vidiki

Cilji in rezultati

4.1 Razvoj statističnih metod za zaznavanje semantičnih trendov besed v slovenščini prek kolokacij

Analizirali smo različne metode prepoznave časovnih trendov, ki so bile do naše analize preizkušene predvsem na posameznih besedah in manj na kolokacijah. Kot najbolj koristne smo prepoznali naklon linearne regresije, koeficient določenosti, razmerje med maksimalno in povprečno relativno pogostostjo ter količnik nedavne rasti.

Pomemben dosežek in priznanje našemu delu na projektu je bilo povabilo k sodelovanju pri mednarodnem prispevku, ki se je osredotočal na metodologijo pri zaznavanju neologizmov, povezanih s pandemijo COVID-19.

  • Tan, Kim Hua; Woods, Peter; Azman, Hazita; Abdullah, Imran Ho; Ruzy Suliza, Hashim; Rahim, Hajar Abdul; Muzhafar Idrus, Mohid; Mohd Said, Nur Ehsan; Lew, Robert; Kosem, Iztok (2020). COVID-19 insights and linguistic methods. Journal of language teaching, linguistics and literature, letn. 26, št. 2, str. 1–23. doi: 10.17576/3L-2020-2602-01; [COBISS.SI-ID 28122115]

4.2 Identifikacija kvantitavnih in kvalitativnih indikatorjev za zaznavanje semantičnih trendov v življenju besed

Metode za spremljanje semantičnih trendov, zlasti odkrivanje novih pomenov, smo zaradi optimizacije različnih indikatorjev preizkusili in evalvirali tudi na leksiki  najnovejših žanrov: komentarjev pod spletnimi novicami, blogih, forumih ipd.

  • Gantar, Polona; Arhar Holdt, Špela; Pollak, Senja (2018). Leksikalne novosti v besedilih računalniško posredovane komunikacije. Slavistična revija: časopis za jezikoslovje in literarne vede, letn. 66, št. 4, str. 459–472. https://srl.si/ojs/srl/article/view/2018-4-1-4; [COBISS.SI-ID 1538097859]

4.3 Razvoj prototipa orodja za avtomatsko spremljanje semantičnih sprememb v rabi besed skozi čas

Na podlagi analiz v 4.1 in 4.2 smo razvili prototip orodja, ki smo ga oblikovali kot delotok v Orange Text Mining in ga skupaj z vzorčnimi že analiziranimi podatki naložili v repozitorij CLARIN.SI. Delotok omogoča raziskovalcem analize podatkov iz lastnih projektov, ponujena pa so tudi navodila za pripravo in izvedbo.

  • Kosem, Iztok; Krek, Simon; Čibej, Jaka; Gantar, Polona; Arhar Holdt, Špela; Logar, Nataša; Laskowski, Cyprian Adam; Klemenc, Bojan; Ljubešić Nikola; Dobrovoljc, Kaja; Gorjanc, Vojko; Pori, Eva (2020). The Orange workflow for observing collocation clusters ColEmbed 1.0, Slovenian language resource repository CLARIN.SI. https://www.clarin.si/repository/xmlui/handle/11356/1425; [COBISS.SI-ID 62236931]

4.4 Razvoj metodologije za implementacijo orodja v postopek slovarskega opisa

Metode, ki so bile evalvirane pri 4.1 in 4.2, so bile v člankih tudi ovrednotene z vidika pomena za namene slovarskega opisa.

Konkretna implementacija metod spremljanja časovnih trendov pri pripravi jezikovnega vira je bila izvedena v projektu Jezikovni sledilnik:

  • Kosem, Iztok (glavni urednik); Čibej, Jaka (glavni urednik); Gantar, Polona (glavni urednik); Arhar Holdt, Špela (glavni urednik); Krek, Simon (glavni urednik); Laskowski, Cyprian Adam (glavni urednik); Robnik Šikonja, Marko (glavni urednik); Klemenc, Bojan (glavni urednik); Dobrovoljc, Kaja (glavni urednik); Gorjanc, Vojko (glavni urednik); Repar, Andraž (glavni urednik); Ljubešić, Nikola (glavni urednik) (2021). Sledilnik 1.0: jezikovni sledilnik. (Orodja CJVT). Ljubljana: Center za jezikovne vire in tehnologije, Univerze v Ljubljani. https://viri.cjvt.si/sledilnik/slv/; [COBISS.SI-ID 62272771]