DS1: Merjenje kolokativnosti
Cilji in rezultati
1.1 Optimizacija statističnih metod za merjenje kolokacijskih razmerij v slovenščini
Izboljšali smo algoritem za luščenje dobrih korpusnih zgledov za kolokacijske podatke s pomočjo orodja GDEX.
Razvili smo metodologijo luščenja kolokacij, ki smo jo preizkusili tudi na specializiranih korpusih (korpus Šolar) in jo uporabili ter prilagodili za luščenje kolokacij iz korpusa akademske slovenščine ter za luščenje kolokacij za jezikovno-didaktične namene v obliki podatkovne množice za Igro besed.
Na podlagi nove učne množice smo izdelali in objavili orodje za luščenje kolokatorjev na podlagi metode besednih vložitev, kar je v slovenskem leksikografskem prostoru novost.
- Kosem, Iztok; Koppel, Kristina; Zingano Kuhn, Tanara; Michelfeit, Jan; Tiberius, Carole (2019). Identification and automatic extraction of good dictionary examples: the case of GDEX. International journal of lexicography, letn. 8, št. 2, str. 119–137. doi: 10.1093/ijl/ecy014; [COBISS.SI-ID 67655778]
- Krek, Simon; Gantar, Polona; Kosem, Iztok; Dobrovoljc, Kaja; Arhar Holdt, Špela; Čibej, Jaka; Laskovski, Cyprian Adam; Klemenc, Bojan; Krsnik, Luka (2021). Frequency lists of collocations from the Gigafida 2.1 corpus. Ljubljana: Center za jezikovne vire in tehnologije, Univerza v Ljubljani. http://hdl.handle.net/11356/1415; [COBISS.SI-ID 58622467]
- Kolos – A supervised machine learning tool for collocation extraction: https://github.com/clarinsi/kolos.
1.2 Evalvacija optimalnih statističnih metod za namene različnih ciljnih uporabnikov
Metodologijo luščenja kolokacij smo preizkusili na dveh specializiranih korpusih: korpusu šolskih besedil Šolar in korpusu akademske slovenščine KAS. Posebej smo jo prilagodili tudi za luščenje kolokacij za jezikovnodidaktične namene v obliki podatkovne množice za Igro besed (https://www.cjvt.si/raziskovalno-delo/projekti-cjvt/igra-besed/).
Uporabniške preference glede organizacije kolokacijskih podatkov smo preverili tudi s pomočjo uporabniške ankete (N=457), ki je pokazala, da je frekvenčna informacija boljši pokazatelj uporabniških preferenc kot statistična jakost logDice. Podatki iz obeh uporabniških študij so eni prvih tovrstnih pri nas in ponujajo empirična izhodišča za uporabniško usmerjen razvoj področja.
- Rozman, Tadeja; Arhar Holdt, Špela; Pollak, Senja; Kosem, Iztok (2018). Kolokacije v korpusu Šolar. Jezik in slovstvo, letn. 63, št. 2/3, str. 117–128. https://www.jezikinslovstvo.com/pdf.php?part=2018%7C2-3%7C117-128 [COBISS.SI-ID 1538090179]
- Logar, Nataša; Kosem, Iztok; Erjavec, Tomaž; Zaranšek, Petra; Laskowski, Cyprian Adam (2019). Aleks: leksikalno-skladenjska podatkovna zbirka slovenskega strokovno-znanstvenega jezika. https://www.termania.net/slovarji/223/kas-slovar-splosnostrokovne-leksike [COBISS.SI-ID 300937984]
- Pori, Eva; Čibej, Jaka; Arhar Holdt, Špela; Kosem, Iztok (2020). The attitude of dictionary users towards automatically extracted collocation data: a user study. Kolokacije v leksikografiji: obstoječe rešitve in izzivi. Slovenščina 2.0, tematska številka, letn. 8, št. 2, str. 168–201. doi: 10.4312/slo2.0.2020.2.168-201 [COBISS.SI-ID 27951107]
- Arhar Holdt, Špela (2021). Razvrstitev kolokacij v slovarskem vmesniku: uporabniške prioritete. [v tisku]
1.3 Opis vloge različnih spremenljivk na učinek statističnih metod
Na heterogeni učni množici ročno pregledanih in označenih 17.576 kolokacijskih kandidatov v 143 skladenjskih struktur za 333 različnih lem smo identificirali različne probleme, povezane s statističnimi metodami. Na podlagi rezultatov so bila izdelana priporočila za izboljšanje postopkov luščenja, med drugim smo tudi izdelali in ovrednotili sezname kolokatorjev z največjo stopnjo razpršenosti (sopojavljanja z veliko drugimi iztočnicami), ki so pogosto slovarsko nerelevantni.
Opravili smo tudi evalvacijo razvrščanja kolokacij po metodi deltaP, ki izhaja kognitivnega jezikoslovja iz psiholingvistike in upošteva usmerjenost kolokacije.
Zelo pomemben doprinos projekta teoretičnim dognanjem o fenomenu kolokacije, tako v slovenskem kot mednarodnem prostoru, je opredelitev kolokacije (tudi oz. predvsem v razmerju do ostalih večbesednih enot), zlasti za namene priprave leksikalnih virov za slovenščino.
- Pori, Eva; Kosem, Iztok (2018). V iskanju slovarsko relevantne kolokacije na primeru struktur s prislovi. Slovenščina 2.0, letn. 6, št. 2, str. 154–185. doi: 10.4312/slo2.0.2018.2.154-185; [COBISS.SI-ID 32220455]
- Gantar, Polona; Arhar Holdt, Špela; Pollak, Senja (2018). Leksikalne novosti v besedilih računalniško posredovane komunikacije. Slavistična revija: časopis za jezikoslovje in literarne vede, letn. 66, št. 4, str. 459–472. https://srl.si/ojs/srl/article/view/2018-4-1-4; [COBISS.SI-ID 27966211]
- Kosem, Iztok; Krek, Simon; Gantar, Polona (2020). Defining collocation for Slovenian lexical resources. V: Iztok Kosem in Polona Gantar (ur.): Kolokacije v leksikografiji: obstoječe rešitve in izzivi za prihodnost, Slovenščina 2.0, letn. 8, št. 2, str. 1–27. doi: 10.4312/slo2.0.2020.2.1-27; [COBISS.SI-ID 27966211]