Novi slovarji, jezikovni igri in raziskava pravljic o Pepelki z umetno inteligenco
V sredo, 10. decembra 2025, je na Fakulteti za računalništvo in informatiko potekala javna predstavitev rezultatov Centra za jezikovne vire in tehnologije.
Raziskovalci in raziskovalke so na dogodku med drugim predstavili tudi raziskovalne rezultate in orodja, ki so nastali v okviru projekta Veliki jezikovni modeli za digitalno humanistiko:
- novi različici Referenčnega korpusa pisne slovenščine Gigafida in korpusa Trendi,
- nove različice digitalnih slovarjev (Sopomenke, Kolokacije, SLOGOST),
- nov projekt občanske znanosti s Slovarjem sopomenk sodobne slovenščine,
- dve novi jezikovni igri na portalu CJVT Igre: Ugibanko in Kombinator in
- raziskavo motivov v pravljicah o Pepelki s pomočjo umetne inteligence.
Zbirka slovenskih besedil Gigafida 2.2 in spremljevalni korpus Trendi
Korpus Gigafida je referenčni korpus pisne slovenščine: obsežna, premišljeno zasnovana zbirka besedil, ki je ključna za raziskave jezika, jezikovni opis (slovarje, slovnice), pripravo učnih gradiv in razvoj raznovrstnih jezikovnih tehnologij ter strojnih postopkov za procesiranje slovenskega jezika. Gigafida vsebuje časopise, revije, določena spletna besedila, leposlovje, stvarno literaturo, šolske učbenike in podobna besedila. Gigafida je osnovni jezikovni vir za izdelke CJVT, kot so odzivni slovarji in leksikoni, podatkovne baze in portali. Na dogodku smo predstavili novo različico korpusa.
Spremljevalni korpus Trendi vsebuje besedila z več kot 100 medijskih spletnih strani in je prvi spremljevalni korpus za slovenščino. Korpus posodabljamo mesečno in vsebuje besedila od leta 2019 do danes. Njegov glavni namen je zagotavljanje vpogleda v aktualno rabo jezika – spremljanje rabe besed in besednih zvez, pojavljanja novih besed in pomenov. Na dogodku smo predstavili novo različico spremljevalnega korpusa Trendi, ki je že presegel milijardo besed.
Nadgradnja digitalnih slovarjev
Nadgradili smo podatke v Slovarju sopomenk sodobne slovenščine, v Kolokacijskem slovarju sodobne slovenščine in Slovarju za govorce slovenščine kot drugega tujega jezika SloGost.
Projekt občanske znanosti s Slovarjem sopomenk sodobne slovenščine
Slovar sopomenk sodobne slovenščine je eno izmed najbolj priljubljenih orodij Centra za jezikovne vire in tehnologije. Slovar sopomenk smo prvič objavili leta 2018 in je že od začetka nastajal kot “slovar skupnosti za skupnost”. Pri njegovem razvoju je sodelovalo več kot 1300 občank in občanov, ki so prispevali več kot 75.000 predlogov sopomenk in protipomenk. Zahvaljujoč financiranju Javne agencije za znanstvenoraziskovalno in inovacijsko dejavnost Republike Slovenije (ARIS), bomo prispevke občank in občanov prvič leksikografsko validirali in vključili v Digitalno slovarsko bazo za slovenščino. Posodobili bomo tudi vmesnik Slovarja sopomenk, da bo še bolj koristen tako za raziskovalno skupnost kot za občanke in občane.
Novi jezikovni igri na portalu CJVT Igre: Ugibanka in Kombinator
CJVT Igre so spletni portal z raznolikimi jezikovnimi igrami. Marca 2025 smo predstavili prve tri igre – Besedolov, Cvetko in Vezalko. Na portal smo v zadnjem delu leta dodali še dve novi igri: Ugibanko in Kombinator. Portal ponuja sproščujoč in zabaven način za stik s sodobno slovenščino ter spodbuja bogatenje jezikovnih zmožnosti v slovenskem jeziku.
Pepelka in umetna inteligenca
Digitalna humanistika združuje humanistične vede z računalniškimi orodji in metodami. Umetna inteligenca lahko bistveno izboljša raziskave na tem področju, saj omogoča hitrejšo analizo, transkripcijo in prevajanje podatkov ter njihovo shranjevanje v digitalnih arhivih. Algoritmi umetne inteligence so zmožni v velikih podatkovnih zbirkah prepoznati povezave, vzorce in trende, ki raziskovalcem prek uporabe tradicionalnih metod ostajajo skriti. S pomočjo umetne inteligence smo raziskali motive v veliki zbirki različnih pravljic o Pepelki. Na dogodku smo predstavili rezultate raziskave.
Posnetek prenosa dogodka je dostopen na povezavi.
Poročilo z dogodka je dostopno na spletni strani Slovenske tiskovne agencije.
O posameznih temah in orodjih so poročali tudi mediji:
- Dnevnik RTV Slovenija o besedah leta 2025:
https://365.rtvslo.si/arhiv/dnevnik/175181383
- Planet TV o besedah leta 2025:
https://www.planet-tv.si/clanek/veste-katere-so-letosnje-besede-leta/
- Val 202 o značilnostih slovenskega govora:
https://val202.rtvslo.si/podkast/jezikanje/173250741/175180609

Tine Eržen/STA
