Sopomenke gredo v Digitalno slovarsko bazo za slovenščino

Projekt Od občanske znanosti do digitalne slovarske baze je bil uspešen na razpisu ARIS za sofinanciranje izvajanja občanske znanosti.

Na Centru za jezikovne vire in tehnologije smo Slovar sopomenk sodobne slovenščine prvič objavili leta 2018. Danes vsebuje že 100.343 iztočnic in 361.286 sopomenk, kar ga uvršča med najobsežnejše prosto dostopne zbirke sopomenk za slovenščino. 

Ker slovenščino govori le približno dva milijona govorcev, smo za razvoj Slovarja sopomenk uvedli koncept »odzivnega slovarja«, ki združuje tradicionalno leksikografijo, računalniško podprte metode in sodelovanje širše jezikovne skupnosti. Občane in občanke smo povabili, da prispevajo svoje predloge sopomenk in protipomenk. Prispevki so se izkazali za izjemno dragocene: več kot 1300 sodelujočih je prispevalo več kot 75.000 predlogov. Ti predlogi so pogosto jezikovno raznoliki na način, ki ga s klasičnimi metodami težko dosežemo, saj vključujejo narečne izraze in sleng.

Prispevki sopomenk so trenutno vidni samo v spletnem vmesniku Slovarja sopomenk, niso pa še vključeni v odprto dostopne slovarske baze. V okviru projekta Od občanske znanosti do digitalne slovarske baze bomo prispevke občanov leksikografsko validirali in integrirali v Digitalno slovarsko bazo za slovenščino. Sopomenke in protipomenke bodo pregledali in validirali leksikografi, ki bodo poskrbeli, da morebitni problematični vnosi (npr. sovražni ali zlonamerni predlogi) ne bodo vključeni v Digitalno slovarsko bazo za slovenščino. Za zagotovitev natančnosti in jasnosti bomo uporabili ustrezne slovarske oznake, ki so ključne zlasti pri obravnavi občutljivega ali negativno zaznamovanega besedišča. Tak pristop ohranja bogastvo in raznolikost jezika ter hkrati premišljeno in spoštljivo naslavlja morebitne občutljive vsebine. Prečiščene podatke bomo integrirali v Digitalno slovarsko bazo za slovenščino, s čimer se bo pomembno povečala njena vrednost za projekt Veliki jezikovni modeli za digitalno humanistiko. 

Posodobili bomo tudi vmesnik Slovarja sopomenk in tako občanom in raziskovalni skupnosti omogočili boljšo uporabo ter vpogled v projektne rezultate. Validirani podatki bodo vsebovali najmanj 25.000 sopomenk in protipomenk, zbranih s pomočjo občanov. Podatki bodo objavljeni na repozitoriju Clarin.si, kar bo zagotovilo njihov odprt in dolgoročen dostop za raziskave in razvoj.

Digitalne slovarske baze so ključne pri obdelavi naravnega jezika in jezikovnih tehnologij. Danes se še posebej uporabljajo za izboljševanje velikih jezikovnih modelov z visokokakovostnimi podatki, kar odpira nove možnosti za pripravo naprednih tehnologij in rešitev na področju generativne umetne inteligence. Z vključevanjem posameznikov iz različnih jezikovnih in kulturnih okolij v zbiranje in označevanje podatkov občanska znanost demokratizira razvoj umetne inteligence in zagotavlja, da so modeli bolj reprezentativni ter vključujoči. S tem občani aktivno sooblikujejo tehnologije, ki jih kasneje tudi uporabljajo, ter premoščajo vrzel med inovacijami in družbenimi potrebami.