Zakulisje razvoja velikega jezikovnega modela za popravljanje črkovanja in slovnice za slovenščino: kombinacija avtentičnih in sintetičnih podatkov

Avtorja: dr. Špela Arhar Holdt in Gašper Jelovčan

V članku so na kratko predstavljene metode in iztočnice, ki jih uporabljamo pri razvoju velikih jezikovnih modelov za pravopisno in slovnično popravljanje v slovenščini.

Slovenščina je z dvema milijonoma govorcev dober primer jezika z manj viri. Kaj pa sploh pomeni, da ima jezik manj virov? Gre za jezik z omejeno digitalno, izobraževalno in/ali institucionalno podporo v primerjavi s široko uporabljenimi in dobro dokumentiranimi jeziki, kot je angleščina (Laumann, 2022).

To predstavlja velik izziv za razvoj velikih jezikovnih modelov, ki temeljijo na velikih količinah visokokakovostnih učnih podatkov. V nasprotju z velikimi jeziki z obsežnimi podatkovnimi zbirkami ima slovenščina omejene jezikovne vire, kar otežuje učenje modelov za naloge, kot sta popravljanje črkovanja in slovnice (Arhar Holdt et al., 2025).

Pri razvoju podatkov za velike jezikovne modele, namenjene popravljanju pravopisa in slovnice, za slovenščino smo se oprli na ugotovitve iz slovenskega razvojnega korpusa Šolar 3.0 (Arhar Holdt in Kosem, 2024). V njem je bilo identificiranih 180 različnih vrst najbolj značilnih jezikovnih napak v slovenščini. Ocenili smo, da bi za podatkovno zbirko potrebovali vsaj 50 primerov vsake vrste napake, torej skupaj okoli 10.000 primerov.

Da bi dosegli to število, bomo združili tako sintetične kot avtentične podatke.

Uporaba avtentičnih jezikovnih podatkov

Naj omenimo tri vire jezikovnih popravkov za slovenščino: korpus Šolar, ki vsebuje besedila osnovnošolcev in srednješolcev skupaj z učiteljskimi popravki (Kosem idr., 2016), korpus Lektor, ki vsebuje besedila odraslih maternih govorcev skupaj z lektorskimi popravki (Popič, 2014), in korpus KOST z besedili učencev slovenščine kot drugega/tujega jezika (Stritar Kučuk, 2022).

Poleg tega referenčni korpus pisne slovenščine Gigafida 2.0 (Krek et al., 2020) vsebuje veliko število avtentičnih zgledov, ki jih lahko uporabimo pri pripravi podatkovne množice. V ta avtentični jezik iz Gigafide 2.0 lahko nato ročno dodamo napake, npr. s spreminjanjem velikih črk v male, da bi dobili več primerov besedila z napakami.

Za pridobitev čim več avtentičnih primerov iz teh korpusov bomo uporabili korpusnojezikovne pristope. V drugem koraku jih bomo uporabili za ustvarjanje dodatnih primerov.

Delavnica ustvarjanja iztočnic, ki povezuje strokovnjake s področja računalništva in leksikografije.

Generiranje sintetičnih podatkov

Pri tem delu naloge se bomo oprli na že obstoječe velike jezikovne modele, kot sta ChatGPT in Gemini. S skrbno oblikovanimi iztočnicami bomo ustvarili sintetično podatkovno zbirko. Iztočnice bomo vnesli v ChatGPT in Gemini, ki bosta nato generirala primere slovenskih besedil s slovničnimi in pravopisnimi napakami. Generirani podatki bodo služili kot osnova za učenje modela za popravljanje.

Organizirali smo tudi manjšo delavnico ustvarjanja iztočnic, na kateri so sodelovali strokovnjaki s področja računalništva in leksikografije. Njihov cilj je bil oblikovati iztočnice, ki bi generirale dodatne primere slovničnih in pravopisnih napak. Te bomo nato uporabili za učenje velikega jezikovnega modela za preverjanje slovnice in pravopisa.

Tu je nekaj idej z delavnice:

  • Velikemu jezikovnemu modelu bomo posredovali primer avtentične slovnično nepravilne povedi in ga prosili, naj ustvari več povedi z enakim tipom napake.
  • Slovnično napako bomo opisali in od modela zahtevali dodatne primere.
  • Modelu bomo posredovali pravopisna pravila in mu naročili, naj na na podalgi pravil ustvari pravilne in napačne stavke.
  • Velikemu jezikovnemu modelu bomo naročili, naj popravi nepopravljene eseje iz korpusa Šolar.
  • Velikemu jezikovnemu modelu bomo naročili, naj pretirano izraža določen slogi pisanja, na primer, naj piše pretirano jedrnato, umetniško ali enostavno.
  • Modelu bomo naročili, naj na podlagi smernic o pogostih napakah pri pisanju esejev napiše eseje s tovrstnimi napakami, nato pa še popravljene različice teh esejev.
  • Modelu bomo naročili, da generira besedila, kot jih tipično pišejo osnovnošolci, srednješolci in študentje, in vanje vključi pogoste slovnične napake za vsako skupino.
  • Modelu bomo naročili, naj pripravi slovnične teste s poudarkom na tipičnih napakah, ki bodo vsebovali pravilen odgovor skupaj z nepravilnim(-i) odgovorom(-i).

Naj poudarimo, da bo raziskovalna skupina zgoraj opisane metode za ustvarjanje sintetičnih podatkov preizkušala na različnih že obstoječih velikih jezikovnih modelih. Po oceni njihove učinkovitosti bomo uporabili najuspešnejše pristope, z namenom generiranja čim več primerov besedil z napakami – v idealnem primeru bi bila ta zelo podobna avtentičnim podatkom.

Podatkovno množico bomo uporabili za razvoj velikega jezikovnega modela za popravljanje pravopisa in slovnice za slovenščino, ki bo prosto dostopen na repozitoriju CLARIN.SI. Odprto dostopen bo tudi sam model.

Te raziskovalne dejavnosti so del projekta Veliki jezikovni modeli za digitalno humanistiko (LLM4DH), oznaka projekta GC-0002, ki ga financira Javna agencija za raziskovalno dejavnost Republike Slovenije.

Novica temelji na članku, ki je objavljen na Zenodu in je v angleščini.

Citiranje:

Arhar Holdt, Š., & Jelovčan, G. (2025). Behind the scenes of developing spell and grammar correction LLM for Slovenian: combining authentic and synthetic data. Zenodo. https://doi.org/10.5281/zenodo.15282208

Reference:

Arhar Holdt, Š., & Kosem, I. (2024). Šolar, the developmental corpus of Slovene. Language Resources and Evaluation, 1–27. https://doi.org/10.1007/s10579-024-09758-4

Arhar Holdt, Š., Antloga, Š., Munda, T., Pori, E., & Krek, S. (2025). From words to action: A national initiative to overcome data scarcity for the Slovene LLM. In Proceedings of the Third Workshop on Resources and Representations for Under-Resourced Languages and Domains (RESOURCEFUL-2025) (pp. 130–136). University of Tartu Library. https://aclanthology.org/2025.resourceful.

Krek, S., Arhar Holdt, Š., Erjavec, T., Čibej, J., Repar, A., Gantar, P., Ljubešić, N., Kosem, I., & Dobrovoljc, K. (2020). Gigafida 2.0: The reference corpus of written standard Slovene. In Proceedings of the Twelfth Language Resources and Evaluation Conference (pp. 3340–3345).

Laumann, M. (2022). Low-resource language: What does it mean? Medium. https://medium.com/neuralspace/low-resource-language-what-does-it-mean-d067ec85dea5

Papers with Code. (2025). Grammatical error correction. https://paperswithcode.com/task/grammatical-error-correction

Popič, D. (2014). Revising translation revision in Slovenia. In T. Mikolič Južnič, K. Koskinen, & N. Kocijančič Pokorn (Eds.), New horizons in translation research and education 2 (pp. 72–89). University of Eastern Finland. https://erepo.uef.fi/handle/123456789/14340

Stritar Kučuk, M., et al. (2023). Slovene learner corpus KOST 2.0 [Language resource]. Slovenian language resource repository CLARIN.SI. http://hdl.handle.net/11356/1887