O projektu - Empirična podlaga za digitalno podprt razvoj pisne jezikovne zmožnosti

Projektni okvir in problem

S projektom Empirična podlaga za digitalno podprt razvoj pisne jezikovne zmožnosti (PROP) želimo podpreti učitelje, ki popravljajo in ocenjujejo pisne izdelke učencev. Za razvoj pisne zmožnosti je treba pisanje vaditi, več šolskega pisanja pa pomeni tudi več dela za učitelje. Podajanje individualizirane, ciljno usmerjene formativne povratne informacije, ki pri opismenjevanju dokazano vodi v najboljše rezultate, zahteva od učiteljev ogromno časa, pa tudi podprtost z ustreznimi opisniki, kazalniki in podatki o sodobni jezikovni rabi v različnih komunikacijskih situacijah. Za opismenjevanje v številnih jezikih, tudi slovenščini, ti pogoji niso zagotovljeni, zato je šolskega pisanja izrazito (pre)malo, povratna informacija pa je tipično usmerjena v odpravo površinskih težav, kot so slovnične napake.

Rešitev vidimo v digitalni podpori učiteljskemu delu, ki na eni strani vključuje strojno identifikacijo in vsebinsko kategorizacijo slovničnih napak, ki učitelje razbremeni rutinskih popravkov in jim zagotovi več časa za višje taksonomske cilje, na drugi pa digitalno zasnovan model za podajanje povratne informacije, ki vključuje empirično podprte kazalnike in opisnike, možnost za sodelovalno pripravo korektivnih učnih gradiv, medvrstniško ocenjevanje in dolgoročno spremljanje napredka. Strm porast zmogljivosti na področju procesiranja naravnega jezika, strojnega učenja in korpusnega jezikoslovja zagotavlja dosegljivost teh ciljev, o čemer pričajo tudi raznovrstna digitalna orodja, prototipi, portali, ki trenutno nastajajo v mednarodnem prostoru. Inovativni del projekta, ki zahteva interdisciplinarno sodelovanje, pa je zasnova rešitev na empiričnih podatkih o realnih učiteljskih praksah in potrebah na eni strani in realni, avtentični sodobni jezikovni rabi na drugi.

V tem oziru je velika prednost, ki jo ima slovenščina v primerjavi z drugimi jeziki, besedilni korpus šolskega pisanja v slovenskih osnovnih in srednjih šolah, ki vsebuje tudi avtentične učiteljske popravke, ročno kategorizirane glede na vrsto popravljenega jezikovnega problema. Ta korpus predstavlja neizkoriščeni potencial za empirične analize avtentične šolske produkcije in jezikovne korekcije, pa tudi za razvoj orodja, ki jezikovne probleme strojno tipizira z upoštevanjem realnih načel učiteljskega popravljanja.

V projektu bomo s podatkovnimi luščenji ter analizami napredno označenih besedilnih korpusov zagotovili empirične podatke za razvojne kazalnike in opisnike za različne stopnje šolanja. Nato bomo uporabili te podatke za pripravo scenarijev povratne jezikoslovne informacije na ravni zapisa in črkovanja, oblikoslovja, besedišča in skladnje. V korpus šolskega pisanja bomo vključili tudi študentsko pisanje in empirično raziskali specifike podajanja povratne informacije na terciarni ravni izobraževanja. Nadalje, razvili bomo šolski situaciji prilagojeni avtomatski označevalnik jezikovnih težav. Ker so viri, kot je korpus Šolar, izredno redki, bomo program preizkusili tudi na drugih primerljivih učnih množicah in ga adaptirali v smer večje neodvisnosti za prenos metodologije na druge jezike.

Ključni del projekta so uporabniške raziskave, ki bodo obstoječe prakse podajanja povratne informacije za razvoj pisne zmožnosti najprej naslovile s pomočjo spletne ankete, nato pa še s snemanjem zaslona učiteljev med popravljanjem v digitalnem okolju. Učitelje in učence z različnih stopenj šolanja bomo v projekt vključili tudi kot evalvatorje razvitih rešitev. Nenazadnje, povezali bomo spoznanja s področja formativnega spremljanja in množičenja na področju jezikovnega izobraževanja in oblikovali strategijo, ki bo vsebovala nujno potrebne etične razmisleke glede vpeljevanja digitalne podpore za razvoj pisne zmožnosti.

Projektni cilji

Korpusi in korpusni podatki: napredno strojno označiti korpus šolskega pisanja, korpus šolskih učbenikov in korpus mladinske književnosti in s podatkovnimi luščenji ter korpusnimi analizami zagotoviti empirične podatke za razvojne kazalnike in opisnike za različne stopnje šolanja; uporabiti te podatke za pripravo scenarijev povratne informacije na ravni zapisa in črkovanja, oblikoslovja, besedišča in skladnje; zgraditi pilotski korpus študentskega pisanja in ga vključiti v vse naštete korake.

Programski modul: razviti programski modul, ki avtomatsko identificira in vsebinsko kategorizira jezikovne napake na različnih jezikovnih ravninah; prilagoditi delovanje programa učiteljskim potrebam in specifikam podajanja povratne informacije na posamezni stopnji šolanja; zagotoviti podstave za prenos metodologije tudi na druge jezike.

Uporabniške raziskave: empirično raziskati obstoječe učiteljske prakse podajanja povratne informacije za razvoj pisne zmožnosti s pomočjo (a) spletnega anketiranja in (b) snemanja zaslona med popravljanjem v digitalnem okolju; zagotoviti možnost primerljivih raziskav tudi za druge jezike; vključiti učitelje/predavatelje v evalvacijo avtomatskega označevalnika in učitelje/predavatelje ter učence/dijake/študente v evalvacijo korpusno osnovanih povratnih informacij.

Modeli in strategije: povezati spoznanja s področja formativnega spremljanja in množičenja na področju jezikovnega izobraževanja in pripraviti model za digitalno podprto posredovanje povratnih informacij za razvoj pisnih kompetenc; oblikovati strategijo digitalno podprtega razvoja pisnih kompetenc.

Diseminacija raziskovalnih rezultatov: zagotoviti rezultate v skladu z Nacionalno strategijo odprtega dostopa do znanstvenih objav in znanstvenih podatkov; obveščati znanstveno in splošno javnost o rezultatih projekta (znanstvene objave, dogodki, spletna stran) in spodbujati nadaljnjo uporabo.

Sestava projektne skupine

Univerza v Ljubljani, Filozofska fakulteta
– Špela Arhar Holdt, 27674
– Iztok Kosem, 33796
– Polona Gantar, 16313
– Marko Stabej, 11651
– Teja Goli, 52176
– Magdalena Gapsa, 53628
– Mija Bon, 51891
– Eva Pori, 51456
– Tina Munda

Univerza v Ljubljani, Fakulteta za računalništvo in informatiko
– Marko Robnik-Šikonja, 15295
– Simon Krek, 26166
– Matej Ulčar, 55173
– Aleš Žagar, 56007
– Matej Klemen, 55754
– Martin Božič, 58277
– Gašper Jelovčan, 59561
– Tadej Škvorc, 50769
– Sara Sever
– Tinca Lukan

Univerza v Ljubljani, Fakulteta za upravo
– Tadeja Rozman, 25578

Univerza v Ljubljani, Pedagoška fakulteta
– Karmen Pižorn, 21612
– Alenka Rot Vrhovec, 34816
– Lara Godec Soršak, 25590
– Milena Košak Babuder, 26199
– Tomaž Petek, 32433

Časovni načrt aktivnosti

1. Korpusne analize pisne produkcije na različnih stopnjah šolanja
– Priprava korpusnih podatkov za jezikoslovne in strojne naloge [M1-6]
– Priprava pilotskega korpusa študentskih besedil [M1-12]
– Kvantitativne in kvalitativne jezikoslovne analize šolskega pisanja [M1-18]
– Empirični podatki za razvojne kazalnike na ravni besedišča in skladnje [M7-18]
2. Na praksah temelječ model digitalno podprtega razvoja pisnih kompetenc
– Anketna raziskava učiteljskih praks pri razvoju pisnih kompetenc [M1-18]
– Snemanje popravljanja šolske produkcije in polstrukturirani intervjuji [M10-24]
– Oblikovanje strategije digitalno podprtega razvoja pisnih kompetenc [M19-35]
3. Razvoj in evalvacija strojne identifikacije in kategorizacije jezikovnih težav
– Izdelava modela za avtomatsko označevanje napak [M7-35]
– Testiranje prenosljivosti metodologije na druge jezike [M25-35]
– Jezikoslovna in učiteljska evalvacija avtomatskega označevanja [M13-35]
4. Podajanje povratne informacije v digitalnem okolju
– Razvoj modela za povezavo formativnega spremljanja in množičenja [M7-18]
– Korpusno osnovani in stopenjski scenariji povratnih informacij [M13-24]
– Testiranje povratnih informacij s ciljnimi uporabniškimi skupinami [M22-35]
5. Koordinacija in diseminacija
– Koordinacija, poročanje in obveščanje [M1-36]
– Znanstvene objave in raziskovalni podatki [M1-36]

Korpusne analize pisne produkcije na različnih stopnjah šolanja

Priprava korpusnih podatkov za jezikoslovne in strojne naloge

Na projektu smo pripravili tri besedilne korpuse, specializirane za pedagoško rabo: korpus šolskih pisnih izdelkov Šolar 3.0, korpus odprtodostopnih šolskih učbenikov ccUčbeniki 1.0 in korpus mladinske književnosti ccMaks 1.0. Pred začetkom projekta je bil korpus Šolar dostopen v različici 2.0, korpus Maks samo prek konkordančnikov (ne pa kot baza), korpus Učbeniki pa širši javnosti ni bil na voljo. Korpusi so bili jezikoslovno označeni s starejšimi in raznolikimi strojnimi označevalniki. Na projektu smo korpuse enotno označili z označevalnikom CLASSLA v1.1.1 na ravni tokenizacije, segmentacije, lematizacije in oblikoskladnje po sistemu MULTEXT-East v6, odvisnostne skladnje JOS in imenskih entitet. V sodelovanju z drugimi projekti smo zagotovili, da sta skladno pripravljena tudi korpusa za slovenščino kot drugi ali tuji jezik: korpus učbenikov KUUS in korpus slovenščine kot tujega jezika KOST. Nova enotnost označevanja omogoča zanesljivejšo primerjavo med podatki iz različnih virov, nove oznake na višjih jezikovnih ravneh pa naprednejše jezikoslovne in strojne analize, pa tudi lažjo izrabo podatkov za strojno učenje.

Korpusi so odprto na voljo na repozitoriju CLARIN.SI:

ARHAR HOLDT, Špela, ROZMAN, Tadeja, STRITAR KUČUK, Mojca, KREK, Simon, KRAPŠ VODOPIVEC, Irena, STABEJ, Marko, PORI, Eva, GOLI, Teja, LAVRIČ, Polona, LASKOWSKI, Cyprian Adam, KOCJANČIČ, Polonca, KLEMENC, Bojan, KRSNIK, Luka, KOSEM, Iztok. Developmental corpus Šolar 3.0. Slovenian language resource repository CLARIN.SI, ISSN 2820-4042, http://hdl.handle.net/11356/1589. [COBISS.SI-ID 124160003]

KOSEM, Iztok, PORI, Eva, ŽAGAR, Aleš, ARHAR HOLDT, Špela. Corpus of Slovenian textbooks ccUčbeniki 1.0. Slovenian language resource repository CLARIN.SI, ISSN 2820-4042, http://hdl.handle.net/11356/1693. [COBISS.SI-ID 129443843]

VERDONIK, Darinka, MAJNINGER, Sandi, DOBROVOLJC, Kaja, ANTLOGA, Špela, ZÖGLING MARKUŠ, Aleksandra, VORŠIČ, Ines, ZEMLJAK JONTES, Melita, KOLETNIK, Mihaela, VALH LOPERT, Alenka, ŠEK, Polonca, KOSEM, Iztok, MAJHENIČ, Simona, FERME, Marko, ŽAGAR, Aleš, ARHAR HOLDT, Špela. Corpus of Slovenian texts for pedagogical purposes ccMAKS 1.0. Slovenian language resource repository CLARIN.SI, ISSN 2820-4042, http://hdl.handle.net/11356/1692. [COBISS.SI-ID 129467395]

Pripravo korpusov, ki je zlasti zahtevna za korpuse z jezikovnimi popravki, med katere sodi tudi tudi Šolar 3.0, smo predstavili na konferencah, v monografiji in priznani reviji Language Resources and Evaluation.

ARHAR HOLDT, Špela, KOSEM, Iztok. Šolar, the developmental corpus of Slovene. Language resources and evaluation. 2024, str. 1–27. DOI: 10.1007/s10579-024-09758-4. [COBISS.SI-ID 204228867]

ARHAR HOLDT, Špela, KOSEM, Iztok, STRITAR KUČUK, Mojca. Metode in orodja za lažjo pripravo korpusov usvajanja jezika. V: PIRIH SVETINA, Nataša (ur.), FERBEŽAR, Ina (ur.). Na stičišču svetov: slovenščina kot drugi in tuji jezik. 1. natis. Ljubljana: Založba Univerze, 2022. Str. 23–30. Zbirka Obdobja, 41. DOI: 10.4312/Obdobja.41.23-30. [COBISS.SI-ID 129063939]

ARHAR HOLDT, Špela, PORI, Eva, KOSEM, Iztok. Prihodnost korpusa Šolar. V: ARHAR HOLDT, Špela (ur.), KREK, Simon (ur.). Razvoj slovenščine v digitalnem okolju. Ljubljana: Založba Univerze, 2023. Str. 61–91. Sporazumevanje. https://ebooks.uni-lj.si/ZalozbaUL/catalog/view/522/852/9442. [COBISS.SI-ID 185543683]

KLEMEN, Matej, ARHAR HOLDT, Špela, POLLAK, Senja, KOSEM, Iztok, HUBER, Damjan, LUTAR, Mateja. Korpus učbenikov za učenje slovenščine kot drugega in tujega jezika. V: PIRIH SVETINA, Nataša (ur.), FERBEŽAR, Ina (ur.). Na stičišču svetov: slovenščina kot drugi in tuji jezik. Ljubljana: Založba Univerze, 2022. Str. 165–174. Zbirka Obdobja, 41. DOI: 10.4312/Obdobja.41.165-174. [COBISS.SI-ID 129975811]

Priprava pilotskega korpusa študentskih besedil

Zgradili smo nov pilotski korpus študentskih besedil KOŠ, ki vsebuje pisne izdelke študentk in študentov Fakultete za upravo in Pedagoške fakultete Univerze v Ljubljani. Korpus obsega 426 besedil 542.066 pojavnic). Besedila so zbrana po metodologiji priprave korpusa Šolar, ki vključuje pravno ureditev odprtega dostopa do rezultatov, beleženje vseh relevantnih metapodatkov in zapis v ustreznem standardiziranem formatu. Korpus kot podatkovna baza je na voljo na repozitoriju CLARIN.SI, predstavljen pa je bil na konferenci in znanstveni reviji.

Pogodba za študente: digitalni podpis / ročni podpis.

Pogodba za profesorje: digitalni podpis / ročni podpis.

ROZMAN, Tadeja, ARHAR HOLDT, Špela, ŽAGAR, Aleš, STABEJ, Marko, PERME, Kaja, ZUPAN, Neža, GODEC SORŠAK, Lara. Pilot corpus of student academic texts KOŠ 1.0. Slovenian language resource repository CLARIN.SI, ISSN 2820-4042, http://hdl.handle.net/11356/2048. [COBISS.SI-ID 258382339]

ROZMAN, Tadeja, ARHAR HOLDT, Špela. Gradnja Korpusa študentskih besedil KOŠ. V: FIŠER, Darja (ur.), ERJAVEC, Tomaž (ur.). Jezikovne tehnologije in digitalna humanistika: zbornik konference: 15.–16. september 2022, Ljubljana, Slovenija. Ljubljana: Inštitut za novejšo zgodovino, 2022. Str. 267–270. https://nl.ijs.si/jtdh22/pdf/JTDH2022_Rozman_ArharHoldt_Gradnja-Korpusa-studentskih-besedil-KOS.pdf. [COBISS.SI-ID 131012099] Posnetek predstavitve.

ROZMAN, Tadeja. Pilotni korpus KOŠ in smernice za gradnjo korpusa študentskih besedil. Slovenščina 2.0: empirične, aplikativne in interdisciplinarne raziskave. 2025, letn. 13, št. 1, str. 120-137, DOI: 10.4312/slo2.0.2025.1.120-137. [COBISS.SI-ID 263403523]

Pisanje in podajanje povratne informacije se na terciarnem nivoju razlikuje od primarnega in sekundarnega (ki ju vključuje Šolar), zato je bilo treba metodologijo korpusne priprave mestoma nadgraditi. Da bi to lahko opravili empirično podprto, smo raziskali trenutne prakse podajanja povratne informacije na slovenskih javnih univerzah in samostojnih visokošolskih zavodih. V anketi je sodelovalo 459 pedagogov in pedagoginj. Rezultate smo predstavili na dveh konferencah in objavili raziskovalne podatke v odprtem dostopu.

ROZMAN, Tadeja, ARHAR HOLDT, Špela, STABEJ, Marko. Podajanje povratnih informacij o študentskih besedilih: raziskovalni podatki = Feedback on student writing: research data. Ljubljana: [s. n.], 2023. Repozitorij Univerze v Ljubljani – RUL, DOI: 20.500.12556/RUL-152767. [COBISS.SI-ID 176945923]

ROZMAN, Tadeja, STABEJ, Marko. Univerzitetno pisanje in popravljanje besedil: prakse in stališča. V: ŠTUMBERGER, Saška (ur.). Predpis in norma v jeziku. Ljubljana: Založba Univerze, 2024. Str. 285–292. Zbirka Obdobja, 43. DOI: 10.4312/Obdobja.43.285-292. [COBISS.SI-ID 215458307]

ROZMAN, Tadeja. Slovenske empirične raziskave o razvoju strokovne sporazumevalne zmožnosti na univerzi: kje smo in kako naprej?. V: KOVAČEVIĆ, Borko (ur.). Modern approaches to old and new challenges: book of abstracts: the 8th international congress of Applied Linguistics Today: Faculty of Philology, University of Belgrade: 23–25 May 2025. Belgrade: University, Faculty of Philology, 2025. Str. 161-162. https://alt8.fil.bg.ac.rs/bookOfAbstracts. [COBISS.SI-ID 245534211]

Kvantitativne in kvalitativne jezikoslovne analize šolskega pisanja

Predpogoj za kvantitativne in kvalitativne analize šolskega pisanja je natančno in zanesljivo označevanje jezikovnih popravkov v šolskih besedilih. Na projektu smo izboljšali metodologijo označevanja, kjer je izpostaviti zlasti nadgradnjo označevalnega sistema Šolar in označevalnega orodja CJVT Svala. Novosti smo predstavili na domačem simpoziju Obdobja in mednarodni konferenci LREC.

ARHAR HOLDT, Špela, LAVRIČ, Polona, ROBLEK, Rebeka, GOLI, Teja, BON, Mija, 2023: Categorizing Teachers’ Corrections: Guidelines for Annotating the Šolar Corpus. Version 1.2. Prepared in the project Empirical foundations for digitally-supported development of writing skills. https://wiki.cjvt.si/books/11-developmental-corpus-solar/page/annotation-guidelines.

ARHAR HOLDT, Špela, ERJAVEC, Tomaž, KOSEM, Iztok, VOLODINA, Elena. Towards an ideal tool for learner error annotation. V: CALZOLARI, Nicoletta (ur.). The 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024): main conference proceedings: 20–25 May, 2024, Torino, Italia. [Paris]: ELRA Language Resources Association (ELRA); [Stroudsburg]: International Committee on Computational Linguistics, cop. 2024. Str. 16392–16398. https://aclanthology.org/2024.lrec-main.1424.pdf. [COBISS.SI-ID 199958019]. POSTER PDF

ARHAR HOLDT, Špela, POPIČ, Damjan, STRITAR KUČUK, Mojca. Primerjava sistemov za označevanje jezikovnih popravkov v štirih slovenskih besedilnih korpusih. V: ŠTUMBERGER, Saška (ur.). Predpis in norma v jeziku. Ljubljana: Založba Univerze, 2024. Str. 11–20. Zbirka Obdobja, 43. DOI: 10.4312/Obdobja.43.11-20. [COBISS.SI-ID 215306243]

Z naprednim luščenjem podatkov iz korpusa Šolar 3.0 smo pripravili frekvenčni seznam jezikovnih zadreg, ki vsebuje 36.570 povedi šolskega pisanja z učiteljskim popravkom napake. Popravki so ročno kategorizirani glede na vsebino v 180 različnih vrst. Vsaka poved je opremljena z metapodatki, kot so vrsta izhodiščnega besedila, izobraževalna stopnja avtorice/avtorja ter vrsta in regija šole, kjer je besedilo nastalo. Podatkovna zbirka razkriva, na katere težave se učitelji na različnih stopnjah šolanja najbolj osredotočajo, kako jih popravljajo, katere težave so najbolj pogoste in katere so regionalno pogojene. Podatke smo statistično analizirali in na konferenci TALC predstavili najbolj trdovratne jezikovne težave, ki v šolskem pisanju ostajajo vse do konca srednje šole. Za kvalitativno jezikoslovno analizo, ki se osredotoča tako na tipične zadrege pisanja kot značilnosti popravljanja, smo izbrali dve temi: rabo vejice in napake ter jezikovne variante v rabi večbesednih enot.

ARHAR HOLDT, Špela, ROZMAN, Tadeja, STRITAR KUČUK, Mojca, KREK, Simon, KRAPŠ VODOPIVEC, Irena, STABEJ, Marko, PORI, Eva, GOLI, Teja, LAVRIČ, Polona, LASKOWSKI, Cyprian Adam, KOCJANČIČ, Polonca, KLEMENC, Bojan, KRSNIK, Luka, ŽAGAR, Aleš, KOSEM, Iztok. Frequency list of language problems from Šolar 3.0. Slovenian language resource repository CLARIN.SI, ISSN 2820-4042, http://hdl.handle.net/11356/1716. [COBISS.SI-ID 130413571]

ARHAR HOLDT, Špela. Leveraging frequency list of language problems from Šolar 3.0. V: TaLC 2024: 16th Teaching and Language Corpora Conference: July 7th to 10th 2024, Manchester Metropolitan University, Manchester, UK: book of abstracts. [Manchester: Manchester Metropolitan University], 2024. Str. [121]. https://talc2024.co.uk/wp-content/uploads/2024/07/book-of-abstracts-talc-2024_final-4.pdf. [COBISS.SI-ID 204247555] POSTER PDF

BON, Mija, GAPSA, Magdalena. Analiza napak pri rabi vejice v šolskih spisih. V: MARUŠIČ, Franc (ur.), et al. Škrabčevi dnevi 13: zbornik prispevkov s simpozija 2023. Nova Gorica. Nova Gorica: Založba univerze, 2025. Str. 1–15. https://ung.si/media/publishing/2025/03/12/08/24/17/Zbornik-SD13-2025-koncna.pdf. [COBISS.SI-ID 247838723]

GANTAR, Polona, BON, Mija. Dati skozi ali prestati?: Napake in jezikovne variante v rabi večbesednih enot pri samostojnem tvorjenju besedil v osnovni in srednji šoli. Sodobna pedagogika, okt. 2025, letn. 76 = 142, št. 3, str. 39-58, DOI: 10.63384/sptB5_z789s. [COBISS.SI-ID 259193859]

Empirični podatki za razvojne kazalnike na ravni besedišča in skladnje

Vzpostavili smo metodologijo za luščenje seznamov temeljnega besedišča iz pedagoških korpusov, ki je vključevala posodobitev programa za korpusna luščenja LIST v različico 1.3. Izluščili smo frekvenčne sezname lem iz korpusa Učbeniki in KUUS in na osnovi slednjega pripravili seznam jedrnega besedišča za stopnje A1, A2 ter B1 po Skupnem evropskem jezikovnem okviru (SEJO). Posebno pozornost smo posvetili analizam besedišča na nivoju A1 in zanj pripravili koncept leksikalnega opisa, ki vključuje avtentične in pedagoško prilagojene korpusne zglede in kolokacije. Vse vire in orodja smo odprto objavili na repozitoriju CLARIN.SI, rezultate pa smo predstavili tudi na mednarodni konferenci.

KRSNIK, Luka, ARHAR HOLDT, Špela, ČIBEJ, Jaka, DOBROVOLJC, Kaja, KLJUČEVŠEK, Aleksander, KREK, Simon, ROBNIK ŠIKONJA, Marko. Corpus extraction tool LIST 1.3. Slovenian language resource repository CLARIN.SI, ISSN 2820-4042, http://hdl.handle.net/11356/1964. [COBISS.SI-ID 218014211]

KOSEM, Iztok, PORI, Eva, ARHAR HOLDT, Špela. Frequency list of textbook vocabulary by level of education in elementary and secondary schools. Slovenian language resource repository CLARIN.SI, ISSN 2820-4042, http://hdl.handle.net/11356/1719. [COBISS.SI-ID 192040707]

KLEMEN, Matej, ARHAR HOLDT, Špela, POLLAK, Senja. Core vocabulary for Slovenian as L2 1.0. Slovenian language resource repository CLARIN.SI, ISSN 2820-4042, http://hdl.handle.net/11356/1697. [COBISS.SI-ID 130844419]

PORI, Eva, KNEZ, Mihaela, KOSEM, Iztok, ARHAR HOLDT, Špela, KLEMEN, Matej, GANTAR, Polona, ZGAGA, Karolina, ROBLEK, Rebeka. A1 core vocabulary with lexical information for Slovenian 1.0. Slovenian language resource repository CLARIN.SI, ISSN 2820-4042, http://hdl.handle.net/11356/1896. [COBISS.SI-ID 192040963]

KLEMEN, Matej, ARHAR HOLDT, Špela, POLLAK, Senja, KOSEM, Iztok, PORI, Eva, GANTAR, Polona, KNEZ, Mihaela. Building a CEFR-labeled core vocabulary and developing a lexical resource for Slovenian as a second and foreign language. V: MEDVEĎ, Marek (ur.), et al. eLex 2023: electronic lexicography in the 21st century (eLex 2023): proceedings of the eLex 2023 conference: [Brno], 27–29 June 2023. Brno: Lexical Computing CZ, 2023. Str. 654–668. Electronic lexicography in the 21st century, https://elex.link/elex2023/wp-content/uploads/118.pdf. [COBISS.SI-ID 158856451]

Za raziskave skladnje smo razvili metodologijo luščenja skladenjskih informacij iz pedagoških korpusov, ki smo jo tudi predstavili na konferenci. Na repozitoriju CLARIN.SI smo objavili odprto dostopne frekvenčne sezname kolokacij iz korpusov Šolar 3.0 in Učbeniki 1.0, prav tako pa frekvenčne sezname skladenjskih struktur iz teh dveh korpusov. Ti podatki bodo temelj za pripravo empirično osnovanih razvojnih kazalnikov in opisnikov ter drugih gradiv za učenje slovenščine. Na projektu smo pripravili tudi dve jezikoslovni analizi, ki ponujata primerjavo značilnosti šolskega pisanja in učbenikov po stopnjah šolanja, tako za podočje besedišča kot skladnje.

MUNDA, Tina, ARHAR HOLDT, Špela, ROZMAN, Tadeja, STRITAR KUČUK, Mojca, KREK, Simon, KRAPŠ VODOPIVEC, Irena, STABEJ, Marko, PORI, Eva, GOLI, Teja, LAVRIČ, Polona, LASKOWSKI, Cyprian Adam, KOCJANČIČ, Polonca, KLEMENC, Bojan, KRSNIK, Luka, KOSEM, Iztok. Frequency list of collocations from the Šolar 3.0 corpus. Ljubljana: University of Ljubljana, Centre for Language Resources and Technologies: University of Ljubljana, Faculty of Arts, 2025. CLARIN.SI data & tools. ISSN 2820-4042. http://hdl.handle.net/11356/2011. [COBISS.SI-ID 225465859]

MUNDA, Tina, ARHAR HOLDT, Špela, KOSEM, Iztok, PORI, Eva, KREK, Simon. Frequency list of collocations from the Učbeniki 1.0 corpus. Ljubljana: University of Ljubljana, Centre for Language Resources and Technologies: University of Ljubljana, Faculty of Arts, 2025. CLARIN.SI data & tools. ISSN 2820-4042. http://hdl.handle.net/11356/2012. [COBISS.SI-ID 225461251]

MUNDA, Tina, ARHAR HOLDT, Špela, DOBROVOLJC, Kaja, ROZMAN, Tadeja, STRITAR KUČUK, Mojca, KREK, Simon, KRAPŠ VODOPIVEC, Irena, STABEJ, Marko, PORI, Eva, GOLI, Teja, LAVRIČ, Polona, LASKOWSKI, Cyprian Adam, KOCJANČIČ, Polonca, KLEMENC, Bojan, KRSNIK, Luka, KOSEM, Iztok. Frequency lists of syntactic structures from the Šolar 3.0 corpus. Ljubljana: University of Ljubljana, Centre for Language Resources and Technologies: University of Ljubljana, Faculty of Arts, 2025. CLARIN.SI data & tools. ISSN 2820-4042. http://hdl.handle.net/11356/2009. [COBISS.SI-ID 225469443]

MUNDA, Tina, ARHAR HOLDT, Špela, DOBROVOLJC, Kaja, KOSEM, Iztok, PORI, Eva, KREK, Simon. Frequency lists of syntactic structures from the Učbeniki 1.0 corpus. Ljubljana: University of Ljubljana, Centre for Language Resources and Technologies: University of Ljubljana, Faculty of Arts, 2025. CLARIN.SI data & tools. ISSN 2820-4042. http://hdl.handle.net/11356/2010. [COBISS.SI-ID 225467395]

MUNDA, Tina, ARHAR HOLDT, Špela. Na poti k skladenjskim analizam šolskega pisanja: skladenjski vzorci v korpusu Šolar 3.0. V: ARHAR HOLDT, Špela (ur.), ERJAVEC, Tomaž (ur.). Jezikovne tehnologije in digitalna humanistika: zbornik konference: 19.–20. september 2024, Ljubljana, Slovenija = Language technologies and digital humanities: proceedings of the conference: 19–20 September 2024, Ljubljana, Slovenia. Ljubljana: Inštitut za novejšo zgodovino: = Institute of Contemporary History, 2024. Str. 577–588. https://zenodo.org/records/13912515. [COBISS.SI-ID 212016387] POSTER PDF

MUNDA, Tina, ARHAR HOLDT, Špela. First Insights into the Syntax of Slovene Student Writing: A Statistical Analysis of Šolar 3.0 vs. Učbeniki 1.0. In Proceedings of the Third Workshop on Quantitative Syntax (QUASY, SyntaxFest 2025), str. 105–114, Ljubljana, Slovenia. Association for Computational Linguistics. https://aclanthology.org/2025.quasy-1.13/

KOSEM, Iztok, PORI, Eva. Prvi koraki do seznama temeljnega šolskega besedišča. Sodobna pedagogika, okt. 2025, letn. 76 = 142, št. 3, str. 9-38, DOI: 10.63384/sptB53z794s. [COBISS.SI-ID 259189507]

Na praksah temelječ model digitalno podprtega razvoja pisnih kompetenc

Anketna raziskava učiteljskih praks pri razvoju pisnih kompetenc

Izvedli smo obsežno raziskavo med učiteljicami in učitelji, ki pri svojem delu usmerjajo tvorjenje zapisanih besedil z jezikovnimi popravki in drugimi povratnimi informacijami. Raziskali smo prakse popravljanja zapisanih besedil, mdr.: koliko časa sodelujoči namenijo popravljanju na tedenski oz. mesečni ravni; katere oblike povratne informacije podajajo; v kateri obliki so besedila in popravki (pisna, digitalna); s katerimi orodji in viri poteka popravljanje ter katere težave svojih trenutnih praks vidijo kot najbolj akutne. Vprašalnik smo pripravili v dveh jezikovnih različicah, slovenski in angleški, kar bo omogočilo izvedbo primerljivih raziskav v drugih državah. Na projektu smo zbrali 1024 veljavnih anket, od tega 609 v celoti zaključenih. Rezultate smo statistično analizirali in objavili ustrezno anonimizirane raziskovalne podatke v odprtem dostopu. Rezultate smo predstavili raziskovalni in učiteljski javnosti, v pripravi pa je tudi prispevek za znanstveno revijo.

Validirani anketni vprašalnik v slovenski in angleški različici.

ROT VRHOVEC, Alenka, ARHAR HOLDT, Špela, PIŽORN, Karmen, GODEC SORŠAK, Lara. Popravljanje pisnih besedil učencev/dijakov: raziskovalni podatki. Ljubljana: Pedagoška fakulteta: Filozofska fakulteta, 2024. https://repozitorij.uni-lj.si/IzpisGradiva.php?lang=slv&id=153481. [COBISS.SI-ID 206148867]

ROT VRHOVEC, Alenka. Kako učitelji popravljajo besedila učencev/dijakov?: predavanje na [konferenci] Popravljanje jezika in besedil – učiteljska povratna informacija v šolski praksi, Fakulteta za upravo, Univerza v Ljubljani, 5. 4. 2023. https://ebooks.uni-lj.si/ZalozbaUL/catalog/view/500/832/9274. [COBISS.SI-ID 149745667]

GODEC SORŠAK, Lara, ROT VRHOVEC, Alenka. Popravljanje pisnih besedil učencev in dijakov pri različnih predmetih: vpogled v rezultate ankete učiteljev. Sodobna pedagogika, okt. 2025, letn. 76, št. 3, str. 59–85, DOI: 10.63384/sptB53z792s. [COBISS.SI-ID 257058819]

Snemanje popravljanja šolske produkcije in polstrukturirani intervjuji

V tej raziskavi smo se osredotočili na uporabo obstoječih digitalnih orodij za podajanje povratne informacije učencem. Za sodelovanje smo zbrali 18 učiteljic in učiteljev slovenščine z različnih vrst šol (6 z osnovnih šol, 6 s strokovnih in poklicnih šol in 6 z gimnazij). V raziskavi so jezikovno popravljali dve vnaprej izbrani avtentični šolski besedili, pri čemer smo snemali njihov zaslon, minimalno delovno okolje (obraz) in glasno razmišljanje. Samostojnemu delu z besedili so sledili intervjuji, v katerih smo se osredotočili na značilnosti dela, zmogljivosti in pomanjkljivosti orodij za popravljanje ter želje sodelujočih glede dodatnih funkcionalnosti. Rezultate raziskave smo transkribirali in ustrezno anonimizirane objavili na repozitoriju RUL. V pripravi je tudi prispevek za znanstveno revijo, v katerem so rezultati predstavljeni skupaj z evalvacijami strojnega popravljanja, ki smo jih pripravili v delovnem sklopu Razvoj in evalvacija strojne identifikacije in kategorizacije jezikovnih težav (gl. spodaj).

Vprašalnik učiteljskega intervjuja v slovenski in angleški različici.

ARHAR HOLDT, Špela, MUNDA, Tina. Učiteljsko popravljanje šolskih besedil v digitalnem okolju: intervjuji z učitelji slovenskih OŠ in SŠ. Ljubljana: Zaključena znanstvena zbirka raziskovalnih podatkov. 2025. https://repozitorij.uni-lj.si/IzpisGradiva.php?lang=slv&id=169549. [COBISS.SI-ID 248986115]

ARHAR HOLDT, Špela, MUNDA, Tina. Jezikovno popravljanje v digitalnem okolju: kvalitativna študija z učiteljicami in učitelji slovenščine. Sodobna pedagogika, okt. 2025, letn. 76 = 142, št. 3, str. 86-106, DOI: 10.63384/sptB53s791s. [COBISS.SI-ID 259204611]

Oblikovanje strategije digitalno podprtega razvoja pisnih kompetenc

Vedno pomembnejši del sodobnega jezikovne rabe poteka v digitalnem okolju, vendar pa mora biti vpeljava digitalnega medija v pouk starosti primerna, vključujoča za vse skupine učencev in učinkovita, da se izognemo nepotrebnemu sedenju za ekrani. V času projekta so postala enostavno dostopna tudi orodja generativne umetne inteligence, ki soustvarjajo besedila, kar odpira številna nova vprašanja. Strategija, ki smo jo oblikovali v dialogu z izhodišči za prenovo slovenskih učnih načrtov v osnovni in srednji šoli, izpostavlja potrebo po pripravljenosti šolskega sistema na učinke generativne umetne inteligence in pomembnost odprtih učnih gradiv ter premišljenih, problemsko osnovanih digitalnih rešitev. Učiteljice in učitelje je treba opolnomočiti za uporabo, pa tudi soustvarjanje digitalnih jezikovnih virov, orodij in tehnologij. Spremembe v komunikacijskih praksah, kot sta na primer večja neformalnost in anonimnost, zahtevajo novo razumevanje in pristope v poučevanju jezika, ki vključujejo razvoj stilističnega znanja in sposobnost kritične presoje. Poudarjamo tudi potrebo po temeljiti reformi izobraževanja učiteljev in učiteljic slovenščine, da bi ti v prihodnje lahko učinkoviteje uvajali in vključujoče uporabljali nove pristope k poučevanju in ocenjevanju znanja. Strategijo smo objavili v tematski številki revije Jezik in slovstvo, posvečeni prenovi učnih načrtov za slovenščino v osnovnih in srednjih šolah, izbrane teme pa smo izpostavili tudi na panelu ob izidu tematske številke ter strokovni konferenci Popravljanje jezika in besedil – učiteljska povratna informacija v šolski praksi.

ARHAR HOLDT, Špela, FERBEŽAR, Ina, KALIN GOLOB, Monika, KREK, Simon, PAVLE, Andreja, ROZMAN, Tadeja, STABEJ, Marko. Nova slovenščina. Jezik in slovstvo. [Tiskana izd.]. 2024, letn. 69, št. 3, str. 117-138. DOI: 10.4312/jis.69.3.117-138. [COBISS.SI-ID 210323971]

ŽBOGAR, Alenka, AHAČIČ, Kozma, HARAMIJA, Dragica, MIKOLIČ, Vesna, STABEJ, Marko, TIVADAR, Hotimir. Slovenščina v šoli: izzivi in priložnosti slovenščine kot materinščine na primarni in sekundarni stopnji vzgoje in izobraževanja: okrogla miza Oddelka za slovenistiko Filozofske fakultete ob izidu tematske številke revije Jezik in slovstvo (69/3, 2024), posvečene prenovi učnih načrtov za slovenščino v osnovnih in srednjih šolah v okviru Tedna Univerze v Ljubljani, Filozofska fakulteta, Ljubljana, 3. 12. 2024. [COBISS.SI-ID 219169539]

STABEJ, Marko. Kdo ali kaj naj koga ali kaj, kako in zakaj?: (prosti spis o popravljanju in povratni informaciji). V: PORI, Eva (ur.), ARHAR HOLDT, Špela (ur.). Popravljanje jezika in besedil – učiteljska povratna informacija v šolski praksi : zbornik konference. Ljubljana: Založba Univerze, 2023. Str. 22-24. https://ebooks.uni-lj.si/ZalozbaUL/catalog/view/500/832/9312. [COBISS.SI-ID 193563139]

Razvoj in evalvacija strojne identifikacije in kategorizacije jezikovnih težav

Izdelava modela za avtomatsko označevanje napak

Na projektu smo raziskali domet novih tehnologij za strojno popravljanje slovenskih besedil. Modeli strojnega učenja temeljijo na vnaprej naučenih velikih jezikovnih modelih, ki smo jih prilagajali nalogi popravljanja šolskih besedil s pomočjo izbranih avtentičnih in sintetično pripravljenih podatkovnih množic. Najprej smo preučili uporabnost jezikovnih modelov multilingual BERT, CroSloEngual BERT in SloBERTa. Na nalogi strojnega odgovarjanja na vprašanja smo testirali več vnaprej naučenih velikih modelov kodirnik-dekodirnik tipa T5. Modele tipa T5 smo preizkusili za avtomatsko generiranje pravilne oblike napačno zapisanih besed, raziskali pa smo tudi uspešnost postopkov za strojno generiranje razlag. Z optimizirano nevronsko metodologijo smo nato pripravili modele, ki skušajo odkriti napake črkovanja, zapisa, oblike in skladnje, in zlasti za prvi dve ravnini dosegli obetavne rezultate. Nato smo razvili smo nevronski črkovalnik za slovenščino SloNSpell, ki trenutno ponuja najboljše rezultate za slovenščino. Njegova prednost je, da zmore poleg težav, ki jih zaznavajo tradicionalni črkovalniki, zaznati tudi nekatere primere, kjer se črkovalna napaka odraža v sicer legitimni besedni obliki. Različne koraka razvoja modelov smo popisali v konferenčnih in revijalnih prispevkih.

ULČAR, Matej, ROBNIK ŠIKONJA, Marko. Sequence-to-sequence pretraining for a less-resourced Slovenian language. Frontiers in artificial intelligence. Mar. 2023, vol. 6, str. 1-13, DOI: 10.3389/frai.2023.932519. [COBISS.SI-ID 147683587]

KMECL, Tim, ROBNIK ŠIKONJA, Marko. Logično sklepanje v naravnem jeziku za slovenščino. Slovenščina 2.0: empirične, aplikativne in interdisciplinarne raziskave. 2024, letn. 12, št. 1, str. 1-53, DOI: 10.4312/slo2.0.2024.1.1-53. [COBISS.SI-ID 206551299]

LOGAR, Katja, ROBNIK ŠIKONJA, Marko. Unified question answering in Slovene. V: LUŠTREK, Mitja (ur.), GAMS, Matjaž (ur.), PILTAVER, Rok (ur.). Slovenska konferenca o umetni inteligenci = Slovenian Conference on Artificial Intelligence: Informacijska družba – IS 2022 = Information Society – IS 2022: zbornik 25. mednarodne multikonference = proceedings of the 25th international multiconference: zvezek A = volume A: 11. oktober 2022, 11 October 2022, Ljubljana, Slovenija. Ljubljana: Institut “Jožef Stefan”, 2022. Str. 23-26, https://doi.org/10.48550/arXiv.2211.09159. [COBISS.SI-ID 129718275]

KLEMEN, Matej, BOŽIČ, Martin, ARHAR HOLDT, Špela, ROBNIK ŠIKONJA, Marko. Neural spell-checker: beyond words with synthetic data generation. V: NÖTH, Elmar (ur.), HORÁK, Aleš (ur.), SOJKA, Petr (ur.). Text, speech, and dialogue. Part 1: 27th International Conference, TSD 2024, Brno, Czech Republic, September 9–13, 2024: proceedings. Cham: Springer, cop. 2024. Str. 85-96. Lecture notes in computer science, SL7, Lecture notes in artificial intelligence, DOI: 10.1007/978-3-031-70563-2_7, dostopno na https://doi.org/10.48550/arXiv.2410.23514. [COBISS.SI-ID 213519107]

PETRIČ, Timotej, ARHAR HOLDT, Špela, ROBNIK ŠIKONJA, Marko. Pomembnost realistične evalvacije: primer popravkov sklona in števila v slovenščini z velikim jezikovnim modelom. Slovenščina 2.0: empirične, aplikativne in interdisciplinarne raziskave. 2024, letn. 12, št. 1, str. 106-130, DOI: https://doi.org/10.4312/slo2.0.2024.1.106-130. [COBISS.SI-ID 227633411]

KLEMEN, Matej, BOŽIČ, Martin, ARHAR HOLDT, Špela, ROBNIK ŠIKONJA, Marko. Grammatical error correction of Slovenian school essays using large language models. Sodobna pedagogika, okt. 2025, letn. 76, št. 3, str. 162–176, DOI: 10.63384/sptB53z793a. [COBISS.SI-ID 259208195]

Module za različne jezikovne ravnine smo objavili pod odprto licenco na platformi HuggingFace, kar omogoča njihovo nadaljnjo rabo in razvoj.

Modul, ki identificira napake črkovanja in zapisa.

Modul, ki popravlja napake črkovanja in zapisa.

Modul, ki popravlja oblikoslovne napake.

Modul, ki popravlja napake besednega reda.

Testiranje prenosljivosti metodologije na druge jezike

Po razvoju velikih jezikovnih modelov in tehnologij, kot je ChatGPT, se je izkazalo, da kritično primanjkuje premišljeno zasnovanih in kvalitetnih evalvacijskih množic, ki bi omogočale zanesljivo ocenjevanje nevronskih pristopov za različne naloge, tudi strojno slovnično popravljanje besedil. To še posebej velja za slovenščino in druge jezike z manjšim številom govorcev, kjer je količina dostopnih besedil in strukturiranih jezikovnih virov omejena. Hkrati se je pokazalo, da za manj opremljene jezike dobro delujejo medjezikovni pristopi, saj veliki jezikovni modeli prenašajo (tudi jezikovno) znanje med vsemi jeziki, na katerih je potekalo učenje. Na projektu smo se zato pridružili skupni nalogi MultiGEC-2025, pod okriljem katere so bile razvite enotno oblikovane evalvacijske množice za popravljanje slovničnih napak v 12 jezikih. Razvijalci, ki so sodelovali pri nalogi, so tekmovali v strojnem slovničnem popravljanju besedil v vseh vključenih jezikih, tudi slovenščini, in poročali o učinkovitosti različnih pristopov. Množica je dostopna za nadaljnjo uporabo in bo vključena tudi v bodoče aktivnosti. Sodelovanje pri skupni nalogi smo predstavili v poročilu in znanstvenem članku.

MASCIOLINI, Arianna, ARHAR HOLDT, Špela, ŽAGAR, Aleš, et al. An overview of grammatical error correction for the twelve MultiGEC-2025 languages. Göteborg: Faculty of Humanities, Department of Swedish, Multilingualism, Language Technology, 2025. GU-ISS Forskningsrapporter från Institutionen för svenska, flerspråkighet och språkteknologi (2011-), ISSN 1401-5919, https://gupea.ub.gu.se/bitstream/handle/2077/84800/2025_MultiGEC_GEC_overview.pdf?sequence=1&isAllowed=y. [COBISS.SI-ID 232510723]

MASCIOLINI, Arianna, CAINES, Andrew, ARHAR HOLDT, Špela, ŽAGAR, Aleš, et al. Towards better language representation in natural language processing: a multilingual dataset for text-level grammatical error correction. International journal of learner corpus research, 2025, vol. 11, iss. 2, pp. 309-335, ISSN 2215-1478, DOI: 10.1075/ijlcr.24033.mas. [COBISS.SI-ID 234594051]

V sodelovanju z drugimi raziskovalnimi projekti je nastalo več člankov, ki obravnavajo gradnjo jezikovnih virov, evalvacijo velikih jezikovnih modelov na manj razširjenih jezikih, razvoj specializiranih orodij za obdelavo slovenskih besedil in preizkušanje medjezikovnih pristopov za različne naloge. Te raziskave se posredno povezujejo tudi z razvojem metod za strojno popravljanje besedil v slovenščini, saj vzpostavljajo metodološke in podatkovne okvire, ki so ključni za učinkovito rabo velikih jezikovnih modelov za procesiranje in generiranje slovenskih besedil.

YADAV, Anjali, GARG, Tanya, KLEMEN, Matej, ULČAR, Matej, AGARWAL, Basant, ROBNIK ŠIKONJA, Marko. From translation to generative LLMs: classification of code-mixed affective tasks. IEEE transactions on affective computing. 2025, vol. 12, str. pp. 2090-2101. DOI: 10.1109/TAFFC.2025.3553399. [COBISS.SI-ID 232748291]

ULČAR, Matej, ŽAGAR, Aleš, ARMENDARIZ, Carlos S., REPAR, Andraž, POLLAK, Senja, PURVER, Matthew, ROBNIK ŠIKONJA, Marko. Mono- and cross-lingual evaluation of representation language models on less-resourced languages. Computer speech & language. Jan. 2026, vol. 95, [article no.] 101852, 1-29, DiRROS – Digitalni repozitorij raziskovalnih organizacij Slovenije, https://doi.org/10.1016/j.csl.2025.101852. [COBISS.SI-ID 241622275]

ŽAGAR, Aleš, KLEMEN, Matej, KOSEM, Iztok, ROBNIK ŠIKONJA, Marko. SENTA: sentence simplification system for Slovene. V: CALZOLARI, Nicoletta (ur.). The 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024): main conference proceedings: 20-25 May, 2024, Torino, Italia. [Paris]: ELRA Language Resources Association (ELRA); [Stroudsburg]: International Committee on Computational Linguistics, cop. 2024. Str. 14687-14692, https://aclanthology.org/2024.lrec-main.1279.pdf. [COBISS.SI-ID 197916675]

MIOK, Kristian, HIDALGO TENORIO, Encarnación, OSENOVA, Petja, BENÍTEZ-CASTRO, Miguel-Ángel, ROBNIK ŠIKONJA, Marko. Multi-aspect multilingual and cross-lingual parliamentary speech analysis. Intelligent data analysis. [Print ed.]. Feb. 2024, vol. 28, no. 1, str. 239-260, https://doi.org/10.3233/IDA-227347. [COBISS.SI-ID 178091523]

KLEMEN, Matej, ŽAGAR, Aleš, ČIBEJ, Jaka, ROBNIK ŠIKONJA, Marko. SI-NLI: a Slovene natural language inference dataset and its evaluation. V: CALZOLARI, Nicoletta (ur.). The 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024): main conference proceedings: 20-25 May, 2024, Torino, Italia. [Paris]: ELRA Language Resources Association (ELRA); [Stroudsburg]: International Committee on Computational Linguistics, cop. 2024. Str. 14859-14870, https://aclanthology.org/2024.lrec-main.1294.pdf. [COBISS.SI-ID 197916931]

ĐOKOVIĆ, Lazar, ROBNIK ŠIKONJA, Marko. Sarcasm detection in a less-resourced language. V: LUŠTREK, Mitja (ur.), GAMS, Matjaž (ur.), PILTAVER, Rok (ur.). Slovenian Conference on Artificial Intelligence. Vol. A : proceedings of the 27th International Multiconference Information Society – IS 2024 : 10–11 October 2024, Ljubljana, Slovenia. Ljubljana: Institut “Jožef Stefan”, 2024. Str. 19-22. Informacijska družba. https://is.ijs.si/wp-content/uploads/2024/11/IS2024_Volume-A.pdf. [COBISS.SI-ID 216268291]

ŽAGAR, Aleš, ROBNIK ŠIKONJA, Marko. One model to rule them all: ranking Slovene summarizers. V: EKŠTEIN, Kamil (ur.), PÁRTL, František (ur.), KONOPÍK, Miloslav (ur.). Text, speech, and dialogue: 26th International Conference, TSD 2023, Pilsen, Czech Republic, September 4–6, 2023 : proceedings. Cham: Springer, cop. 2023. Str. 15-24. Lecture notes in computer science (Internet), Lecture notes in artificial intelligence, 14102. https://link.springer.com/chapter/10.1007/978-3-031-40498-6_2. [COBISS.SI-ID 165084419]

Jezikoslovna in učiteljska evalvacija avtomatskega označevanja besedil

Na projektu smo pripravili referenčno množico za kvantitativno in kvalitativno evalviranje strojnega popravljanja jezikovnih napak. Množica temelji na korpusu Šolar 3.0, vendar namesto učiteljskih popravkov – ki so pogosto prilagojeni razvojni stopnji učenca ali učenke in oblikovno raznoliki – vsebuje dosledno in usklajeno pripisane popravke. Nova množica se imenuje Šolar-Eval 1.0 in vsebuje 109 besedil, ki so nastala na slovenskih osnovnih in srednjih šolah. Besedila smo jezikoslovno analizirali in v njih ročno označili 9.808 jezikovnih težav na različnih jezikovnih ravninah. Množico smo objavili pod odprto licenco na repozitoriju CLARIN.SI in jo opisali v znanstvenem članku. Šolar-Eval 1.0 smo uporabili za strojno in jezikoslovno evalvacijo na projektu razvitih modelov in o rezultatih poročali na platformi HuggingFace in v zgoraj navedenih člankih.

ARHAR HOLDT, Špela, GANTAR, Polona, BON, Mija, GAPSA, Magdalena, LAVRIČ, Polona, KLEMEN, Matej. Dataset for evaluation of Slovene spell- and grammar-checking tools Šolar-Eval 1.0. Slovenian language resource repository CLARIN.SI, ISSN 2820-4042, http://hdl.handle.net/11356/1902. [COBISS.SI-ID 185626115]

GANTAR, Polona, BON, Mija, GAPSA, Magdalena, ARHAR HOLDT, Špela. Šolar-Eval: evalvacijska množica za strojno popravljanje jezikovnih napak v slovenskih besedilih. Jezik in slovstvo. [Tiskana izd.]. 2023, letn. 68, št. 4, str. 89-108, DOI: 10.4312/jis.68.4.89-108. [COBISS.SI-ID 187559683]

Učiteljsko evalvacijo smo izvedli z ekipo, ki je sodelovala tudi na delovnem sklopu Na praksah temelječ model digitalno podprtega razvoja pisnih kompetenc: 18 učiteljicami in učitelji slovenščine z različnih vrst šol (6 z osnovnih šol, 6 s strokovnih in poklicnih šol in 6 z gimnazij). V raziskavi so si ogledali dve strojno popravljeni avtentični šolski besedili v preprostem vmesniku, pri čemer smo snemali njihov zaslon, minimalno delovno okolje (obraz) in glasno razmišljanje. Samostojni evalvaciji strojnih popravkov so sledili intervjuji, v katerih smo se osredotočili na zmogljivosti in pomanjkljivosti pripravljenih modelov za popravljanje in želje sodelujočih glede dodatnih funkcionalnosti. Rezultate raziskave smo transkribirali in ustrezno anonimizirane objavili na repozitoriju RUL. Izsledki, ki vsebujejo evalvacijsko poročilo in specifikacije za nadaljnji razvoj orodja, so objavljeni v znanstveni reviji. Poleg tega smo s skupino študentov ločeno evalvirali orodje za strojno postavljanje vejic v slovenščini in rezultate predstavili na konferenci.

Vprašalnik evalvacijskega intervjuja v slovenski in angleški različici.

GODEC SORŠAK, Lara. Raba vejice v pisnih besedilih študentov in uporabnost spletnega orodja Vejice 1.0. V: ŠTUMBERGER, Saška (ur.). Predpis in norma v jeziku. Ljubljana: Založba Univerze, 2024. Str. 103-111. Zbirka Obdobja, 43. DOI: 10.4312/Obdobja.43.103-111. [COBISS.SI-ID 215559939]

Podajanje povratne informacije v digitalnem okolju

Razvoj modela za povezavo formativnega spremljanja in množičenja

V tej projektni aktivnosti smo pregledali literaturo in orodja na področju digitalnega spremljanja pisne zmožnosti, s poudarkom na učinkih avtomatizirane pisne korektivne povratne informacije, ki jo nudijo orodja za pomoč pri pisanju. Sistematični pregled 22 študij je pokazal, da so ti pripomočki koristni predvsem zaradi hitre, natančne in oblikovno raznolike povratne informacije, najučinkovitejši pa je hibridni pristop v kombinaciji z učiteljevo podporo. Hkrati smo naslovili tudi izzive študentov s specifičnimi učnimi težavami v visokošolskem izobraževanju in poudarili pomen digitalno podprtega učenja ter univerzalne zasnove učenja (UDL) za večjo dostopnost, pravičnost in prilagodljivost pedagoških pristopov.

PIŽORN, Karmen, LEMUT BAJEC, Melita. Systematic review of digital writing assistants in EFL writing instruction. Sodobna pedagogika, okt. 2025, letn. 76, št. 3, str. 141–161, DOI: 10.63384/sptB5_z796a. [COBISS.SI-ID 256918531]

KOŠAK BABUDER, Milena, POREDOŠ, Mojca, PIŽORN, Karmen. Digitalno podprto učenje študentov s specifičnimi učnimi težavami v visokošolskem izobraževanju. Sodobna pedagogika, okt. 2025, letn. 76, št. 3, str. 107–125, 177-197, DOI: 10.63384/sptB53s795as. [COBISS.SI-ID 256927747]

Preizkusili smo nove rešitve na področju digitalnega kolaborativnega sodelovanja učiteljev in učencev, kjer smo za primer povezave med formativnim spremljanjem in množičenjem izbrali igrificirano množičenje za pregled in potrjevanje pedagoško primernih korpusnih zgledov. Ti so temelj za pripravo učnih gradiv, vaj in preverjanj znanja. Cilj je prihranek časa, ki ga omogoči sodelovalna priprava gradiv, in formiranje velike, vsem dostopne in ustrezno pregledane zbirke jezikovnih zgledov. Igra z imenom CrowLL (Crowdsourcing for Language Learning), ki vsebuje poleg slovenščine tudi druge jezike, je bila predstavljena na konferencah in v znanstvenem članku.

ZINGANO KUHN, Tanara, ARHAR HOLDT, Špela, KOSEM, Iztok, TIBERIUS, Carole, KOPPEL, Kristina, ZVIEL-GIRSHIN, Rina. Data preparation in crowdsourcing for pedagogical purposes : the case of the CrowLL game. Slovenščina 2.0: empirične, aplikativne in interdisciplinarne raziskave. 2022, letn. 10, št. 2, str. 62-100, DOI: 10.4312/slo2.0.2022.2.62-100. [COBISS.SI-ID 146362883]

ZINGANO KUHN, Tanara, TIBERIUS, Carole, ARHAR HOLDT, Špela, KOPPEL, Kristina, KOSEM, Iztok, ZVIEL-GIRSHIN, Rina, LUÍS, Ana R. Developing manually annotated corpora for teaching and learning purposes of Brazilian Portuguese, Dutch, Estonian, and Slovene (the CrowLL Project). V: LINDÉN, Krister (ur.), NIEMI, Jyrki (ur.), KONTINO, Thalassia (ur.). CLARIN annual conference proceedings 2023: 16 – 18 October 2023 Leuven, Belgium. [S. l.: s. n.], 2023. Str. 173-177. CLARIN Annual Conference Proceedings. https://office.clarin.eu/v/CE-2023-2328_CLARIN2023_ConferenceProceedings.pdf. [COBISS.SI-ID 200002819]

ZINGANO KUHN, Tanara, KOPPEL, Kristina, ARHAR HOLDT, Špela, TIBERIUS, Carole, ZVIEL-GIRSHIN, Rina, KOSEM, Iztok. Annotating corpora for language learning and lexicography with the Crowdsourcing for Language Learning (CrowLL) game. V: MEDVEĎ, Marek (ur.), et al. eLex 2023 : electronic lexicography in the 21st century (eLex 2023): invisible lexicography: book of abstracts : Brno, 27–29 June 2023. Brno: Lexical Computing CZ, 2023. Str. 13-14. https://elex.link/elex2023/wp-content/uploads/elex2023_book_of_abstracts.pdf. [COBISS.SI-ID 184965379]

Na projektu smo raziskali tudi odnos učiteljske skupnosti do množičenja na primeru Slovarja sopomenk sodobne slovenščine – prvega slovenskega slovarja, ki vključuje podatke, ki so jih neposredno prispevali slovarski uporabniki in uporabnice. Slovar ima visok potencial za šolsko rabo, vendar do sedaj ni bilo raziskano, kako uporabniško sodelovanje ocenjujejo sami slovarski uporabniki, zlasti učitelji slovenščine, v primerjavi s slovaropisci, ki so slovar zasnovali. Rezultati kažejo, da tudi po presoji učiteljev slovarski uporabniki ponujajo uporabne in relevantne sopomenske kandidate, hkrati pa je pomembno, da so v procese nadgradnje jezikovnih virov vključeni tudi kot ocenjevalci, ne le posredniki jezikovnega gradiva.

GAPSA, Magdalena, ARHAR HOLDT, Špela. How lexicographers evaluate user contributions in the Thesaurus of Modern Slovene in comparison to dictionary users. V: MEDVEĎ, Marek (ur.), et al. eLex 2023: electronic lexicography in the 21st century (eLex 2023): proceedings of the eLex 2023 conference : [Brno], 27–29 June 2023. Brno: Lexical Computing CZ, 2023. Str. 178-200. Electronic lexicography in the 21st century. Proceedings of eLex … conference. https://elex.link/elex2023/wp-content/uploads/47.pdf. [COBISS.SI-ID 162928387]

GAPSA, Magdalena (2024). Učiteljske ocene uporabniško dodanih sopomenk v Slovarju sopomenk sodobne slovenščine. Jezik in Slovstvo, 69(4), 35-50. https://doi.org/10.4312/jis.69.4.35-50. [COBISS.SI-ID 223000323]

Korpusno osnovani in stopenjski scenariji povratnih informacij

Besedilni korpusi in odzivni jezikovni viri prinašajo podatke o realni sodobni jezikovni rabi v širšem kontekstu in različnih sporazumevalnih okoliščinah, zato so temeljna referenca za opismenjevanje. V projektu smo analizirali težave in ovire korpusnoosnovanih odzivnih slovarjev (Slovar sopomenk sodobne slovenščine, Kolokacijski slovar sodobne slovenščine) za šolsko rabo in zagotovili pomembne izboljšave. Za korpus Šolar 3.0, ki je temelj za korpusno preučevanje jezikovnih težav in popravkov v šolskem pisanju, smo zagotovili zmogljiv in specializiran korpusni vmesnik. S tem se je bistveno izboljšala uporabnost korpusnih informacij za širšo javnost, npr. za učiteljice in učitelje, ki pripravljajo učno gradivo in vaje, ter študentke in študentke, ki se izobražujejo za učiteljski poklic. Z novim konkordančnikom je mogoče iskati vsebinsko specifične jezikovne popravke na različnih jezikovnih ravneh in pregledovati, kako se značilnosti učiteljske povratne informacije razlikujejo na različnih stopnjah šolanja, v različnih vrstah šol in slovenskih regijah. Novosti smo predstavili na konferencah, v pripravi je tudi članek za znanstveno revijo.

KOSEM, Iztok, ARHAR HOLDT, Špela, GANTAR, Polona, KREK, Simon. Collocations Dictionary of Modern Slovene 2.0. V: MEDVEĎ, Marek (ur.), et al. eLex 2023: electronic lexicography in the 21st century (eLex 2023) : proceedings of the eLex 2023 conference : [Brno], 27–29 June 2023. Brno: Lexical Computing CZ, 2023. Str. 491-507, ilustr. Electronic lexicography in the 21st century. Proceedings of eLex … conference. ISSN 2533-5626. https://elex.link/elex2023/wp-content/uploads/100.pdf. [COBISS.SI-ID 158852867]

ARHAR HOLDT, Špela, GANTAR, Polona, KOSEM, Iztok, PORI, Eva, ROBNIK ŠIKONJA, Marko, KREK, Simon. Thesaurus of Modern Slovene 2.0. V: MEDVEĎ, Marek (ur.), et al. eLex 2023: electronic lexicography in the 21st century (eLex 2023): proceedings of the eLex 2023 conference : [Brno], 27–29 June 2023. Brno: Lexical Computing CZ, 2023. Str. 366-381, ilustr. Electronic lexicography in the 21st century. Proceedings of eLex … conference. ISSN 2533-5626. https://elex.link/elex2023/wp-content/uploads/82.pdf. [COBISS.SI-ID 158818819]

ARHAR HOLDT, Špela, KOSEM, Iztok, STRITAR KUČUK, Mojca. Developing a specialised concordancer for corpora with language corrections. V: TaLC 2024: 16th Teaching and Language Corpora Conference: July 7th to 10th 2024, Manchester Metropolitan University, Manchester, UK: book of abstracts. [Manchester: Manchester Metropolitan University], 2024. Str. [77]. https://talc2024.co.uk/wp-content/uploads/2024/07/book-of-abstracts-talc-2024_final-4.pdf. [COBISS.SI-ID 204245507]

KOSEM, Iztok, STRITAR KUČUK, Mojca, ARHAR HOLDT, Špela. Corplus: a new concordancer for exploring authentic texts with language corrections. Journal of responsible technology. Mar. 2026, vol. 25, [article no.] 100144, str. 1-9, DOI: 10.1016/j.jrt.2025.100144. [COBISS.SI-ID 263757059]

Korpuse in korpusno osnovane vire za slovenščino, kot so Sloleks 2.0, Sopomenke 2.0, Kolokacije 2.0, referenčni korpus Gigafida 2.0, Šolar 3.0 lahko uporabimo na več načinov: z napotitvijo učenca na določeno mesto jezikovnega vira; z integracijo in prikazom izbranega nabora podatkov v digitalnem orodju; z vključitvijo na jezikoslovnih analizah temelječih razlag, zgledov, vaj. Po pojavu generativne umetne inteligence je treba razmišljati tudi o povratni informaciji, ki jo je mogoče generirati strojno — v podporo učiteljski skupnosti in na način, ki ga slednja ocenjuje za dobrodošlega. Možnosti rabe AI za izbiro pedagoško ustreznih jezikovnih zgledov smo predstavili na konferenci.

KOSEM, Iztok, ZINGANO KUHN, Tanara, ARHAR HOLDT, Špela, KOPPEL, Kristina, TIBERIUS, Carole, ZVIEL-GIRSHIN, Rina. Examining the potential of AI in the annotation of corpus examples for language learning. V: CILC2024: XV Congreso International de Lingüística de Corpus, Las Palmas de Gran Canaria, España = 15th International Corpus Linguistics Conference, Las Palmas de Gran Canaria, Spain 22-24 May 2024 : [book of abstracts]. [S. l.]: Aelinco, 2024. Str. 93-95, https://drive.google.com/file/d/1rHS4OwztEPvYOPwHE5Mxn-lnK2ErbiHV/view. [COBISS.SI-ID 199984643]

Testiranje povratnih informacij s ciljnimi uporabniškimi skupinami

Predstavniki učiteljske skupnosti na projektu so izrazili željo po strokovni konferenci, na kateri bi svoje izkušnje, prakse in mnenja o podajanju povratne informacije lahko predstavili širši strokovni javnosti. Kot prvi projektni dogodek smo zato organizirali strokovno konferenco Popravljanje jezika in besedil – učiteljska povratna informacija v šolski praksi. Dogodek je bil zelo dobro obiskan, kot rezultat pa smo oblikovali zbornik s 25 recenziranimi učiteljskimi prispevki, ki se dotikajo popravljanja, povratne informacije, formativnega spremljanja in drugih s projektom povezanih tem.

PORI, Eva (urednik), ARHAR HOLDT, Špela (urednik). Popravljanje jezika in besedil – učiteljska povratna informacija v šolski praksi: zbornik konference. 1. izd. Ljubljana: Založba Univerze, 2023. Spletni vir, 374 strani, DOI: 10.4312/9789612972394. [COBISS.SI-ID 178525187]

Vprašanja o želeni obliki povratne informacije v digitalnem okolju smo vključili v učiteljske intervjuje, opisane v projektni aktivnosti Jezikoslovna in učiteljska evalvacija avtomatskega označevanja besedil. Raziskali smo preference glede prikaza povratnih informacij v digitalnem okolju, pri čemer se je izrisal visok pomen didaktično ustrezne vizualizacije popravkov. Posebej zaželene so bile povezave popravkov z jezikovnimi viri in vključitev statistik o različnih besedilnih značilnosti. Vendar preveč popravkov lahko učence demotivira, samodejno popravljanje pa pasivizira, zato je nujna možnost stopenjskega popravljanja. Stopenjskost učitelji razumejo bodisi kot prilagoditev strogosti strojnega popravljanja za različne uporabnike, bodisi možnost izbire med popravljanjem in zgolj barvnim označevanjem napak, nekateri pa tudi kot postopno popravljanje po jezikovnih ravninah, npr. od strukture do pravopisa. Izsledki, ki vsebujejo evalvacijsko poročilo s specifikacijami uporabniških potreb in želja za nadgradnjo modela, so objavljeni v znanstveni reviji.

Vprašalnik evalvacijskega intervjuja v slovenski in angleški različici.

Projektni dogodki in predavanja

Učiteljska strokovna konferenca

5. aprila 2023 smo na Fakulteti za upravo Univerze v Ljubljani organizirali strokovno konferenco Popravljanje jezika in besedil – učiteljska povratna informacija v šolski praksi.

Program in fotografije dogodka si lahko ogledate na tej povezavi.
Zbornik recenziranih prispevkov je na voljo tukaj.

Izobraževanje učiteljic in učiteljev

24. novembra 2023 je na Filozofski fakulteti Univerze v Ljubljani v izvedbi Oddelka za slovenistiko potekalo izobraževanje učiteljic in učiteljev. Med predstavljenimi je bila tudi tema Priprava učnih gradiv s korpusom šolskih pisnih izdelkov Šolar 3.0. Spodaj so na voljo gradiva:

prosojnice (PDF)
smernice za označevanje jezikovnih popravkov v korpusu Šolar (PDF)
frekvenčni seznam jezikovnih problemov iz korpusa Šolar (XLSX)
demo konkordančnika CJVT (povezava)
konkordančnik noSke Clarin.si (povezava)

Vabljena predavanja na tujih univerzah

ARHAR HOLDT, Špela. Leveraging error-annotated corpora and the Svala Tool: the case of Slovene: guest talk at Department of Swedish, Multilingualism, Language Technology, University of Gothenburg, Sweden, 20 June 2023. [COBISS.SI-ID 171445507]
ARHAR HOLDT, Špela. A specialised concordancer for corpora with annotated language corrections: invited presentation at Department of Swedish, Multilingualism, and Language Technology, University of Gothenburg, 23rd of April 2024, Gothenburg, Sweden. [COBISS.SI-ID 214135299]
ARHAR HOLDT, Špela. From developmental corpus to developed applications: the journey of Šolar 3.0: presentation at the Faculty of Arts and Humanities of the University of Coimbra, Coimbra, Portugal, 29 Nov. 2024. [COBISS.SI-ID 229553923]
KOSEM, Iztok. Corpus tools and language resources at the University of Ljubljana: purposes and people behind the development: presentation at the Faculty of Arts and Humanities of the University of Coimbra, Coimbra, Portugal, 29 Nov. 2024. [COBISS.SI-ID 229749251]

Zaključni dogodek projekta

Zaključni dogodek raziskovalnega projekta je potekal 23. septembra 2025 v Zbornični dvorani Univerze v Ljubljani. Na dogodku je projektna ekipa predstavila pregled rezultatov ter izbrane raziskave, vire in orodja. Predavanja bodo dostopna na portalu VideoLectures.

10:30–10:40 pozdrav in uvodni nagovor dekanje Filozofske fakultete UL, red. prof. dr. Mojca Schlamberger Brezar [VIDEO]
10:40–11:00 Špela Arhar Holdt: Rezultati projekta Empirična podlaga za digitalno podprt razvoj pisne jezikovne zmožnosti [VIDEO]
11:00–11:15 Iztok Kosem: Prvi koraki proti seznamu temeljnega šolskega besedišča [VIDEO]
11:15–11:30 Tadeja Rozman: Korpus študentskih besedil KOŠ [VIDEO]
11:30–11:45 Matej Klemen: Avtomatsko popravljanje jezikovnih napak z jezikovnimi modeli: od podatkov do rešitev [VIDEO]
11:45–12:00 odmor
12:00–12:15 Alenka Rot Vrhovec: Vpogled v rezultate ankete o popravljanju pisnih besedil učencev/dijakov [VIDEO]
12:15–12:30 Tina Munda: Jezikovno popravljanje v digitalnem okolju: kvalitativna študija z učiteljicami in učitelji slovenščine [VIDEO]
12:30–12:45 Karmen Pižorn: Vloga digitalnih orodij pri razvoju pisnih spretnosti študentov v angleškem jeziku kot tujem jeziku: sistematični pregled literature [VIDEO]
12:45–13:00 Milena Košak Babuder: Digitalno podprto učenje pri študentih s specifičnimi učnimi težavami [VIDEO]
13:00–14:00 vprašanja publike, pogostitev in druženje

KONTAKT

LOKACIJA

INFO

S PODPORO