S projektom Empirična podlaga za digitalno podprt razvoj pisne jezikovne zmožnosti (PROP) želimo podpreti učitelje, ki popravljajo in ocenjujejo pisne izdelke učencev. Za razvoj pisne zmožnosti je treba pisanje vaditi, več šolskega pisanja pa pomeni tudi več dela za učitelje. Podajanje individualizirane, ciljno usmerjene formativne povratne informacije, ki pri opismenjevanju dokazano vodi v najboljše rezultate, zahteva od učiteljev ogromno časa, pa tudi podprtost z ustreznimi opisniki, kazalniki in podatki o sodobni jezikovni rabi v različnih komunikacijskih situacijah. Za opismenjevanje v številnih jezikih, tudi slovenščini, ti pogoji niso zagotovljeni, zato je šolskega pisanja izrazito (pre)malo, povratna informacija pa je tipično usmerjena v odpravo površinskih težav, kot so slovnične napake.

Rešitev vidimo v digitalni podpori učiteljskemu delu, ki na eni strani vključuje strojno identifikacijo in vsebinsko kategorizacijo slovničnih napak, ki učitelje razbremeni rutinskih popravkov in jim zagotovi več časa za višje taksonomske cilje, na drugi pa digitalno zasnovan model za podajanje povratne informacije, ki vključuje empirično podprte kazalnike in opisnike, možnost za sodelovalno pripravo korektivnih učnih gradiv, medvrstniško ocenjevanje in dolgoročno spremljanje napredka. Strm porast zmogljivosti na področju procesiranja naravnega jezika, strojnega učenja in korpusnega jezikoslovja zagotavlja dosegljivost teh ciljev, o čemer pričajo tudi raznovrstna digitalna orodja, prototipi, portali, ki trenutno nastajajo v mednarodnem prostoru. Inovativni del projekta, ki zahteva interdisciplinarno sodelovanje, pa je zasnova rešitev na empiričnih podatkih o realnih učiteljskih praksah in potrebah na eni strani in realni, avtentični sodobni jezikovni rabi na drugi.

V tem oziru je velika prednost, ki jo ima slovenščina v primerjavi z drugimi jeziki, besedilni korpus šolskega pisanja v slovenskih osnovnih in srednjih šolah, ki vsebuje tudi avtentične učiteljske popravke, ročno kategorizirane glede na vrsto popravljenega jezikovnega problema. Ta korpus predstavlja neizkoriščeni potencial za empirične analize avtentične šolske produkcije in jezikovne korekcije, pa tudi za razvoj orodja, ki jezikovne probleme strojno tipizira z upoštevanjem realnih načel učiteljskega popravljanja.

V projektu bomo s podatkovnimi luščenji ter analizami napredno označenih besedilnih korpusov zagotovili empirične podatke za razvojne kazalnike in opisnike za različne stopnje šolanja. Nato bomo uporabili te podatke za pripravo scenarijev povratne jezikoslovne informacije na ravni zapisa in črkovanja, oblikoslovja, besedišča in skladnje. V korpus šolskega pisanja bomo vključili tudi študentsko pisanje in empirično raziskali specifike podajanja povratne informacije na terciarni ravni izobraževanja. Nadalje, razvili bomo šolski situaciji prilagojeni avtomatski označevalnik jezikovnih težav. Ker so viri, kot je korpus Šolar, izredno redki, bomo program preizkusili tudi na drugih primerljivih učnih množicah in ga adaptirali v smer večje neodvisnosti za prenos metodologije na druge jezike.

Ključni del projekta so uporabniške raziskave, ki bodo obstoječe prakse podajanja povratne informacije za razvoj pisne zmožnosti najprej naslovile s pomočjo spletne ankete, nato pa še s snemanjem zaslona učiteljev med popravljanjem v digitalnem okolju. Učitelje in učence z različnih stopenj šolanja bomo v projekt vključili tudi kot evalvatorje razvitih rešitev. Nenazadnje, povezali bomo spoznanja s področja formativnega spremljanja in množičenja na področju jezikovnega izobraževanja in oblikovali strategijo, ki bo vsebovala nujno potrebne etične razmisleke glede vpeljevanja digitalne podpore za razvoj pisne zmožnosti.

Korpusi in korpusni podatki: napredno strojno označiti korpus šolskega pisanja, korpus šolskih učbenikov in korpus mladinske književnosti in s podatkovnimi luščenji ter korpusnimi analizami zagotoviti empirične podatke za razvojne kazalnike in opisnike za različne stopnje šolanja; uporabiti te podatke za pripravo scenarijev povratne informacije na ravni zapisa in črkovanja, oblikoslovja, besedišča in skladnje; zgraditi pilotski korpus študentskega pisanja in ga vključiti v vse naštete korake.

Programski modul: razviti programski modul, ki avtomatsko identificira in vsebinsko kategorizira jezikovne napake na različnih jezikovnih ravninah; prilagoditi delovanje programa učiteljskim potrebam in specifikam podajanja povratne informacije na posamezni stopnji šolanja; zagotoviti podstave za prenos metodologije tudi na druge jezike.

Uporabniške raziskave: empirično raziskati obstoječe učiteljske prakse podajanja povratne informacije za razvoj pisne zmožnosti s pomočjo (a) spletnega anketiranja in (b) snemanja zaslona med popravljanjem v digitalnem okolju; zagotoviti možnost primerljivih raziskav tudi za druge jezike; vključiti učitelje/predavatelje v evalvacijo avtomatskega označevalnika in učitelje/predavatelje ter učence/dijake/študente v evalvacijo korpusno osnovanih povratnih informacij.

Modeli in strategije: povezati spoznanja s področja formativnega spremljanja in množičenja na področju jezikovnega izobraževanja in pripraviti model za digitalno podprto posredovanje povratnih informacij za razvoj pisnih kompetenc; oblikovati strategijo digitalno podprtega razvoja pisnih kompetenc.

Diseminacija raziskovalnih rezultatov: zagotoviti rezultate v skladu z Nacionalno strategijo odprtega dostopa do znanstvenih objav in znanstvenih podatkov; obveščati znanstveno in splošno javnost o rezultatih projekta (znanstvene objave, dogodki, spletna stran) in spodbujati nadaljnjo uporabo.

Univerza v Ljubljani, Filozofska fakulteta
– Špela Arhar Holdt, 27674
– Iztok Kosem, 33796
– Polona Gantar, 16313
– Marko Stabej, 11651
– Teja Goli, 52176
– Magdalena Gapsa, 53628
– Mija Bon, 51891

Univerza v Ljubljani, Fakulteta za računalništvo in informatiko
– Marko Robnik-Šikonja, 15295
– Simon Krek, 26166
– Matej Ulčar, 55173
– Aleš Žagar, 56007
– Matej Klemen, 55754

Univerza v Ljubljani, Fakulteta za upravo
– Tadeja Rozman, 25578

Univerza v Ljubljani, Pedagoška fakulteta
– Karmen Pižorn, 21612
– Alenka Rot Vrhovec, 34816
– Lara Godec Soršak, 25590
– Milena Košak Babuder, 26199
– Tomaž Petek, 32433

1. Korpusne analize pisne produkcije na različnih stopnjah šolanja
– Priprava korpusnih podatkov za jezikoslovne in strojne naloge [M1-6]
– Priprava pilotskega korpusa študentskih besedil [M1-12]
– Kvantitativne in kvalitativne jezikoslovne analize šolskega pisanja [M1-18]
– Empirični podatki za razvojne kazalnike na ravni besedišča in skladnje [M7-18]
2. Na praksah temelječ model digitalno podprtega razvoja pisnih kompetenc
– Anketna raziskava učiteljskih praks pri razvoju pisnih kompetenc [M1-18]
– Snemanje popravljanja šolske produkcije in polstrukturirani intervjuji [M10-24]
– Oblikovanje strategije digitalno podprtega razvoja pisnih kompetenc [M19-35]
3. Razvoj in evalvacija strojne identifikacije in kategorizacije jezikovnih težav
– Izdelava modela za avtomatsko označevanje napak [M7-35]
– Testiranje prenosljivosti metodologije na druge jezike [M25-35]
– Jezikoslovna in učiteljska evalvacija avtomatskega označevanja [M13-35]
4. Podajanje povratne informacije v digitalnem okolju
– Razvoj modela za povezavo formativnega spremljanja in množičenja [M7-18]
– Korpusno osnovani in stopenjski scenariji povratnih informacij [M13-24]
– Testiranje povratnih informacij s ciljnimi uporabniškimi skupinami [M22-35]
5. Koordinacija in diseminacija
– Koordinacija, poročanje in obveščanje [M1-36]
– Znanstvene objave in raziskovalni podatki [M1-36]

Priprava korpusnih podatkov za jezikoslovne in strojne naloge

Na projektu smo pripravili tri besedilne korpuse, specializirane za pedagoško rabo: korpus šolskih pisnih izdelkov Šolar 3.0, korpus odprto dostopnih šolskih učbenikov ccUčbeniki 1.0 in korpus mladinske književnosti ccMaks 1.0. Pred začetkom projekta je bil korpus Šolar dostopen v različici 2.0, korpus Maks samo prek konkordančnikov (ne pa kot baza), korpus Učbeniki pa širši javnosti ni bil na voljo. Vsi trije viri so bili jezikoslovno označeni, vendar s starejšimi strojnimi označevalniki. Na projektu smo korpuse enotno označili z najsodobnejšim označevalnikom CLASSLA v1.1.1 na ravni tokenizacije, segmentacije, lematizacije in oblikoskladnje po sistemu MULTEXT-East v6, odvisnostne skladnje JOS in imenskih entitet. V sodelovanju z drugimi projekti smo zagotovili, da sta skladno pripravljena tudi korpusa za slovenščino kot L2: korpus učbenikov KUUS in korpus slovenščine kot tujega jezika KOST. Enotnost omogoča zanesljivejšo primerjavo med podatki, oznake na višjih jezikovnih ravneh pa naprednejše jezikoslovne in strojne analize, pa tudi boljšo izrabo podatkov za strojno učenje.

Korpusi so odprto na voljo na repozitoriju CLARIN.SI:

ARHAR HOLDT, Špela, ROZMAN, Tadeja, STRITAR KUČUK, Mojca, KREK, Simon, KRAPŠ VODOPIVEC, Irena, STABEJ, Marko, PORI, Eva, GOLI, Teja, LAVRIČ, Polona, LASKOWSKI, Cyprian Adam, KOCJANČIČ, Polonca, KLEMENC, Bojan, KRSNIK, Luka, KOSEM, Iztok. Developmental corpus Šolar 3.0. Slovenian language resource repository CLARIN.SI, ISSN 2820-4042, http://hdl.handle.net/11356/1589. [COBISS.SI-ID 124160003]

KOSEM, Iztok, PORI, Eva, ŽAGAR, Aleš, ARHAR HOLDT, Špela. Corpus of Slovenian textbooks ccUčbeniki 1.0. Slovenian language resource repository CLARIN.SI, ISSN 2820-4042, http://hdl.handle.net/11356/1693. [COBISS.SI-ID 129443843]

VERDONIK, Darinka, MAJNINGER, Sandi, DOBROVOLJC, Kaja, ANTLOGA, Špela, ZÖGLING MARKUŠ, Aleksandra, VORŠIČ, Ines, ZEMLJAK JONTES, Melita, KOLETNIK, Mihaela, VALH LOPERT, Alenka, ŠEK, Polonca, KOSEM, Iztok, MAJHENIČ, Simona, FERME, Marko, ŽAGAR, Aleš, ARHAR HOLDT, Špela. Corpus of Slovenian texts for pedagogical purposes ccMAKS 1.0. Slovenian language resource repository CLARIN.SI, ISSN 2820-4042, http://hdl.handle.net/11356/1692. [COBISS.SI-ID 129467395]

KLEMEN, Matej, KOSEM, Iztok, ARHAR HOLDT, Špela, POLLAK, Senja, HUBER, Damjan, LUTAR, Mateja. Corpus of textbooks for learning Slovenian as L2 KUUS 2.0. Slovenian language resource repository CLARIN.SI, ISSN 2820-4042, http://hdl.handle.net/11356/1877. [COBISS.SI-ID 178103555]

STRITAR KUČUK, Mojca, ŠTER, Helena, PISEK, Staša, PETRIC LASNIK, Ivana, KETE MATIČIČ, Jana, PIRIH SVETINA, Nataša, PREGLAU, Daniela, ARHAR HOLDT, Špela, KRSNIK, Luka, ERJAVEC, Tomaž, PEGAN, Jasmina, HUBER, Damjan. Slovene learner corpus KOST 2.0. Slovenian language resource repository CLARIN.SI, ISSN 2820-4042, http://hdl.handle.net/11356/1887. [COBISS.SI-ID 181138179]

Pripravo korpusov, ki je zlasti zahtevna za korpuse z jezikovnimi popravki, med katere spada tudi tudi Šolar 3.0, smo predstavili na konferencah, v monografiji ter prestižni reviji Language Resources and Evaluation.

ARHAR HOLDT, Špela, KOSEM, Iztok. Šolar, the developmental corpus of Slovene. Language resources and evaluation. 2024, str. 1-27. DOI: 10.1007/s10579-024-09758-4. [COBISS.SI-ID 204228867]

ARHAR HOLDT, Špela, KOSEM, Iztok, STRITAR KUČUK, Mojca. Metode in orodja za lažjo pripravo korpusov usvajanja jezika. V: PIRIH SVETINA, Nataša (ur.), FERBEŽAR, Ina (ur.). Na stičišču svetov : slovenščina kot drugi in tuji jezik. 1. natis. Ljubljana: Založba Univerze, 2022. Str. 23-30. Zbirka Obdobja, 41. DOI: 10.4312/Obdobja.41.23-30. [COBISS.SI-ID 129063939]

ARHAR HOLDT, Špela, PORI, Eva, KOSEM, Iztok. Prihodnost korpusa Šolar. V: ARHAR HOLDT, Špela (ur.), KREK, Simon (ur.). Razvoj slovenščine v digitalnem okolju. Ljubljana: Založba Univerze, 2023. Str. 61-91. Sporazumevanje. https://ebooks.uni-lj.si/ZalozbaUL/catalog/view/522/852/9442. [COBISS.SI-ID 185543683]

KLEMEN, Matej, ARHAR HOLDT, Špela, POLLAK, Senja, KOSEM, Iztok, HUBER, Damjan, LUTAR, Mateja. Korpus učbenikov za učenje slovenščine kot drugega in tujega jezika. V: PIRIH SVETINA, Nataša (ur.), FERBEŽAR, Ina (ur.). Na stičišču svetov : slovenščina kot drugi in tuji jezik. Ljubljana: Založba Univerze, 2022. Str. 165-174. Zbirka Obdobja, 41. DOI: 10.4312/Obdobja.41.165-174. [COBISS.SI-ID 129975811]

Priprava pilotskega korpusa študentskih besedil

Zgradili smo nov pilotski korpus študentskih besedil KOŠ, ki vsebuje pisne izdelke študentk in študentov Fakultete za upravo in Pedagoške fakultete Univerze v Ljubljani. Korpus obsega 293 besedil (297.422 besed študentskega pisanja in 1.091 besed profesorskih komentarjev). Besedila so zbrana po metodologiji priprave korpusa Šolar, ki vključuje beleženje vseh relevantnih metapodatkov, vključitev profesorskih jezikovnih popravkov, pravno ureditev odprtega dostopa do rezultatov in zapis v združljivem formatu.

Pogodba za študente: digitalni podpis / ročni podpis.

Pogodba za profesorje: digitalni podpis / ročni podpis.

ROZMAN, Tadeja, ARHAR HOLDT, Špela. Gradnja Korpusa študentskih besedil KOŠ. V: FIŠER, Darja (ur.), ERJAVEC, Tomaž (ur.). Jezikovne tehnologije in digitalna humanistika: zbornik konference: 15.-16. september 2022, Ljubljana, Slovenija. Ljubljana: Inštitut za novejšo zgodovino, 2022. Str. 267-270. https://nl.ijs.si/jtdh22/pdf/JTDH2022_Rozman_ArharHoldt_Gradnja-Korpusa-studentskih-besedil-KOS.pdf. [COBISS.SI-ID 131012099] Posnetek predstavitve.

Ker se pisanje in podajanje povratnih informacij na terciarnem nivoju nekoliko razlikuje od sekundarnega, ki ga prinaša korpus Šolar, smo metodologijo nadgradili, trenutne prakse podajanja povratne informacije pa smo dodatno raziskali s pomočjo ankete, v kateri je sodelovalo kar 459 pedagogov in pedagoginj, ki poučujejo na slovenskih javnih univerzah in samostojnih visokošolskih zavodih. Rezultate ankete smo predstavili javnosti in tudi objavili raziskovalne podatke v odprtem dostopu.

ROZMAN, Tadeja, ARHAR HOLDT, Špela, STABEJ, Marko. Podajanje povratnih informacij o študentskih besedilih: raziskovalni podatki = Feedback on student writing: research data. Ljubljana: [s. n.], 2023. Repozitorij Univerze v Ljubljani – RUL, DOI: 20.500.12556/RUL-152767. [COBISS.SI-ID 176945923]

ROZMAN, Tadeja, STABEJ, Marko. Univerzitetno pisanje in popravljanje besedil: prakse in stališča. V: ŠTUMBERGER, Saška (ur.). Predpis in norma v jeziku. Ljubljana: Založba Univerze, 2024. Str. 285-292. Zbirka Obdobja, 43. DOI: 10.4312/Obdobja.43.285-292. [COBISS.SI-ID 215458307]

Kvantitativne in kvalitativne jezikoslovne analize šolskega pisanja

Za kvanitativne in kvalitativne analize šolskega pisanja je pomembno kvalitetno in zanesljivo označevanje jezikovnih popravkov v šolskih besedilih. Na projektu smo izboljšali metodologijo označevanja, kjer je izpostaviti zlasti nadgradnjo označevalnega sistema Šolar in označevalnega orodja CVJT Svala. Novosti smo predstavili na uveljavljenem domačem simpoziju Obdobja in mednarodni konferenci LREC.

ARHAR HOLDT, Špela, LAVRIČ, Polona, ROBLEK, Rebeka, GOLI, Teja, BON, Mija, 2023: Categorizing Teachers’ Corrections: Guidelines for Annotating the Šolar Corpus. Version 1.2. Prepared in the project Empirical foundations for digitally-supported development of writing skills. https://wiki.cjvt.si/books/11-developmental-corpus-solar/page/annotation-guidelines.

ARHAR HOLDT, Špela, ERJAVEC, Tomaž, KOSEM, Iztok, VOLODINA, Elena. Towards an ideal tool for learner error annotation. V: CALZOLARI, Nicoletta (ur.). The 2024 Joint International Conference on Computational Linguistics, Language Resources and Evaluation (LREC-COLING 2024): main conference proceedings: 20-25 May, 2024, Torino, Italia. [Paris]: ELRA Language Resources Association (ELRA); [Stroudsburg]: International Committee on Computational Linguistics, cop. 2024. Str. 16392-16398. https://aclanthology.org/2024.lrec-main.1424.pdf. [COBISS.SI-ID 199958019].

ARHAR HOLDT, Špela, POPIČ, Damjan, STRITAR KUČUK, Mojca. Primerjava sistemov za označevanje jezikovnih popravkov v štirih slovenskih besedilnih korpusih. V: ŠTUMBERGER, Saška (ur.). Predpis in norma v jeziku. Ljubljana: Založba Univerze, 2024. Str. 11-20. Zbirka Obdobja, 43. DOI: 10.4312/Obdobja.43.11-20. [COBISS.SI-ID 215306243]

Z naprednim luščenjem podatkov iz korpusa Šolar 3.0 smo pripravili frekvenčni seznam jezikovnih zadreg, ki vsebuje 36.570 povedi šolskega pisanja z učiteljskim popravkom napake. Popravki so ročno kategorizirani glede na vsebino v 180 različnih vrst. Vsaka poved je opremljena z metapodatki, kot so vrsta izhodiščnega besedila, izobraževalna stopnja avtorice/avtorja ter vrsta in regija šole, kjer je besedilo nastalo. Podatkovna zbirka razkriva, na katere težave se učitelji na različnih stopnjah šolanja najbolj osredotočajo, kako jih popravljajo, katere težave so najbolj pogoste in katere so regionalno pogojene. Podatke smo statistično analizirali in na konferenci TALC predstavili najbolj trdovratne jezikovne težave, ki v šolskem pisanju ostajajo vse do konca srednje šole. Analizirali in predstavili smo tudi težave rabe vejice v šolskih spisih.

ARHAR HOLDT, Špela, ROZMAN, Tadeja, STRITAR KUČUK, Mojca, KREK, Simon, KRAPŠ VODOPIVEC, Irena, STABEJ, Marko, PORI, Eva, GOLI, Teja, LAVRIČ, Polona, LASKOWSKI, Cyprian Adam, KOCJANČIČ, Polonca, KLEMENC, Bojan, KRSNIK, Luka, ŽAGAR, Aleš, KOSEM, Iztok. Frequency list of language problems from Šolar 3.0. Slovenian language resource repository CLARIN.SI, ISSN 2820-4042, http://hdl.handle.net/11356/1716. [COBISS.SI-ID 130413571]

ARHAR HOLDT, Špela. Leveraging frequency list of language problems from Šolar 3.0. V: TaLC 2024: 16th Teaching and Language Corpora Conference: July 7th to 10th 2024, Manchester Metropolitan University, Manchester, UK: book of abstracts. [Manchester: Manchester Metropolitan University], 2024. Str. [121]. https://talc2024.co.uk/wp-content/uploads/2024/07/book-of-abstracts-talc-2024_final-4.pdf. [COBISS.SI-ID 204247555]

BON, Mija, GAPSA, Magdalena. Analiza napak pri rabi vejice v šolskih spisih. V: MARUŠIČ, Franc (ur.), et al. Škrabčevi dnevi 13: knjižica povzetkov simpozija 2023: 20. oktober 2023, Nova Gorica. Nova Gorica: Univerza v Novi Gorici, 2023. Str. 3. https://skrabcevi-dnevi.zrc-sazu.si/Portals/19/Povzetki/SD-13-Povzetki-simpozija-2023.pdf. [COBISS.SI-ID 207455235]

Empirični podatki za razvojne kazalnike na ravni besedišča in skladnje

Vzpostavili smo metodologijo za luščenje seznamov temeljnega besedišča iz pedagoških korpusov, ki je vključevala posodobitev programa za korpusna luščenja LIST v različico 1.3. Izluščili smo frekvenčne sezname lem iz korpusa učbenikov in pripravili seznam jedrnega besedišča za stopnje A1, A2 ter B1 po Skupnem evropskem jezikovnem okviru (SEJO). Posebno pozornost smo posvetili analizam besedišča na nivoju A1 in zanj pripravili koncept leksikalnega opisa, ki vključuje avtentične in pedagoško prilagojene korpusne zglede in kolokacije. Vse vire in orodja smo odprto objavili na repozitoriju CLARIN.SI, rezultate pa smo predstavili tudi na slovenski in mednarodni konferenci.

KRSNIK, Luka, ARHAR HOLDT, Špela, ČIBEJ, Jaka, DOBROVOLJC, Kaja, KLJUČEVŠEK, Aleksander, KREK, Simon, ROBNIK ŠIKONJA, Marko. Corpus extraction tool LIST 1.3. Slovenian language resource repository CLARIN.SI, ISSN 2820-4042, http://hdl.handle.net/11356/1964. [COBISS.SI-ID 218014211]

KOSEM, Iztok, PORI, Eva, ARHAR HOLDT, Špela. Frequency list of textbook vocabulary by level of education in elementary and secondary schools. Slovenian language resource repository CLARIN.SI, ISSN 2820-4042, http://hdl.handle.net/11356/1719. [COBISS.SI-ID 192040707]

KLEMEN, Matej, ARHAR HOLDT, Špela, POLLAK, Senja. Core vocabulary for Slovenian as L2 1.0. Slovenian language resource repository CLARIN.SI, ISSN 2820-4042, http://hdl.handle.net/11356/1697. [COBISS.SI-ID 130844419]

PORI, Eva, KNEZ, Mihaela, KOSEM, Iztok, ARHAR HOLDT, Špela, KLEMEN, Matej, GANTAR, Polona, ZGAGA, Karolina, ROBLEK, Rebeka. A1 core vocabulary with lexical information for Slovenian 1.0. Slovenian language resource repository CLARIN.SI, ISSN 2820-4042, http://hdl.handle.net/11356/1896. [COBISS.SI-ID 192040963]

MUNDA, Tina, ARHAR HOLDT, Špela. Na poti k skladenjskim analizam šolskega pisanja: skladenjski vzorci v korpusu Šolar 3.0. V: ARHAR HOLDT, Špela (ur.), ERJAVEC, Tomaž (ur.). Jezikovne tehnologije in digitalna humanistika: zbornik konference: 19.-20. september 2024, Ljubljana, Slovenija = Language technologies and digital humanities: proceedings of the conference: 19-20 September 2024, Ljubljana, Slovenia. Ljubljana: Inštitut za novejšo zgodovino: = Institute of Contemporary History, 2024. Str. 577-588. https://zenodo.org/records/13912515. [COBISS.SI-ID 212016387]

KLEMEN, Matej, ARHAR HOLDT, Špela, POLLAK, Senja, KOSEM, Iztok, PORI, Eva, GANTAR, Polona, KNEZ, Mihaela. Building a CEFR-labeled core vocabulary and developing a lexical resource for Slovenian as a second and foreign language. V: MEDVEĎ, Marek (ur.), et al. eLex 2023: electronic lexicography in the 21st century (eLex 2023): proceedings of the eLex 2023 conference: [Brno], 27–29 June 2023. Brno: Lexical Computing CZ, 2023. Str. 654-668. Electronic lexicography in the 21st century, https://elex.link/elex2023/wp-content/uploads/118.pdf. [COBISS.SI-ID 158856451]

Anketna raziskava učiteljskih praks pri razvoju pisnih kompetenc

Izvedli smo obsežno raziskavo med učiteljicami in učitelji, ki pri svojem delu usmerjajo tvorjenje zapisanih besedil z jezikovnimi popravki in drugimi povratnimi informacijami. Raziskali smo prakse popravljanja zapisanih besedil, mdr.: koliko časa sodelujoči namenijo popravljanju na tedenski oz. mesečni ravni; katere oblike povratne informacije podajajo; v kateri obliki so besedila in popravki (pisna, digitalna); s katerimi orodji in viri poteka popravljanje ter katere težave svojih trenutnih praks vidijo kot najbolj akutne. Vprašalnik smo pripravili v dveh jezikovnih različicah, slovenski in angleški, kar bo omogočilo izvedbo primerljivih raziskav v drugih državah. Na projektu smo zbrali kar 1024 veljavnih anket, od tega 609 v celoti zaključenih. Rezultate smo statistično analizirali in objavili ustrezno anonimizirane raziskovalne podatke v odprtem dostopu. Rezultate smo predstavili raziskovalni in učiteljski javnosti, v pripravi pa je tudi prispevek za znanstveno revijo.

Validirani anketni vprašalnik v slovenski in angleški različici.

ROT VRHOVEC, Alenka, ARHAR HOLDT, Špela, PIŽORN, Karmen, GODEC SORŠAK, Lara. Popravljanje pisnih besedil učencev/dijakov: raziskovalni podatki. Ljubljana: Pedagoška fakulteta: Filozofska fakulteta, 2024. https://repozitorij.uni-lj.si/IzpisGradiva.php?lang=slv&id=153481. [COBISS.SI-ID 206148867]

ROT VRHOVEC, Alenka. Kako učitelji popravljajo besedila učencev/dijakov?: predavanje na [konferenci] Popravljanje jezika in besedil – učiteljska povratna informacija v šolski praksi, Fakulteta za upravo, Univerza v Ljubljani, 5. 4. 2023. https://ebooks.uni-lj.si/ZalozbaUL/catalog/view/500/832/9274. [COBISS.SI-ID 149745667]

Snemanje popravljanja šolske produkcije in polstrukturirani intervjuji

V tej raziskavi smo se osredotočili na uporabo obstoječih digitalnih orodij za podajanje povratne informacije učencem. Za sodelovanje smo zbrali 18 učiteljic in učiteljev slovenščine z različnih vrst šol (6 z osnovnih šol, 6 s strokovnih in poklicnih šol in 6 z gimnazij). V raziskavi so jezikovno popravljali dve vnaprej izbrani avtentični šolski besedili, pri čemer smo snemali njihov zaslon, minimalno delovno okolje (obraz) in glasno razmišljanje. Samostojnemu delu z besedili so sledili intervjuji, v katerih smo se osredotočili na značilnosti dela, zmogljivosti in pomanjkljivosti orodij za popravljanje ter želje sodelujočih glede dodatnih funkcionalnosti. Rezultate raziskave smo transkribirali in vsebinsko označili, ustrezno anonimizirane bomo objavili v odprtem dostopu. V pripravi je tudi prispevek za znanstveno revijo.

Oblikovanje strategije digitalno podprtega razvoja pisnih kompetenc

Vedno pomembnejši del sodobnega jezikovne rabe poteka v digitalnem okolju, vendar pa mora biti vpeljava digitalnega medija v pouk starosti primerna, vključujoča za vse skupine učencev in učinkovita, da se izognemo nepotrebnemu sedenju za ekrani. V času projekta so postala enostavno dostopna tudi orodja generativne umetne inteligence, ki soustvarjajo besedila, kar odpira številna nova vprašanja. Strategija, ki smo jo oblikovali v dialogu z izhodišči za prenovo slovenskih učnih načrtov v osnovni in srednji šoli, izpostavlja potrebo po pripravljenosti šolskega sistema na učinke generativne umetne inteligence in pomembnost odprtih učnih gradiv ter premišljenih, problemsko osnovanih digitalnih rešitev. Učiteljice in učitelje je treba opolnomočiti za uporabo, pa tudi soustvarjanje digitalnih jezikovnih virov, orodij in tehnologij. Spremembe v komunikacijskih praksah, kot sta na primer večja neformalnost in anonimnost, zahtevajo novo razumevanje in pristope v poučevanju jezika, ki vključujejo razvoj stilističnega znanja in sposobnost kritične presoje. Poudarjamo tudi potrebo po temeljiti reformi izobraževanja učiteljev in učiteljic slovenščine, da bi ti v prihodnje lahko učinkoviteje uvajali in vključujoče uporabljali nove pristope k poučevanju in ocenjevanju znanja. Strategijo smo objavili v tematski številki znanstvene revije Jezik in slovstvo, posvečeni prenovi učnih načrtov, izbrane teme pa tudi na učiteljski konferenci o popravljanju in povratni informaciji.

ARHAR HOLDT, Špela, FERBEŽAR, Ina, KALIN GOLOB, Monika, KREK, Simon, PAVLE, Andreja, ROZMAN, Tadeja, STABEJ, Marko. Nova slovenščina. Jezik in slovstvo. [Tiskana izd.]. 2024, letn. 69, št. 3, str. 117-138. DOI: 10.4312/jis.69.3.117-138. [COBISS.SI-ID 210323971]

STABEJ, Marko. Kdo ali kaj naj koga ali kaj, kako in zakaj?: (prosti spis o popravljanju in povratni informaciji). V: PORI, Eva (ur.), ARHAR HOLDT, Špela (ur.). Popravljanje jezika in besedil – učiteljska povratna informacija v šolski praksi : zbornik konference. Ljubljana: Založba Univerze, 2023. Str. 22-24. https://ebooks.uni-lj.si/ZalozbaUL/catalog/view/500/832/9312. [COBISS.SI-ID 193563139]

Izdelava modela za avtomatsko označevanje napak

Na projektu smo raziskali domet novih metodogij za strojno popravljanje slovenskih besedil. Modeli strojnega učenja temeljijo na vnaprej naučenih velikih jezikovnih modelih, ki smo jih prilagajali nalogi popravljanja šolskih besedil s pomočjo izbranih avtentičnih in sintetično pripravljenih podatkovnih množic. Najprej smo preučili uporabnost jezikovnih modelov multilingual BERT, CroSloEngual BERT in SloBERTa. Na nalogi strojnega odgovarjanja na vprašanja smo testirali več vnaprej naučenih velikih modelov kodirnik-dekodirnik tipa T5. Modele tipa T5 smo preizkusili za avtomatsko generiranje pravilne oblike napačno zapisanih besed, raziskali pa smo tudi uspešnost postopkov za strojno generiranje razlag. Z optimizirano nevronsko metodologijo smo nato naslovili napake črkovanja, zapisa, oblike in skladnje in zlasti za prvi dve ravnini dosegli dobre rezultate. Razvili smo tudi nevronski črkovalnik za slovenščino, ki trenutno ponuja najboljše (state-of-the-art) rezultate za slovenščino. Njegova prednost je, da zmore zaznati tudi številne primere, kjer se črkovalna napaka odraža v sicer legitimni besedni obliki, npr.  

ULČAR, Matej, ROBNIK ŠIKONJA, Marko. Sequence-to-sequence pretraining for a less-resourced Slovenian language. Frontiers in artificial intelligence. Mar. 2023, vol. 6, str. 1-13, DOI: 10.3389/frai.2023.932519. [COBISS.SI-ID 147683587]

KMECL, Tim, ROBNIK ŠIKONJA, Marko. Logično sklepanje v naravnem jeziku za slovenščino. Slovenščina 2.0: empirične, aplikativne in interdisciplinarne raziskave. 2024, letn. 12, št. 1, str. 1-53, DOI: 10.4312/slo2.0.2024.1.1-53. [COBISS.SI-ID 206551299]

LOGAR, Katja, ROBNIK ŠIKONJA, Marko. Unified question answering in Slovene. V: LUŠTREK, Mitja (ur.), GAMS, Matjaž (ur.), PILTAVER, Rok (ur.). Slovenska konferenca o umetni inteligenci = Slovenian Conference on Artificial Intelligence: Informacijska družba – IS 2022 = Information Society – IS 2022: zbornik 25. mednarodne multikonference = proceedings of the 25th international multiconference: zvezek A = volume A: 11. oktober 2022, 11 October 2022, Ljubljana, Slovenija. Ljubljana: Institut “Jožef Stefan”, 2022. Str. 23-26, https://doi.org/10.48550/arXiv.2211.09159. [COBISS.SI-ID 129718275]

KLEMEN, Matej, BOŽIČ, Martin, ARHAR HOLDT, Špela, ROBNIK ŠIKONJA, Marko. Neural spell-checker: beyond words with synthetic data generation. V: NÖTH, Elmar (ur.), HORÁK, Aleš (ur.), SOJKA, Petr (ur.). Text, speech, and dialogue. Part 1: 27th International Conference, TSD 2024, Brno, Czech Republic, September 9–13, 2024: proceedings. Cham: Springer, cop. 2024. Str. 85-96. Lecture notes in computer science, SL7, Lecture notes in artificial intelligence, DOI: 10.1007/978-3-031-70563-2_7, dostopno na https://doi.org/10.48550/arXiv.2410.23514. [COBISS.SI-ID 213519107]

Module za različne jezikovne ravnine smo objavili pod odprto licenco na platformi HuggingFace, kar omogoča njihovo nadaljnjo rabo in razvoj.

Modul, ki identificira napake črkovanja in zapisa.

Modul, ki popravlja napake črkovanja in zapisa.

Modul, ki popravlja oblikoslovne napake.

Modul, ki popravlja napake besednega reda.

Testiranje prenosljivosti metodologije na druge jezike

Prvotni načrt projekta je bil oceniti delovanje zgoraj opisanih modelov na izbranih virih z oznakami napak s področja usvajanja angleščine kot tujega jezika. Vendar je po pojavu velikih jezikovnih modelov, kot je ChatGPT, ki vsebujejo ogromne količine besedil v angleščini, postalo pomembneje razvijati medjezikovne prenose med sorodnimi jeziki oz. jeziki manjših jezikovnih skupnosti, kamor spada tudi slovenščina. Ne le (ampak tudi) za slovenščino pa se je izkazalo, da akutno primanjkuje kvalitetnih in enovito grajenih evalvacijskih množic, ki bi omogočale zanesljivo evalvacijo novih pristopov. Pod okriljem projekta smo se pridružili skupni raziskovalni nalogi (shared task) MultiGEC-2025, v kateri so bile v enotnem formatu pripravljene evalvacijske množice strojno popravljanje jezikovnih napak za 12 jezikov. Razvijalci, ki se bodo pridružili skupni nalogi, bodo razvijali strojno popravljanje za vključene jezike, in poročali o uspešnosti različnih pristopov. V pripravi je članek, ki bo opisal rezultate tega sodelovanja.

Jezikoslovna in učiteljska evalvacija avtomatskega označevanja besedil

Na projektu smo pripravili referenčno množico za kvantitativno in kvalitativno evalviranje strojnega popravljanja jezikovnih napak. Šolar-Eval vsebuje 109 besedil, ki so nastala na slovenskih osnovnih in srednjih šolah. Besedila smo jezikoslovno analizirali in v njih ročno označili 9.808 jezikovnih težav na različnih jezikovnih ravninah. Množico smo objavili pod odprto licenco na repozitoriju CLARIN.SI in jo opisali v znanstvenem članku. Šolar-Eval smo uporabili za strojno in jezikoslovno evalvacijo zgoraj navedenih modelov za strojno popravljanje in rezultate vključili na platformi HuggingFace in v zgoraj navedenih člankih.

ARHAR HOLDT, Špela, GANTAR, Polona, BON, Mija, GAPSA, Magdalena, LAVRIČ, Polona, KLEMEN, Matej. Dataset for evaluation of Slovene spell- and grammar-checking tools Šolar-Eval 1.0. Slovenian language resource repository CLARIN.SI, ISSN 2820-4042, http://hdl.handle.net/11356/1902. [COBISS.SI-ID 185626115]

GANTAR, Polona, BON, Mija, GAPSA, Magdalena, ARHAR HOLDT, Špela. Šolar-Eval: evalvacijska množica za strojno popravljanje jezikovnih napak v slovenskih besedilih. Jezik in slovstvo. [Tiskana izd.]. 2023, letn. 68, št. 4, str. 89-108, DOI: 10.4312/jis.68.4.89-108. [COBISS.SI-ID 187559683]

Za učiteljsko evalvacijo smo zbrali 18 učiteljic in učiteljev slovenščine z različnih vrst šol (6 z osnovnih šol, 6 s strokovnih in poklicnih šol in 6 z gimnazij). V raziskavi so si ogledali dve strojno popravljeni avtentični šolski besedili v preprostem vmesniku, pri čemer smo snemali njihov zaslon, minimalno delovno okolje (obraz) in glasno razmišljanje. Samostojni evalvaciji strojnih popravkov so sledili intervjuji, v katerih smo se osredotočili na zmogljivosti in pomanjkljivosti pripravljenih modelov za popravljanje in želje sodelujočih glede dodatnih funkcionalnosti. Rezultate raziskave smo transkribirali in vsebinsko označili, ustrezno anonimizirane bomo objavili v odprtem dostopu.

Orodje za strojno popravljanje vejic smo evalvirali med študenti in rezultate predstavili na konferenci.

GODEC SORŠAK, Lara. Raba vejice v pisnih besedilih študentov in uporabnost spletnega orodja Vejice 1.0. V: ŠTUMBERGER, Saška (ur.). Predpis in norma v jeziku. Ljubljana: Založba Univerze, 2024. Str. 103-111. Zbirka Obdobja, 43. DOI: 10.4312/Obdobja.43.103-111. [COBISS.SI-ID 215559939]

Razvoj modela za povezavo formativnega spremljanja in množičenja

V tej projektni aktivnosti smo pregledali literaturo in obstoječe aplikativne rešitve na področju formativnega spremljanja za razvoj pisnih kompetenc, pri čemer so nas posebej zanimale možnosti za digitalno podprto učenje po tem modelu. V pripravi je pregledni članek na to temo. Nove rešitve smo iskali na področju množičenja in kolaborativnega sodelovanja učiteljev in učencev. Za raziskovalni primer smo si izbrali vključevanje igrificiranega množičenja v pripravo avtentičnih jezikovnih zgledov, posebej pregledanih in potrjenih za uporabo za pedagoške namene, npr. za pripravo učnih gradiv, vaj in preverjanj znanja. Cilj je prihranek časa, ki ga omogoči sodelovalna priprava gradiv, in formiranje velike, vsem dostopne in ustrezno pregledane zbirke jezikovnih zgledov. Igra z imenom CrowLL (Crowdsourcing for Language Learning), ki vsebuje poleg slovenščine tudi druge jezike, je bila predstavljena na konferencah in v znanstvenem članku.

ZINGANO KUHN, Tanara, ARHAR HOLDT, Špela, KOSEM, Iztok, TIBERIUS, Carole, KOPPEL, Kristina, ZVIEL-GIRSHIN, Rina. Data preparation in crowdsourcing for pedagogical purposes : the case of the CrowLL game. Slovenščina 2.0: empirične, aplikativne in interdisciplinarne raziskave. 2022, letn. 10, št. 2, str. 62-100, DOI: 10.4312/slo2.0.2022.2.62-100. [COBISS.SI-ID 146362883]

ZINGANO KUHN, Tanara, TIBERIUS, Carole, ARHAR HOLDT, Špela, KOPPEL, Kristina, KOSEM, Iztok, ZVIEL-GIRSHIN, Rina, LUÍS, Ana R. Developing manually annotated corpora for teaching and learning purposes of Brazilian Portuguese, Dutch, Estonian, and Slovene (the CrowLL Project). V: LINDÉN, Krister (ur.), NIEMI, Jyrki (ur.), KONTINO, Thalassia (ur.). CLARIN annual conference proceedings 2023: 16 – 18 October 2023 Leuven, Belgium. [S. l.: s. n.], 2023. Str. 173-177. CLARIN Annual Conference Proceedings. https://office.clarin.eu/v/CE-2023-2328_CLARIN2023_ConferenceProceedings.pdf. [COBISS.SI-ID 200002819]

ZINGANO KUHN, Tanara, VORŠIČ, Ines, KOPPEL, Kristina, ARHAR HOLDT, Špela, TIBERIUS, Carole, ZVIEL-GIRSHIN, Rina, KOSEM, Iztok. Annotating corpora for language learning and lexicography with the Crowdsourcing for Language Learning (CrowLL) game. V: MEDVEĎ, Marek (ur.), et al. eLex 2023 : electronic lexicography in the 21st century (eLex 2023): invisible lexicography: book of abstracts : Brno, 27–29 June 2023. Brno: Lexical Computing CZ, 2023. Str. 13-14. https://elex.link/elex2023/wp-content/uploads/elex2023_book_of_abstracts.pdf. [COBISS.SI-ID 184965379]

Na projektu smo raziskali tudi odnos učiteljske skupnosti do množičenja na primeru Slovarja sopomenk sodobne slovenščine – prvega slovenskega slovarja, ki vključuje podatke, ki so jih neposredno prispevali slovarski uporabniki in uporabnice. Slovar ima visoko vrednost za usvajanje besedišča, vendar do sedaj ni bilo raziskano, kako uporabniško sodelovanje ocenjujejo sami slovarski uporabniki (v primerjavi s slovaropisci, ki so slovar zasnovali). Rezultati kažejo, da slovarski uporabniki lahko ponudijo uporabne in relevantne sopomenske kandidate, tudi po presoji učiteljev slovenščine, hkrati pa je pomembno, da so vključeni v procese nadgradnje jezikovnih virov tudi kot ocenjevalci, ki lahko prispevajo svoja mnenja in predloge.

GAPSA, Magdalena, ARHAR HOLDT, Špela. How lexicographers evaluate user contributions in the Thesaurus of Modern Slovene in comparison to dictionary users. V: MEDVEĎ, Marek (ur.), et al. eLex 2023: electronic lexicography in the 21st century (eLex 2023): proceedings of the eLex 2023 conference : [Brno], 27–29 June 2023. Brno: Lexical Computing CZ, 2023. Str. 178-200. Electronic lexicography in the 21st century. Proceedings of eLex … conference. https://elex.link/elex2023/wp-content/uploads/47.pdf. [COBISS.SI-ID 162928387]

GAPSA, Magdalena (2024). Učiteljske ocene uporabniško dodanih sopomenk v Slovarju sopomenk sodobne slovenščine. Jezik in Slovstvo69(4), 35-50. https://doi.org/10.4312/jis.69.4.35-50

Korpusno osnovani in stopenjski scenariji povratnih informacij

Korpusi in odzivni viri prinašajo podatke o realni sodobni jezikovni rabi v širšem kontekstu in različnih sporazumevalnih okoliščinah, zato so temeljna referenca za opismenjevanje. V projektu smo analizirali specifične težave korpusno osnovanih odzivnih slovarjev za šolsko rabo in zagotovili pomembne izboljšave. Korpus Šolar 3.0, ki je osnova za korpusno preučevanje jezikovnih težav in popravkov v šolskem pisanju, smo umestili v zmogljiv specializirani korpusni vmesnik. S tem se je bistveno izboljšala dostopnost do korpusnega gradiva za širšo javnost, npr. za učiteljice in učitelje, ki pripravljajo učno gradivo, študentke in študentke, ki se izobražujejo za učiteljski poklic, in podobno.

KOSEM, Iztok, ARHAR HOLDT, Špela, GANTAR, Polona, KREK, Simon. Collocations Dictionary of Modern Slovene 2.0. V: MEDVEĎ, Marek (ur.), et al. eLex 2023 : electronic lexicography in the 21st century (eLex 2023) : proceedings of the eLex 2023 conference : [Brno], 27–29 June 2023. Brno: Lexical Computing CZ, 2023. Str. 491-507, ilustr. Electronic lexicography in the 21st century. Proceedings of eLex … conference. ISSN 2533-5626. https://elex.link/elex2023/wp-content/uploads/100.pdf. [COBISS.SI-ID 158852867]

ARHAR HOLDT, Špela, GANTAR, Polona, KOSEM, Iztok, PORI, Eva, ROBNIK ŠIKONJA, Marko, KREK, Simon. Thesaurus of Modern Slovene 2.0. V: MEDVEĎ, Marek (ur.), et al. eLex 2023 : electronic lexicography in the 21st century (eLex 2023) : proceedings of the eLex 2023 conference : [Brno], 27–29 June 2023. Brno: Lexical Computing CZ, 2023. Str. 366-381, ilustr. Electronic lexicography in the 21st century. Proceedings of eLex … conference. ISSN 2533-5626. https://elex.link/elex2023/wp-content/uploads/82.pdf. [COBISS.SI-ID 158818819

ARHAR HOLDT, Špela, KOSEM, Iztok, STRITAR KUČUK, Mojca. Developing a specialised concordancer for corpora with language corrections. V: TaLC 2024 : 16th Teaching and Language Corpora Conference : July 7th to 10th 2024, Manchester Metropolitan University, Manchester, UK : book of abstracts. [Manchester: Manchester Metropolitan University], 2024. Str. [77]. https://talc2024.co.uk/wp-content/uploads/2024/07/book-of-abstracts-talc-2024_final-4.pdf. [COBISS.SI-ID 204245507]

Korpuse in korpusno osnovane vire za slovenščino, kot so Sloleks 2.0, Sopomenke 2.0, Kolokacije 2.0, referenčni korpus Gigafida 2.0, Šolar 3.0 lahko uporabimo na več načinov: z napotitvijo učenca na določeno mesto jezikovnega vira; z integracijo in prikazom izbranega nabora podatkov v digitalnem orodju; z vključitvijo na jezikoslovnih analizah temelječih razlag, zgledov, vaj. Po pojavu generativne umetne inteligence je treba razmišljati tudi o povratni informaciji, ki jo je mogoče generirati strojno — v podporo učiteljski skupnosti in na način, ki ga slednja ocenjuje za dobrodošlega. Vprašanja o tem smo vključili v intervjuje, ki smo jih opravili z učitelji. Članek z rezultati je v pripravi.

Testiranje povratnih informacij s ciljnimi uporabniškimi skupinami

V projektni prijavi smo napovedali, da bomo podajanje povratnih informacij testirali s fokusnimi skupinami učiteljev in učencev. Tekom projekta smo načrt spremenili, saj (a) postala predvidena metodologija priprave testnega gradiva po širšem pojavu generativne umetne inteligence zastarela in neučinkovita; (b) so predstavniki učiteljske skupnosti na projektu izrazili željo po strokovni konferenci, na kateri bi svoje izkušnje, prakse in mnenja o podajanju povratne informacije predstavili širši javnosti. Na projektu smo zato organizirali konferenco Popravljanje jezika in besedil – učiteljska povratna informacija v šolski praksi. V povezavi z njo smo pripravili zbornik, ki prinaša 25 recenziranih učiteljskih prispevkov, ki se dotikajo popravljanja, povratne informacije, formativnega spremljanja in drugih s projektom povezanih tem. 

PORI, Eva (urednik), ARHAR HOLDT, Špela (urednik). Popravljanje jezika in besedil – učiteljska povratna informacija v šolski praksi: zbornik konference. 1. izd. Ljubljana: Založba Univerze, 2023. Spletni vir, 374 strani, DOI: 10.4312/9789612972394. [COBISS.SI-ID 178525187]

Učiteljska strokovna konferenca

5. aprila 2023 smo na Fakulteti za upravo Univerze v Ljubljani organizirali strokovno konferenco Popravljanje jezika in besedil – učiteljska povratna informacija v šolski praksi.

  • Program in fotografije dogodka si lahko ogledate na tej povezavi.
  • Zbornik recenziranih prispevkov je na voljo tukaj.

Izobraževanje učiteljic in učiteljev

24. novembra 2023 je na Filozofski fakulteti Univerze v Ljubljani v izvedbi Oddelka za slovenistiko potekalo izobraževanje učiteljic in učiteljev. Med predstavljenimi je bila tudi tema Priprava učnih gradiv s korpusom šolskih pisnih izdelkov Šolar 3.0. Spodaj so na voljo gradiva:

  • prosojnice (PDF)
  • smernice za označevanje jezikovnih popravkov v korpusu Šolar (PDF)
  • frekvenčni seznam jezikovnih problemov iz korpusa Šolar (XLSX)
  • demo konkordančnika CJVT (povezava)
  • konkordančnik noSke Clarin.si (povezava)

Vabljeni predavanji na tuji univerzi

  • ARHAR HOLDT, Špela. Leveraging error-annotated corpora and the Svala Tool: the case of Slovene: guest talk at Department of Swedish, Multilingualism, Language Technology, University of Gothenburg, Sweden, 20 June 2023. [COBISS.SI-ID 171445507]
  • ARHAR HOLDT, Špela. A specialised concordancer for corpora with annotated language corrections: invited presentation at Department of Swedish, Multilingualism, and Language Technology, University of Gothenburg, 23rd of April 2024, Gothenburg, Sweden. [COBISS.SI-ID 214135299]