S projektom Empirična podlaga za digitalno podprt razvoj pisne jezikovne zmožnosti želimo podpreti učitelje, ki popravljajo in ocenjujejo pisne izdelke učencev. Za razvoj pisne zmožnosti je treba pisanje vaditi, več šolskega pisanja pa pomeni tudi več dela za učitelje. Podajanje individualizirane, ciljno usmerjene formativne povratne informacije, ki pri opismenjevanju dokazano vodi v najboljše rezultate, zahteva od učiteljev ogromno časa, pa tudi podprtost z ustreznimi opisniki, kazalniki in podatki o sodobni jezikovni rabi v različnih komunikacijskih situacijah. Za opismenjevanje v številnih jezikih, tudi slovenščini, ti pogoji niso zagotovljeni, zato je šolskega pisanja izrazito (pre)malo, povratna informacija pa je tipično usmerjena v odpravo površinskih težav, kot so slovnične napake.

Rešitev vidimo v digitalni podpori učiteljskemu delu, ki na eni strani vključuje strojno identifikacijo in vsebinsko kategorizacijo slovničnih napak, ki učitelje razbremeni rutinskih popravkov in jim zagotovi več časa za višje taksonomske cilje, na drugi pa digitalno zasnovan model za podajanje povratne informacije, ki vključuje empirično podprte kazalnike in opisnike, možnost za sodelovalno pripravo korektivnih učnih gradiv, medvrstniško ocenjevanje in dolgoročno spremljanje napredka. Strm porast zmogljivosti na področju procesiranja naravnega jezika, strojnega učenja in korpusnega jezikoslovja zagotavlja dosegljivost teh ciljev, o čemer pričajo tudi raznovrstna digitalna orodja, prototipi, portali, ki trenutno nastajajo v mednarodnem prostoru. Inovativni del projekta, ki zahteva interdisciplinarno sodelovanje, pa je zasnova rešitev na empiričnih podatkih o realnih učiteljskih praksah in potrebah na eni strani in realni, avtentični sodobni jezikovni rabi na drugi.

V tem oziru je velika prednost, ki jo ima slovenščina v primerjavi z drugimi jeziki, besedilni korpus šolskega pisanja v slovenskih osnovnih in srednjih šolah, ki vsebuje tudi avtentične učiteljske popravke, ročno kategorizirane glede na vrsto popravljenega jezikovnega problema. Ta korpus predstavlja neizkoriščeni potencial za empirične analize avtentične šolske produkcije in jezikovne korekcije, pa tudi za razvoj orodja, ki jezikovne probleme strojno tipizira z upoštevanjem realnih načel učiteljskega popravljanja.

V projektu bomo s podatkovnimi luščenji ter analizami napredno označenih besedilnih korpusov zagotovili empirične podatke za razvojne kazalnike in opisnike za različne stopnje šolanja. Nato bomo uporabili te podatke za pripravo scenarijev povratne jezikoslovne informacije na ravni zapisa in črkovanja, oblikoslovja, besedišča in skladnje. V korpus šolskega pisanja bomo vključili tudi študentsko pisanje in empirično raziskali specifike podajanja povratne informacije na terciarni ravni izobraževanja. Nadalje, razvili bomo šolski situaciji prilagojeni avtomatski označevalnik jezikovnih težav. Ker so viri, kot je korpus Šolar, izredno redki, bomo program preizkusili tudi na drugih primerljivih učnih množicah in ga adaptirali v smer večje neodvisnosti za prenos metodologije na druge jezike.

Ključni del projekta so uporabniške raziskave, ki bodo obstoječe prakse podajanja povratne informacije za razvoj pisne zmožnosti najprej naslovile s pomočjo spletne ankete, nato pa še s snemanjem zaslona učiteljev med popravljanjem v digitalnem okolju. Učitelje in učence z različnih stopenj šolanja bomo v projekt vključili tudi kot evalvatorje razvitih rešitev. Nenazadnje, povezali bomo spoznanja s področja formativnega spremljanja in množičenja na področju jezikovnega izobraževanja in oblikovali strategijo, ki bo vsebovala nujno potrebne etične razmisleke glede vpeljevanja digitalne podpore za razvoj pisne zmožnosti.

Korpusi in korpusni podatki: napredno strojno označiti korpus šolskega pisanja, korpus šolskih učbenikov in korpus mladinske književnosti in s podatkovnimi luščenji ter korpusnimi analizami zagotoviti empirične podatke za razvojne kazalnike in opisnike za različne stopnje šolanja; uporabiti te podatke za pripravo scenarijev povratne informacije na ravni zapisa in črkovanja, oblikoslovja, besedišča in skladnje; zgraditi pilotski korpus študentskega pisanja in ga vključiti v vse naštete korake.

Programski modul: razviti programski modul, ki avtomatsko identificira in vsebinsko kategorizira jezikovne napake na različnih jezikovnih ravninah; prilagoditi delovanje programa učiteljskim potrebam in specifikam podajanja povratne informacije na posamezni stopnji šolanja; zagotoviti podstave za prenos metodologije tudi na druge jezike.

Uporabniške raziskave: empirično raziskati obstoječe učiteljske prakse podajanja povratne informacije za razvoj pisne zmožnosti s pomočjo (a) spletnega anketiranja in (b) snemanja zaslona med popravljanjem v digitalnem okolju; zagotoviti možnost primerljivih raziskav tudi za druge jezike; vključiti učitelje/predavatelje v evalvacijo avtomatskega označevalnika in učitelje/predavatelje ter učence/dijake/študente v evalvacijo korpusno osnovanih povratnih informacij.

Modeli in strategije: povezati spoznanja s področja formativnega spremljanja in množičenja na področju jezikovnega izobraževanja in pripraviti model za digitalno podprto posredovanje povratnih informacij za razvoj pisnih kompetenc; oblikovati strategijo digitalno podprtega razvoja pisnih kompetenc.

Diseminacija raziskovalnih rezultatov: zagotoviti rezultate v skladu z Nacionalno strategijo odprtega dostopa do znanstvenih objav in znanstvenih podatkov; obveščati znanstveno in splošno javnost o rezultatih projekta (znanstvene objave, dogodki, spletna stran) in spodbujati nadaljnjo uporabo.

1. Korpusne analize pisne produkcije na različnih stopnjah šolanja
– Priprava korpusnih podatkov za jezikoslovne in strojne naloge [M1-6]
– Priprava pilotskega korpusa študentskih besedil [M1-12]
– Kvantitativne in kvalitativne jezikoslovne analize šolskega pisanja [M1-18]
– Empirični podatki za razvojne kazalnike na ravni besedišča in skladnje [M7-18]
2. Na praksah temelječ model digitalno podprtega razvoja pisnih kompetenc
– Anketna raziskava učiteljskih praks pri razvoju pisnih kompetenc [M1-18]
– Snemanje popravljanja šolske produkcije in polstrukturirani intervjuji [M10-24]
– Oblikovanje strategije digitalno podprtega razvoja pisnih kompetenc [M19-35]
3. Razvoj in evalvacija strojne identifikacije in kategorizacije jezikovnih težav
– Izdelava modela za avtomatsko označevanje napak [M7-35]
– Testiranje prenosljivosti metodologije na druge jezike [M25-35]
– Jezikoslovna in učiteljska evalvacija avtomatskega označevanja [M13-35]
4. Podajanje povratne informacije v digitalnem okolju
– Razvoj modela za povezavo formativnega spremljanja in množičenja [M7-18]
– Korpusno osnovani in stopenjski scenariji povratnih informacij [M13-24]
– Testiranje povratnih informacij s ciljnimi uporabniškimi skupinami [M22-35]
5. Koordinacija in diseminacija
– Koordinacija, poročanje in obveščanje [M1-36]
– Znanstvene objave in raziskovalni podatki [M1-36]

Univerza v Ljubljani, Filozofska fakulteta
– Špela Arhar Holdt, 27674
– Iztok Kosem, 33796
– Polona Gantar, 16313
– Marko Stabej, 11651
– Teja Goli, 52176
– Magdalena Gapsa, 53628
– Mija Bon, 51891

Univerza v Ljubljani, Fakulteta za računalništvo in informatiko
– Marko Robnik-Šikonja, 15295
– Simon Krek, 26166
– Matej Ulčar, 55173
– Aleš Žagar, 56007
– Matej Klemen, 55754

Univerza v Ljubljani, Fakulteta za upravo
– Tadeja Rozman, 25578

Univerza v Ljubljani, Pedagoška fakulteta
– Karmen Pižorn, 21612
– Alenka Rot Vrhovec, 34816
– Lara Godec Soršak, 25590
– Milena Košak Babuder, 26199
– Tomaž Petek, 32433

Prvi paket prosto dostopnih projektnih rezultatov je načrtovan za 12. projektni mesec – oktober 2022.