S projektom Empirična podlaga za digitalno podprt razvoj pisne jezikovne zmožnosti (PROP) želimo podpreti učitelje, ki popravljajo in ocenjujejo pisne izdelke učencev. Za razvoj pisne zmožnosti je treba pisanje vaditi, več šolskega pisanja pa pomeni tudi več dela za učitelje. Podajanje individualizirane, ciljno usmerjene formativne povratne informacije, ki pri opismenjevanju dokazano vodi v najboljše rezultate, zahteva od učiteljev ogromno časa, pa tudi podprtost z ustreznimi opisniki, kazalniki in podatki o sodobni jezikovni rabi v različnih komunikacijskih situacijah. Za opismenjevanje v številnih jezikih, tudi slovenščini, ti pogoji niso zagotovljeni, zato je šolskega pisanja izrazito (pre)malo, povratna informacija pa je tipično usmerjena v odpravo površinskih težav, kot so slovnične napake.

Rešitev vidimo v digitalni podpori učiteljskemu delu, ki na eni strani vključuje strojno identifikacijo in vsebinsko kategorizacijo slovničnih napak, ki učitelje razbremeni rutinskih popravkov in jim zagotovi več časa za višje taksonomske cilje, na drugi pa digitalno zasnovan model za podajanje povratne informacije, ki vključuje empirično podprte kazalnike in opisnike, možnost za sodelovalno pripravo korektivnih učnih gradiv, medvrstniško ocenjevanje in dolgoročno spremljanje napredka. Strm porast zmogljivosti na področju procesiranja naravnega jezika, strojnega učenja in korpusnega jezikoslovja zagotavlja dosegljivost teh ciljev, o čemer pričajo tudi raznovrstna digitalna orodja, prototipi, portali, ki trenutno nastajajo v mednarodnem prostoru. Inovativni del projekta, ki zahteva interdisciplinarno sodelovanje, pa je zasnova rešitev na empiričnih podatkih o realnih učiteljskih praksah in potrebah na eni strani in realni, avtentični sodobni jezikovni rabi na drugi.

V tem oziru je velika prednost, ki jo ima slovenščina v primerjavi z drugimi jeziki, besedilni korpus šolskega pisanja v slovenskih osnovnih in srednjih šolah, ki vsebuje tudi avtentične učiteljske popravke, ročno kategorizirane glede na vrsto popravljenega jezikovnega problema. Ta korpus predstavlja neizkoriščeni potencial za empirične analize avtentične šolske produkcije in jezikovne korekcije, pa tudi za razvoj orodja, ki jezikovne probleme strojno tipizira z upoštevanjem realnih načel učiteljskega popravljanja.

V projektu bomo s podatkovnimi luščenji ter analizami napredno označenih besedilnih korpusov zagotovili empirične podatke za razvojne kazalnike in opisnike za različne stopnje šolanja. Nato bomo uporabili te podatke za pripravo scenarijev povratne jezikoslovne informacije na ravni zapisa in črkovanja, oblikoslovja, besedišča in skladnje. V korpus šolskega pisanja bomo vključili tudi študentsko pisanje in empirično raziskali specifike podajanja povratne informacije na terciarni ravni izobraževanja. Nadalje, razvili bomo šolski situaciji prilagojeni avtomatski označevalnik jezikovnih težav. Ker so viri, kot je korpus Šolar, izredno redki, bomo program preizkusili tudi na drugih primerljivih učnih množicah in ga adaptirali v smer večje neodvisnosti za prenos metodologije na druge jezike.

Ključni del projekta so uporabniške raziskave, ki bodo obstoječe prakse podajanja povratne informacije za razvoj pisne zmožnosti najprej naslovile s pomočjo spletne ankete, nato pa še s snemanjem zaslona učiteljev med popravljanjem v digitalnem okolju. Učitelje in učence z različnih stopenj šolanja bomo v projekt vključili tudi kot evalvatorje razvitih rešitev. Nenazadnje, povezali bomo spoznanja s področja formativnega spremljanja in množičenja na področju jezikovnega izobraževanja in oblikovali strategijo, ki bo vsebovala nujno potrebne etične razmisleke glede vpeljevanja digitalne podpore za razvoj pisne zmožnosti.

Korpusi in korpusni podatki: napredno strojno označiti korpus šolskega pisanja, korpus šolskih učbenikov in korpus mladinske književnosti in s podatkovnimi luščenji ter korpusnimi analizami zagotoviti empirične podatke za razvojne kazalnike in opisnike za različne stopnje šolanja; uporabiti te podatke za pripravo scenarijev povratne informacije na ravni zapisa in črkovanja, oblikoslovja, besedišča in skladnje; zgraditi pilotski korpus študentskega pisanja in ga vključiti v vse naštete korake.

Programski modul: razviti programski modul, ki avtomatsko identificira in vsebinsko kategorizira jezikovne napake na različnih jezikovnih ravninah; prilagoditi delovanje programa učiteljskim potrebam in specifikam podajanja povratne informacije na posamezni stopnji šolanja; zagotoviti podstave za prenos metodologije tudi na druge jezike.

Uporabniške raziskave: empirično raziskati obstoječe učiteljske prakse podajanja povratne informacije za razvoj pisne zmožnosti s pomočjo (a) spletnega anketiranja in (b) snemanja zaslona med popravljanjem v digitalnem okolju; zagotoviti možnost primerljivih raziskav tudi za druge jezike; vključiti učitelje/predavatelje v evalvacijo avtomatskega označevalnika in učitelje/predavatelje ter učence/dijake/študente v evalvacijo korpusno osnovanih povratnih informacij.

Modeli in strategije: povezati spoznanja s področja formativnega spremljanja in množičenja na področju jezikovnega izobraževanja in pripraviti model za digitalno podprto posredovanje povratnih informacij za razvoj pisnih kompetenc; oblikovati strategijo digitalno podprtega razvoja pisnih kompetenc.

Diseminacija raziskovalnih rezultatov: zagotoviti rezultate v skladu z Nacionalno strategijo odprtega dostopa do znanstvenih objav in znanstvenih podatkov; obveščati znanstveno in splošno javnost o rezultatih projekta (znanstvene objave, dogodki, spletna stran) in spodbujati nadaljnjo uporabo.

1. Korpusne analize pisne produkcije na različnih stopnjah šolanja
– Priprava korpusnih podatkov za jezikoslovne in strojne naloge [M1-6]
– Priprava pilotskega korpusa študentskih besedil [M1-12]
– Kvantitativne in kvalitativne jezikoslovne analize šolskega pisanja [M1-18]
– Empirični podatki za razvojne kazalnike na ravni besedišča in skladnje [M7-18]
2. Na praksah temelječ model digitalno podprtega razvoja pisnih kompetenc
– Anketna raziskava učiteljskih praks pri razvoju pisnih kompetenc [M1-18]
– Snemanje popravljanja šolske produkcije in polstrukturirani intervjuji [M10-24]
– Oblikovanje strategije digitalno podprtega razvoja pisnih kompetenc [M19-35]
3. Razvoj in evalvacija strojne identifikacije in kategorizacije jezikovnih težav
– Izdelava modela za avtomatsko označevanje napak [M7-35]
– Testiranje prenosljivosti metodologije na druge jezike [M25-35]
– Jezikoslovna in učiteljska evalvacija avtomatskega označevanja [M13-35]
4. Podajanje povratne informacije v digitalnem okolju
– Razvoj modela za povezavo formativnega spremljanja in množičenja [M7-18]
– Korpusno osnovani in stopenjski scenariji povratnih informacij [M13-24]
– Testiranje povratnih informacij s ciljnimi uporabniškimi skupinami [M22-35]
5. Koordinacija in diseminacija
– Koordinacija, poročanje in obveščanje [M1-36]
– Znanstvene objave in raziskovalni podatki [M1-36]

Univerza v Ljubljani, Filozofska fakulteta
– Špela Arhar Holdt, 27674
– Iztok Kosem, 33796
– Polona Gantar, 16313
– Marko Stabej, 11651
– Teja Goli, 52176
– Magdalena Gapsa, 53628
– Mija Bon, 51891

Univerza v Ljubljani, Fakulteta za računalništvo in informatiko
– Marko Robnik-Šikonja, 15295
– Simon Krek, 26166
– Matej Ulčar, 55173
– Aleš Žagar, 56007
– Matej Klemen, 55754

Univerza v Ljubljani, Fakulteta za upravo
– Tadeja Rozman, 25578

Univerza v Ljubljani, Pedagoška fakulteta
– Karmen Pižorn, 21612
– Alenka Rot Vrhovec, 34816
– Lara Godec Soršak, 25590
– Milena Košak Babuder, 26199
– Tomaž Petek, 32433

Priprava korpusnih podatkov za jezikoslovne in strojne naloge

Za projektne raziskave in širšo javnost smo pripravili tri besedilne korpuse, specializirane za pedagoško rabo: korpus šolskih pisnih izdelkov Šolar 3.0, korpus odprto dostopnih šolskih učbenikov ccUčbeniki 1.0 in korpus mladinske književnosti ccMaks 1.0.

Pred začetkom projekta je bil korpus Šolar dostopen v različici 2.0, korpus Maks prek konkordančnikov (ne pa kot baza), korpus Učbeniki pa širši javnosti ni bil na voljo. Vsi trije viri so bili jezikoslovno označeni, vendar z raznolikimi označevalniki.

V projektu smo korpuse enotno označili z najsodobnejšimi orodji za slovenščino, kar omogoča zanesljivejšo primerjavo med podatki, in na višjih jezikovnih ravneh, kar omogoča napredne jezikoslovne in strojne analize besedil, pa tudi boljšo izrabo podatkov za strojno učenje.

Korpuse smo označili z orodjem CLASSLA v1.1.1 na ravni tokenizacije, segmentacije, lematizacije in oblikoskladnje po sistemu MULTEXT-East v6, odvisnostne skladnje JOS in imenskih entitet. Podatkovne baze so odprto na voljo na repozitoriju CLARIN.SI:

– Špela Arhar Holdt, Tadeja Rozman, Mojca Stritar Kučuk, Simon Krek, Irena Krapš Vodopivec, Marko Stabej, Eva Pori, Teja Goli, Polona Lavrič, Cyprian Laskowski, Polonca Kocjančič, Bojan Klemenc, Luka Krsnik, Iztok Kosem (2022). Developmental corpus Šolar 3.0, Slovenian language resource repository CLARIN.SI, http://hdl.handle.net/11356/1589.

– Iztok Kosem, Eva Pori, Aleš Žagar, Špela Arhar Holdt (2022). Corpus of Slovenian textbooks ccUčbeniki 1.0, Slovenian language resource repository CLARIN.SI, http://hdl.handle.net/11356/1693.

– Darinka Verdonik, Sandi Majninger, Kaja Dobrovoljc, Špela Antloga, Aleksandra Zögling Markuš, Ines Voršič, Melita Zemljak Jontes, Mihaela Koletnik, Alenka Valh Lopert, Polonca Šek Martük, Iztok Kosem, Simona Majhenič, Marko Ferme, Aleš Žagar, Špela Arhar Holdt (2022). Corpus of Slovenian texts for pedagogical purposes ccMAKS 1.0, Slovenian language resource repository CLARIN.SI, http://hdl.handle.net/11356/1692.

Novosti v metodologiji priprave korpusov usvajanja jezika, med katere spada tudi Šolar, smo predstavili na konferenci Obdobja 2022:

– Špela Arhar Holdt, Iztok Kosem, Mojca Stritar Kučuk (2022). Metode in orodja za lažjo pripravo korpusov usvajanja jezika. V: Pirih Svetina, Nataša (ur.), Ferbežar, Ina (ur.). Na stičišču svetov: slovenščina kot drugi in tuji jezik. Ljubljana: Založba Univerze, 23-30.

Priprava pilotskega korpusa študentskih besedil

Na projektu pripravljamo pilotni korpus, ki vsebuje pisne izdelke študentov, skupaj s profesorskimi povratnimi informacijami. Korpus služi za razvoj metodologije gradnje tovrstnih korpusov, kot smo predstavili strokovni skupnosti:

– Tadeja Rozman in Špela Arhar Holdt (2022). Gradnja Korpusa študentskih besedil KOŠ. V: Fišer, Darja (ur.), Erjavec, Tomaž (ur.). Jezikovne tehnologije in digitalna humanistika: zbornik konference: 15.-16. september 2022, Ljubljana, Slovenija. Ljubljana: Inštitut za novejšo zgodovino, 267-270. Posnetek predstavitve.

Do konca leta 2022 smo zbrali 293 besedil (v obsegu 297.422 besed) s Fakultete za upravo ter Pedagoške fakultete Univerze v Ljubljani. Za lažje strukturiranje korpusa smo pripravili anketo, s katero raziskujemo prakse popravljanja besedil na terciarnem nivoju. Uredili smo tudi pravna vprašanja zbiranja gradiva, da bo javnosti lahko na voljo v odprtem dostopu.

– Pogodba za študente: digitalni podpis / ročni podpis.

– Pogodba za profesorje: digitalni podpis / ročni podpis.

Kvantitativne in kvalitativne jezikoslovne analize šolskega pisanja

Z naprednim luščenjem podatkov iz korpusa Šolar 3.0 smo pripravili frekvenčni seznam jezikovnih zadreg, ki vsebuje 36.570 povedi šolskega pisanja z učiteljskim popravkom napake. Popravki so ročno kategorizirani glede na vsebino v 180 različnih vrst. Vsaka poved je opremljena z metapodatki, kot so vrsta izhodiščnega besedila, izobraževalna stopnja avtorice/avtorja ter vrsta in regija šole, kjer je besedilo nastalo.

Namen podatkovne zbirke je omogočiti lažji dostop korpusnih informacij za didaktične namene, statistične analize jezikovnih težav v slovenskih šolah ter za namene strojnega učenja.

Špela Arhar Holdt, Tadeja Rozman, Mojca Stritar Kučuk, Simon Krek, Irena Krapš Vodopivec, Marko Stabej, Eva Pori, Teja Goli, Polona Lavrič, Cyprian Laskowski, Polonca Kocjančič, Bojan Klemenc, Luka Krsnik, Aleš Žagar, Iztok Kosem (2022). Frequency list of language problems from Šolar 3.0, Slovenian language resource repository CLARIN.SI, http://hdl.handle.net/11356/1716.

Empirični podatki za razvojne kazalnike na ravni besedišča in skladnje

Vzpostavili smo metodologijo za luščenje seznamov temeljnega besedišča iz pedagoških korpusov. V medprojektnem sodelovanju smo jo preizkusili na področju slovenščine kot drugega/tujega jezika. Rezultat je korpusno osnovan seznam jedrnega besedišča za stopnje A1, A2 ter B1 po Skupnem evropskem jezikovnem okviru (SEJO), ki ga predstavlja spodnji prispevek.

– Matej Klemen, Špela Arhar Holdt, Senja Pollak, Iztok Kosem, Damjan Huber, Mateja Lutar (2022). Korpus učbenikov za učenje slovenščine kot drugega in tujega jezika. V: Pirih Svetina, Nataša (ur.), Ferbežar, Ina (ur.). Na stičišču svetov: slovenščina kot drugi in tuji jezik. Ljubljana: Založba Univerze, 165-174.

Anketna raziskava učiteljskih praks pri razvoju pisnih kompetenc

Pripravili smo anketni vprašalnik za učitelje na osnovnih in srednjih šolah, ki pri svojem delu usmerjajo tvorjenje zapisanih besedil. Vsebuje 50 vprašanj in je razdeljen na demografski in vsebinski del: o popravljanju besedil, o virih, jezikovnih pripomočkih in orodjih, ki jih učitelji pri tem uporabljajo, o povratnih informacijah, ki naj bi jih prejeli učeči se, o spremljanju napredka učencev/dijakov pri pisanju besedil ter o popravljanju besedil učencev/dijakov s posebnimi potrebami. Slovenska anketa je v teku, pripravili pa smo tudi angleško različico vprašalnika za ponovljivost raziskave v mednarodnem prostoru.

– Validirani anketni vprašalnik v slovenski in angleški različici.

Učiteljice in učitelje vabimo k sodelovanju na strokovni konferenci Popravljanje jezika in besedil – učiteljska povratna informacija v šolski praksi, ki bo potekala 5. aprila 2023. Informacije in prijavni obrazec so na voljo na spletni strani https://www.cjvt.si/blog/konferenca-prop/.

Na projektu tečeta dve raziskavi o praksah popravljanja jezika in besedil v slovenskem izobraževalnem sistemu:

  • za učiteljice in učitelje v osnovnih ter srednjih šolah (anketa),
  • za predavateljice in predavatelje na terciarni stopnji (anketa).

Prijazno vabljeni k sodelovanju!