Evalvacijska množica za strojno popravljanje slovenskih besedil Šolar-Eval 1.0

Za učinkovito učenje in evalvacijo strojnega popravljanja napak je potrebna množica dosledno in enotno popravljenih besedil. Dosedanje študije so v ta namen uporabljale besedila iz razvojnega korpusa Šolar, ki zajema samostojno tvorjene šolske spise z vključenimi učiteljskimi popravki in s tem predstavlja izjemno dragocen vir za opazovanje avtentične povratne informacije v kontekstu razvoja pisnih zmožnosti. A ker so učiteljski popravki neenotni in nedosledni, je uporabnost besedil iz korpusa z vidika strojnega procesiranja besedil za namene razvoja in evalvacije strojnega popravljanja napak precej majhna.

Da bi naslovili ta problem, smo v okviru projekta Empirična podlaga za digitalno podprt razvoj pisne jezikovne zmožnosti (PROP) izdelali evalvacijsko množico, ki jo sestavlja 109 šolskih spisov iz korpusa Šolar, popravljenih po enotnih kriterijih. Smernice so podrobneje predstavljene v prispevku Šolar-Eval: evalvacijska množica za strojno popravljanje jezikovnih napak v slovenskih besedilih, ki bo kmalu izšel v tematski številki Jezika in slovstva. Popravljanje je potekalo v orodju CJVT Svala 1.0.

Med popravljanjem besedil smo naslavljali različne popravke, na sliki prikazujemo, kako v programu Svala zgleda izvorni stavek z dodanimi popravki.

Evalvacijska množica Šolar-Eval vsebuje 9.808 vsebinsko kategoriziranih napak, vključno s podrobno kategorizacijo napak vejice, ki so bile natančneje analizirane in predstavljene v prispevku z naslovom Analiza napak pri rabi vejice v šolskih spisih na 13. Škrabčevih dnevih v Novi Gorici.

S klikom na spodnje gumbe dostopate do učne množice Šolar-Eval 1.0, korpusa Šolar 3.0 in orodja CJVT Svala 1.0.

Raziskovalni projekt Empirična podlaga za digitalno podprt razvoj pisne jezikovne zmožnosti (J7-3159) v letih 2021 do 2024 (so)financira Javna agencija za znanstvenoraziskovalno in inovacijsko dejavnost Republike Slovenije (ARIS).