Na Univerzi v Ljubljani poteka raziskovalni projekt Empirična podlaga za digitalno podprt razvoj pisne jezikovne zmožnosti (PROP). Pri njem sodelujejo sodelavke in sodelavci s štirih fakultet: s Filozofske fakultete, Fakultete za računalništvo in informatiko, Fakultete za upravo in Pedagoške fakultete.
V okviru projekta smo razvili strojni črkovalnik SloNSpell, ki temelji na nevronskem jezikovnem modelu SloBERTa. Model sprejme uporabniško besedilo, ki potencialno vsebuje črkovalne napake, in za vsako besedo oceni verjetnost, da je črkovana napačno. Če je za besedo verjetnost dovolj visoka, jo model označi kot napačno črkovano. Model je naučen na veliki zbirki besedil, v katera smo vstavili umetno ustvarjene črkovalne napake.
Črkovalnik uspešno prepoznava napake v različnih vrstah besedil in deluje bolje od obstoječih rešitev za slovenščino. Pri oceni uporabnosti orodja v šolskem okolju je bila dodatna pozornost posvečena lažno zaznanim napakam in zmanjšanju njihove pogostosti. Ker model temelji na statistični oceni verjetnosti, se vseeno lahko zmoti, kar je pri njegovi rabi treba upoštevati.
Postopek razvoja in evalvacije smo natančneje opisali v znanstvenem članku Neural spell-checker: Beyond words with synthetic data generation (avtorji: Matej Klemen, Martin Božič, Špela Arhar Holdt in Marko Robnik Šikonja), ki bo jeseni 2024 predstavljen na konferenci TSD 2024. V članku je med drugim predstaviljen tudi preprostejši in hitrejši črkovalnik SloSpell, ki črkovalne napake zazna s preverjanjem obstoja besede v morfološkem slovarju Sloleks 3.0.
Vmesnik za dostop do modela je trenutno v fazi testiranja, uteži modela pa so dostopne na repozitoriju Hugging Face.
Raziskovalni projekt je (so)financiran s strani Javne agencije za znanstvenoraziskovalno in inovacijsko dejavnost Republike Slovenije (ARIS J7-3159).