Korpus Šolar

Korpus šolskih pisnih izdelkov Šolar je korpus besedil, ki so jih učenci slovenskih osnovnih in srednjih šol samostojno tvorili pri pouku. Korpus je nastal v okviru projekta Sporazumevanje v slovenskem jeziku v letih 2009–2010, vsebuje pa skoraj milijon besed oz. natančno 967.477 besed. Gre za prvi tovrstni korpus besedil v Sloveniji, ki je narejen po vzoru korpusov usvajanja jezikov, vendar pa se od večine teh korpusov razlikuje v tem, da (a) besedila niso nastala na pobudo projekta, ampak predstavljajo dejansko šolsko produkcijo učencev in dijakov, (b) so jezikovni popravki, ki so označeni v korpusu, realni, naredili pa so jih učitelji in ne raziskovalci. Zaradi izrabe učiteljskih popravkov za namene označevanja jezikovnih napak učencev je korpus edinstven ne samo v slovenskem, ampak tudi v evropskem oziroma svetovnem merilu.

V letih 2015–2018 je potekal projekt nadgradnje korpusa Šolar (Šolar 2.0), zbirke besedil osnovnošolcev in srednješolcev, ki vsebuje skoraj milijon besed. Zbrali smo 2782 novih besedil, ki so morala izpolnjevati spodnje kriterije. Pri zbiranju so bili upoštevani naslednji kriteriji:

  • zbirala so se besedila učencev 6.–9. razreda OŠ in dijakov vseh letnikov srednjih šol;
  • besedilo je moralo imeti vsaj 40 besed, da je bilo vključeno v korpus;
  • prednost so imela besedil iz regije in šol, ki so bile v prvi verziji korpusa slabše zastopane.

Projekt je uspel pokriti veliko mankov prejšnje verzije korpusa, še vedno pa ostaja nekaj dela za naprej.

POVEZAVE IN KONTAKT

Center za jezikovne vire in tehnologije, Univerza v Ljubljani Večna pot 113, SI-1000 Ljubljana