Korpus Šolar
Razvojni korpus Šolar vsebuje besedila, ki so jih učenci slovenskih osnovnih in srednjih šol samostojno tvorili pri pouku. V besedilih so tudi učiteljski popravki.
Razvojni korpus Šolar vsebuje besedila, ki so jih učenci različnih slovenskih osnovnih in srednjih šol samostojno tvorili pri pouku. Velik del besedil vsebuje tudi učiteljske (jezikovne in vsebinske) popravke.
Šolar je narejen po vzoru korpusov usvajanja jezikov, vendar pa se razlikuje v tem, da (a) besedila niso nastala na pobudo projekta, ampak predstavljajo dejansko šolsko produkcijo učencev in dijakov, (b) so jezikovni popravki, ki so označeni v korpusu, realni, naredili pa so jih učitelji in ne raziskovalci. Zaradi teh značilnosti je Šolar dragocen in edinstven vir ne samo v slovenskem, ampak tudi v mednarodnem merilu.
POVEZAVE IN KONTAKT
dr. Špela Arhar Holdt
Fakulteta za računalništvo in informatiko UL
Večna pot 113
1000 Ljubljana
- E-pošta: spela.arharholdt@ff-uni-lj.si
Trenutna verzija, Šolar 3.0, vsebuje 5.485 besedil, ki so jih napisali dijaki slovenskih srednjih šol (15–19 let) in učenci 7.–9. razreda osnovne šole, v majhnem odstotku tudi iz 6. razreda. Za vsako besedilo so navedeni podatki o šoli (osnovna ali srednja), predmet, stopnja (razred ali letnik), vrsta besedila, regija in leto izdelave. Večino korpusa predstavljajo eseji, so v pa korpusu še druga besedila, ki so nastala med poukom, kot so povzetki ali opisi besedil, primeri formalnih prijav ipd. Več o korpusu Šolar 3.0 je mogoče prebrati v tem znanstvenem prispevku.
Del korpusa (2.094 besedil) vsebuje učiteljske popravke, ki so tudi vsebinsko razvrščeni po sistemu, opisanem v smernicah za označevanje. Oznake popravkov (v korpusu jih je več kot 35.000) so podrobnejše kot pri drugih podobnih projektih, kar je koristno za pripravo učnih gradiv, orodij za strojno popravljanje slovenskih besedil ipd. Popravki kot avtentični primeri podajanja povratne informacije za razvoj pisne zmožnosti so dragoceni za izobraževanje bodočih učiteljic in učiteljev, jezikovnodidaktične raziskave ipd.
Različne verzije korpusa so na voljo v repozitoriju CLARIN.SI pod odprto licenco, kar pomeni, da jih je mogoče uporabljati za različne raziskovalne in razvojne namene. Povezave najdete v rubriki Podatkovne baze na naši spletni strani. Poleg tega so na CLARIN.SI na voljo tudi predpripravljeni izvozi korpusnih podatkov, kot so frekvenčni seznam jezikovnih popravkov, seznam kolokacij in seznam skladenjskih struktur.
Ker je priprava korpusov z označenimi popravki izredno zamudna, je ključno poskrbeti, da so podatki enostavno dostopni za različne vrste rabe. Na CJVT smo zato razvili nov format, pa tudi povsem nov korpusni konkordančnik za tovrstne korpuse. Ta za razliko od predhodnih podobnih orodij omogoča zmogljivo iskanje in pregledno rabo rezultatov, zlasti ko gre za bogate korpusne metaoznake in jezikovne popravke.
Šolar 3.0 v konkordančniku CJVT je na voljo spodaj.