O PROJEKTU

Besedilni korpusi Gigafida, Kres, ccGigafida in ccKres so temelj za pripravo sodobnih jezikovnih priročnikov in jezikovnotehnoloških izdelkov za slovenščino, vendar lahko služijo svojemu namenu le, če je zagotovljeno njihovo sprotno posodabljanje in nadgrajevanje.

Projekt Nadgradnja korpusov Gigafida, Kres, ccGigafida in ccKres je financiralo Ministrstvo za kulturo v letih 2015–2018 v okviru pogodbe št. 33400-15-141007 med ministrstvom in Univerzo v Ljubljani, kjer je bil izvajalec Center za jezikovne vire in tehnologije. Projekt je imel tri cilje: usmerjeno zbiranje novih gradiv; strojna obdelava novih (in obstoječih) gradiv; javna dostopnost in diseminacija nadgrajenih korpusov.

Pri zbiranju novega gradiva smo se osredotočili na besedila, ki so v izvorni različici korpusov Gigafida in Kres slabo reprezentirana, predvsem na šolska gradiva (učbeniki, šolsko branje) in pogosto brana leposlovna dela. Na drugi strani smo dodali besedila izbranih spletnih besedilodajalcev (novičarski portali, dnevni časopisi ipd.), kar izboljšuje ažurnost korpusnega gradiva. Posodobitve na tehnični ravni so naslednje: razvili smo postopke za odstranjevanje podvojenih besedil, izboljšali natančnost jezikoslovnega označevanja in ločili besedila v standardnem jeziku od besedil, ki se iz različnih razlogov od standarda odmikajo.