Nadgradnja korpusov Gigafida, Kres, ccGigafida in ccKres

Junija 2019 je bila javno objavljena nova različica korpusa Gigafida – Gigafida 2.0, korpus standardne pisne slovenščine kot rezultat projekta Nadgradnja korpusov Gigafida, Kres, ccGigafida in ccKres, ki ga je financiralo Ministrstvo za kulturo v letih 2015–2018, v okviru Univerze v Ljubljani pa ga je izvajal Center za jezikovne vire in tehnologije (št. pogodbe 33400-15-141007).

Bistvene novosti, ki jih prinašajo nove različice korpusov, so naslednje: Vključevanje besedil, ki so bila v izvornih različicah slabo reprezentirana. Gre predvsem za šolska gradiva (učbeniki, šolsko branje) in pogosto brana leposlovna dela. Obenem so bila dodana besedila izbranih spletnih besedilodajalcev (novičarski portali, dnevni časopisi ipd.), kar izboljšuje ažurnost korpusnega gradiva. Na tehnični ravni so posodobitve vključevale razvoj postopkov za odstranjevanje podvojenih besedil, izboljšanje natančnosti jezikoslovnega označevanja in ločevanje besedil v standardnem jeziku od besedil, ki se iz različnih razlogov od standarda odmikajo. Za posodobljeno različico korpusa Gigafida smo razvili tudi nov uporabniški vmesnik, ki smo ga zasnovali na podlagi predhodnih uporabniških raziskav in v skladu s celostno podobo virov, izdelanih v okviru Centra za jezikovne vire in tehnologije.

Gigafida 2.0, korpus standardne pisne slovenščine predstavlja temelj za jezikoslovne raziskave ter pripravo sodobnih jezikovnih priročnikov in jezikovnotehnoloških izdelkov za slovenščino. Na njegovi podlagi bodo v prihodnje izdelane sodobnejše različice Slovarja sopomenk sodobne slovenščine in Kolokacijskega slovarja sodobne slovenščine kot tudi digitalna slovarska baza za pripravo Slovarja sodobnega slovenskega jezika.

POVEZAVE IN KONTAKT

Center za jezikovne vire in tehnologije, Univerza v Ljubljani
Večna pot 113, SI-1000 Ljubljana