FORGOT YOUR DETAILS?

Nadgradnja korpusov Gigafida, Kres, ccGigafida in ccKres

Besedilni korpusi Gigafida, Kres, ccGigafida in ccKres so temelj za pripravo sodobnih jezikovnih priročnikov in jezikovnotehnoloških izdelkov za slovenščino. Korpusa Gigafida in Kres sta na voljo v uporabniško prijaznem vmesniku in kot taka pogosto rabljena med jezikoslovci, prevajalci, lektorji, učitelji in v drugih podobnih uporabniških skupinah. Korpusi Gigafida, Kres, ccGigafida in ccKres so izrednega pomena za raziskave in razvoj jezika, vendar lahko služijo svojemu namenu le, če je zagotovljeno njihovo sprotno posodabljanje in nadgrajevanje.

Projekt Nadgradnja korpusov Gigafida, Kres, ccGigafida in ccKres financira Ministrstvo za kulturo v letih 2015–2018 v okviru pogodbe št. 33400-15-141007 med ministrstvom in Univerzo v Ljubljani. Izvajalec je Center za jezikovne vire in tehnologije. Projekt ima tri cilje: usmerjeno zbiranje novih gradiv; strojna obdelava novih (in obstoječih) gradiv; javna dostopnost in diseminacija nadgrajenih korpusov.

Pri zbiranju novega gradiva se bomo osredotočili na besedila, ki so trenutno v korpusih Gigafida in Kres slabo reprezentirana, predvsem na šolsko branje in druga pogosto brana leposlovna dela. Na drugi strani bomo dodali besedila izbranih spletnih besedilodajalcev (novičarski portali, dnevni časopisi ipd.), kar bo zagotovilo večjo aktualnost korpusnega gradiva. Nova gradiva bodo predstavljala približno četrtino korpusnega obsega, kar pri korpusu Gigafida npr. pomeni povečanje z 1,2 na okrog 1,5 milijarde besed. Korpusi bodo posodobljeni tudi na tehnični ravni: razvili bomo postopke za odstranjevanje podvojenih besedil, izboljšali natančnost jezikoslovnega označevanja in na ravni podkorpusov ločili besedila v standardnem jeziku od besedil, ki se iz različnih razlogov od standarda odmikajo.

TOP

Z nadaljevanjem uporabe teh strani se strinjate z uporabo piškotkov. Več informacij

To spletno mesto uporablja tehnologijo “piškotkov” (cookies), da lahko razločujemo med obiskovalci in izvajamo statistiko uporabe spletne strani. To nam omogoča sprotno izboljševanje delovanja strani. Uporabniki, ki ne dovolijo zapisa "piškotka" naše strani v svoj računalnik, bodo ob pregledu spletne strani prikrajšani za nekatere od njenih funkcionalnosti (ogled videa, povezava do Facebooka, ipd). Piškotki so majhne datoteke, ki jih sistem obiskane spletne strani zapiše na vaš računalnik. Tako vas sistem ob naslednjem obisku strani lahko prepozna.

Na tem spletnem mestu uporabljamo naslednje vrste piškotkov:


Piškotki lastnih spletnih strani


wordpress_test_cookie: ugotovi, ali lahko vaš brskalnik sprejme piškotke. Trajanje do konca seje.

_icl_current_language: WPML piškotek, zapomni si izbiro jezika. Traja 24 ur.

euCookie: shrani odločitev uporabnika o strinjanju s piškotki. Trajanje do konca seje.


Piškotki tretjih spletnih strani


__cfduid: 1 x licensebuttons.net, 1 x creativecommons.org - distribucija vsebin in delovanje požarnega zidu; ne shranjuje nobenih osebnih podatkov. Trajanje 5 let.

Skrij podrobnosti