Besedilni korpusi

VIRI IN ORODJA

Korpusi so elektronske zbirke avtentičnih besedil, nastale po vnaprej določenih merilih in z določenim ciljem ter opremljena z orodji, ki omogočajo večplastno iskanje jezikovnih podatkov.

SLOVARJI IN LEKSIKONI

PODATKOVNE BAZE

JEZIKOVNE TEHNOLOGIJE

SPLETNI PORTALI IN VMESNIKI

BESEDILNI KORPUSI

Gigafida 2.0

Referenčni korpus pisne standardne slovenščine

Gre za obsežen in premišljeno grajen referenčni korpus, ki vsebuje 1.134.693.933 besed iz 38.310 besedil, nastalih v letih 1990 do 2018. Korpus Gigafida 2.0 je temeljni podatkovni vir sodobne slovenščine in ga uporabljamo za jezikoslovne raziskave, jezikovni opis (slovarje, slovnice) in za razvoj jezikovnih tehnologij in postopkov. Za razliko od predhodnih izdaj je različica 2.0 korpus standardne slovenščine, kar pomeni, da vsebuje predvsem besedila, ki so napisana v standardnem jeziku.

Šolar 3.0

Korpus šolskih pisnih izdelkov

Šolar 3.0 vsebuje ista besedila kot Šolar 2.0, vendar pa so bile opravljene pomembne izboljšave na ravni formata, ki je po novem specializirani XML TEI za korpuse z jezikovnimi popravki. V približno 350 besedilih so bile ročno popravljene oznake napak, uporabljena je bila tudi novejša verzija strojnega označevanja. Posledično so oblikoskladenjske oznake bolj zanesljive, na voljo pa so tudi nove oznake, npr. odvisnostna skladnja in imenske entitete. Korpus je na voljo v konkordančnikih CLARIN.SI, in sicer ločeno izvorna besedila učencev in besedila z učiteljskimi popravki.

Šolar 2.0

Korpus šolskih pisnih izdelkov

Šolar 2.0 je korpus besedil, ki so jih učenci slovenskih osnovnih in srednjih šol samostojno tvorili pri pouku. Različica 2.0 vsebuje 1.638.229 besed iz 5485 besedil. V primerjavi s prvo različico se je predvsem izboljšala regijska uravnoteženost besedil, tako na osnovnošolski kot srednješolski ravni. Hkrati se je izboljšala tudi kategorizacija jezikovnih napak. Korpus tako omogoča še boljše raziskovanje pisne jezikovne zmožnosti šolajoče se populacije.

Gigafida 1.0

Referenčni korpus pisne slovenščine

Gigafida je obsežna zbirka slovenskih besedil najrazličnejših zvrsti, od dnevnih časopisov, revij do knjižnih publikacij vseh vrst (leposlovje, učbeniki, stvarna literatura), spletnih besedil, prepisov parlamentarnih govorov in podobno, vsebuje pa skoraj 1,2 milijarde besed oz. natančneje 1.187.002.502 besed. Korpus vsebuje besedila, ki so nastala v letih 1990 do 2011. Prva različica korpusa je bila izdelana v okviru projekta Sporazumevanje v slovenskem jeziku.

Kres

Uravnoteženi korpus sodobne pisne slovenščine

Kres je iz Gigafide vzorčeni uravnoteženi korpus, ki vsebuje skoraj 100 milijonov besed oz. natančno 99.831.145 besed. Enota vzorčenja besedil iz Gigafide za Kres je bil naključni odstavek, s čimer je omogočena boljša zastopanost posameznih del. Bolj kot Gigafida je Kres namenjen kakršnimkoli jeziko(slov)nim poizvedovanjem, ki imajo težnjo po merodajnosti, kolikor pač ta izhaja iz vzorca (korpusa), ki ima vnaprej premišljeno in znano ter utemeljeno uravnoteženo zgradbo.

Gos

Korpus govorjene slovenščine

Gos obsega transkripcije okrog 120 ur posnetkov (po)govora v najrazličnejših situacijah, ki smo jim izpostavljeni vsak dan: od radijskih in televizijskih oddaj prek šolskih ur in predavanj do zasebnih pogovorov med prijatelji ali v krogu družine ter raznih delovnih sestankov, svetovanj, pogovora ob prodaji, storitvah ipd. Zapis govora na posnetkih je narejen v dveh različicah, standardizirani in pogovorni. Po korpusu lahko iščemo prek spletnega vmesnika, za vsak izpis iz korpusa pa je mogoče tudi slišati pripadajoči del posnetka.

Šolar 1.0

Korpus šolskih pisnih izdelkov

Šolar je korpus besedil, ki so jih učenci slovenskih osnovnih in srednjih šol samostojno tvorili pri pouku. Vsebuje skoraj milijon besed oz. natančno 967.477 besed. Gre za prvi tovrstni korpus besedil v Sloveniji. Šolar je bil narejen za namene raziskovanja pisne jezikovne zmožnosti šolajoče se populacije in že uporabljen pri izdelavi virov, kot je npr. Pedagoški slovnični portal.

Lektor

Korpus lektoriranih besedil

Lektor je obširna zbirka lektoriranih avtorskih besedil in prevodov in je namenjen vsem, ki jih zanima proces lektoriranja. S tovrstnim korpusom pridobimo uvid v najpogostejše jezikovne napake v slovenskem jeziku (kjer ne gre za preferenčne ali slogovne popravke). Zbrana so novejša neliterarna, povečini strokovna in poljudnoznanstvena besedila različnih avtorjev in prevajalcev, ki so jih lektorirali različni lektorji. Korpus vsebuje vsebuje 30.258 lektorskih popravkov, ki so razdeljeni v 5 krovnih kategorij (slog, oblika, pravopis, skladnja, pragmatika) in 50 podrobnejših podkategorij.

KoRP

Korpus besedil odnosov z javnostmi

KoRP je sinhroni enojezični korpus pisnih besedil, izdelan na Fakulteti za družbene vede. Obsega nekaj več kot 1,8 milijona besed in zajema besedila iz obdobja od leta 1994 do leta 2007. V projektu Termis je na njegovi podlagi nastala terminološka podatkovna zbirka odnosov z javnostmi.

VIRI IN ORODJA

Gigafida 2.0

Referenčni korpus pisne standardne slovenščine

Šolar 3.0

Korpus šolskih pisnih izdelkov

Šolar 2.0

Korpus šolskih pisnih izdelkov

Gigafida 1.0

Referenčni korpus pisne slovenščine

Kres

Uravnoteženi korpus sodobne pisne slovenščine

Gos

Korpus govorjene slovenščine

Šolar 1.0

Korpus šolskih pisnih izdelkov

Lektor

Korpus lektoriranih besedil

KoRP

Korpus besedil odnosov z javnostmi

KONTAKT

LOKACIJA

INFO

FACEBOOK