VIRI IN ORODJA
Korpusi so elektronske zbirke avtentičnih besedil, nastale po vnaprej določenih merilih in z določenim ciljem ter opremljena z orodji, ki omogočajo večplastno iskanje jezikovnih podatkov.
Šolar 3.0Korpus šolskih pisnih izdelkovŠolar 3.0 vsebuje ista besedila kot Šolar 2.0, vendar pa so bile opravljene pomembne izboljšave na ravni formata, ki je po novem specializirani XML TEI za korpuse z jezikovnimi popravki. V približno 350 besedilih so bile ročno popravljene oznake napak, uporabljena je bila tudi novejša verzija strojnega označevanja. Posledično so oblikoskladenjske oznake bolj zanesljive, na voljo pa so tudi nove oznake, npr. odvisnostna skladnja in imenske entitete. Korpus je na voljo v konkordančnikih CLARIN.SI, in sicer ločeno izvorna besedila učencev in besedila z učiteljskimi popravki. |
|
Šolar 2.0Korpus šolskih pisnih izdelkovŠolar 2.0 je korpus besedil, ki so jih učenci slovenskih osnovnih in srednjih šol samostojno tvorili pri pouku. Različica 2.0 vsebuje 1.638.229 besed iz 5485 besedil. V primerjavi s prvo različico se je predvsem izboljšala regijska uravnoteženost besedil, tako na osnovnošolski kot srednješolski ravni. Hkrati se je izboljšala tudi kategorizacija jezikovnih napak. Korpus tako omogoča še boljše raziskovanje pisne jezikovne zmožnosti šolajoče se populacije. |
|
Gigafida 1.0Referenčni korpus pisne slovenščineGigafida je obsežna zbirka slovenskih besedil najrazličnejših zvrsti, od dnevnih časopisov, revij do knjižnih publikacij vseh vrst (leposlovje, učbeniki, stvarna literatura), spletnih besedil, prepisov parlamentarnih govorov in podobno, vsebuje pa skoraj 1,2 milijarde besed oz. natančneje 1.187.002.502 besed. Korpus vsebuje besedila, ki so nastala v letih 1990 do 2011. Prva različica korpusa je bila izdelana v okviru projekta Sporazumevanje v slovenskem jeziku. |
|
KresUravnoteženi korpus sodobne pisne slovenščineKres je iz Gigafide vzorčeni uravnoteženi korpus, ki vsebuje skoraj 100 milijonov besed oz. natančno 99.831.145 besed. Enota vzorčenja besedil iz Gigafide za Kres je bil naključni odstavek, s čimer je omogočena boljša zastopanost posameznih del. Bolj kot Gigafida je Kres namenjen kakršnimkoli jeziko(slov)nim poizvedovanjem, ki imajo težnjo po merodajnosti, kolikor pač ta izhaja iz vzorca (korpusa), ki ima vnaprej premišljeno in znano ter utemeljeno uravnoteženo zgradbo. |
|
GosKorpus govorjene slovenščineGos obsega transkripcije okrog 120 ur posnetkov (po)govora v najrazličnejših situacijah, ki smo jim izpostavljeni vsak dan: od radijskih in televizijskih oddaj prek šolskih ur in predavanj do zasebnih pogovorov med prijatelji ali v krogu družine ter raznih delovnih sestankov, svetovanj, pogovora ob prodaji, storitvah ipd. Zapis govora na posnetkih je narejen v dveh različicah, standardizirani in pogovorni. Po korpusu lahko iščemo prek spletnega vmesnika, za vsak izpis iz korpusa pa je mogoče tudi slišati pripadajoči del posnetka. |
|
Šolar 1.0Korpus šolskih pisnih izdelkovŠolar je korpus besedil, ki so jih učenci slovenskih osnovnih in srednjih šol samostojno tvorili pri pouku. Vsebuje skoraj milijon besed oz. natančno 967.477 besed. Gre za prvi tovrstni korpus besedil v Sloveniji. Šolar je bil narejen za namene raziskovanja pisne jezikovne zmožnosti šolajoče se populacije in že uporabljen pri izdelavi virov, kot je npr. Pedagoški slovnični portal. |
|
LektorKorpus lektoriranih besedilLektor je obširna zbirka lektoriranih avtorskih besedil in prevodov in je namenjen vsem, ki jih zanima proces lektoriranja. S tovrstnim korpusom pridobimo uvid v najpogostejše jezikovne napake v slovenskem jeziku (kjer ne gre za preferenčne ali slogovne popravke). Zbrana so novejša neliterarna, povečini strokovna in poljudnoznanstvena besedila različnih avtorjev in prevajalcev, ki so jih lektorirali različni lektorji. Korpus vsebuje vsebuje 30.258 lektorskih popravkov, ki so razdeljeni v 5 krovnih kategorij (slog, oblika, pravopis, skladnja, pragmatika) in 50 podrobnejših podkategorij. |
|
KoRPKorpus besedil odnosov z javnostmiKoRP je sinhroni enojezični korpus pisnih besedil, izdelan na Fakulteti za družbene vede. Obsega nekaj več kot 1,8 milijona besed in zajema besedila iz obdobja od leta 1994 do leta 2007. V projektu Termis je na njegovi podlagi nastala terminološka podatkovna zbirka odnosov z javnostmi. |
|