FORGOT YOUR DETAILS?

Viri in orodja

Center vzdržuje vire in orodja, razvite v okviru projekta “Sporazumevanje v slovenskem jeziku” ter v okviru nekaterih drugih projektov s podobnimi rezultati.

Gigafida

Korpus sodobne pisne slovenščine

Gigafida je obsežna zbirka slovenskih besedil najrazličnejših zvrsti, od dnevnih časopisov, revij do knjižnih publikacij vseh vrst (leposlovje, učbeniki, stvarna literatura), spletnih besedil, prepisov parlamentarnih govorov in podobno, vsebuje pa skoraj 1,2 milijarde besed oz. natančneje 1.187.002.502 besedi.

Kres

Uravnoteženi korpus sodobne pisne slovenščine

Kres je iz Gigafide vzorčeni uravnoteženi korpus, ki vsebuje skoraj 100 milijonov besed oz. natančno 99.831.145 besed. Enota vzorčenja besedil iz Gigafide za Kres je bil naključni odstavek, s čimer je omogočena boljša zastopanost posameznih del.

Gos

Korpus govorjene slovenščine

GOS obsega transkripcije okrog 120 ur posnetkov (po)govora v najrazličnejših situacijah, ki smo jim izpostavljeni vsak dan: od radijskih in televizijskih oddaj prek šolskih ur in predavanj do zasebnih pogovorov med prijatelji ali v krogu družine ter raznih delovnih sestankov, svetovanj, pogovora ob prodaji, storitvah ipd.

Šolar

Korpus šolskih pisnih izdelkov

Šolar je korpus besedil, ki so jih učenci slovenskih osnovnih in srednjih šol samostojno tvorili pri pouku. Vsebuje skoraj milijon besed oz. natančno 967.477 besed. Gre za prvi tovrstni korpus besedil v Sloveniji.

Lektor

Korpus lektoriranih besedil

Lektor je obširna zbirka lektoriranih avtorskih besedil in prevodov, ki je namenjena vsem, ki jih zanima proces lektoriranja. Zbrana so novejša neliterarna, povečini strokovna in poljudnoznanstvena besedila različnih avtorjev in prevajalcev, ki so jih lektorirali različni lektorji. Korpus vsebuje besedila v dveh različicah, in sicer združuje izvorno avtorsko besedilo in lektorirano besedilo.

Specializirani korpusi strokovnih besedil različnih strok:

  • Korpus besedil odnosov z javnostmi KoRP (Fakulteta za družbene vede): KoRP je sinhroni enojezični korpus pisnih besedil. Obsega nekaj več kot 1,8 milijona besed in zajema besedila iz obdobja od leta 1994 do leta 2007. V  projektu Termis je na njegovi podlagi nastala terminološka podatkovna zbirka odnosov z javnostmi.
  • Korpus strokovnih gradiv s področja vzgoje in izobraževanja (Pedagoška fakulteta).
Pisni

Spletni konkordančnik za pisni jezik

Spletni konkordančnik je program, ki omogoča iskanje po obsežnih zbirkah besedil – korpusih – na spletu. Korpusni vmesnik, izdelan v okviru projekta Sporazumevanje v slovenskem jeziku, je prilagojen predvsem preprostejši (šolski) rabi, njegov glavni namen pa je ta, da uporabnikom omogoči intuitivno opazovanje rabe sodobnega slovenskega jezika, predvsem v korpusih Gigafida in Kres.

Govorni

Spletni konkordančnik za govorjeni jezik

Spletni konkordančnik za govorjeni jezik omogoča dodatne možnosti, predvsem poslušanje posnetkov ter filtriranje po različnih demografskih, besedilnovrstnih in drugih kriterijih. Trenutno je v spletnem konkordančniku dostopen korpus govorjene slovenščine Gos.

KSSJ

Kolokacijski slovar sodobne slovenščine

Kolokacijski slovar sodobne slovenščine vsebuje 35.989 iztočnic in 7.338.801 kolokacij in je prvi takšen slovar pri nas, predstavlja pa prvi korak k zapolnjevanju manka na področju jezikovnih virov za slovenščino, namenjenih jezikovni produkciji. Glavni prepoznavni elementi slovarja so stopenjski prikaz gesel, predstavitev kolokacijskih podatkov v širšem besedilnem kontekstu ter različne možnosti filtriranja in razvrščanja bogatih kolokacijskih podatkov.

Sloleks

Slovenski oblikoslovni leksikon

Sloleks je leksikon besednih oblik za slovenski jezik. To pomeni, da v strukturirani bazi podatkov vsebuje osnovne podatke o slovenskih besedah, predvsem v katero besedno vrsto spadajo in kakšne so njihove lastnosti. Pri vsaki besedi so v bazi zabeležene tudi vse njene pregibne oblike. Ker je slovenščina oblikoslovno izjemno bogat jezik, je takih besed in njihovih oblik zelo veliko.

SSSS

Slovar sopomenk sodobne slovenščine

S 105.473 iztočnicami in 368.117 sopomenkami je Slovar sopomenk sodobne slovenščine najobsežnejša odprto dostopna avtomatsko generirana zbirka slovenskih sopomenk. Slovar zajema iz različnih sodobnih jezikovnih virov in prvič prinaša možnost, da uporabnik primerja rabo različnih sopomenk v kontekstu: s pomočjo kolokacij in povezav na pisni referenčni korpus Gigafida. Slovar sopomenk sodobne slovenščine je prvi slovenski odzivni slovar: slovar, ki se dinamično odziva tako na spremembe v jeziku kot na mnenje jezikovne skupnosti.

LBS

Leksikalna baza za slovenščino

Leksikalna baza je oblikovana kot mreža med seboj povezanih pomenskih in skladenjskih podatkov o posamezni besedi. Leksikalna baza želi zapolniti vrzel na področju celovitega leksikalnega opisa slovenske leksike tako z vidika aktualnih pomenskih sprememb v besedišču kot z vidika vključevanja sodobnih leksikografskih postopkov. Drugi poglavitni namen leksikalne baze je zagotoviti jezikovne podatke v obliki, ki služi primarno računalniški obdelavi in razvoju sodobnih jezikovnotehnoloških aplikacij za slovenščino.

Poleg tega še terminološki in drugi slovarji, izdelani v okviru različnih raziskovalnih projektov:

Slovarji s povezavami so prosto dostopni na portalu Termania.

SP

Slogovni priročnik

Slogovni priročnik je demonstracijski portal, ki prikazuje možnosti spletne predstavitve ugotovitev, na katerih mestih imajo pišoči pri pisanju v slovenščini težave, in ponuja razlago in rešitev teh problemov v zanimivi in razumljivi obliki. Razlage vsebin so pripravljene na osnovi podatkov iz besedilnih korpusov: temeljijo na sodobnih ugotovitvah o jeziku in predstavljajo sliko realne, žive slovenščine, kakršno uporabljamo tukaj in zdaj.

PSP

Pedagoški slovnični portal

Pedgoški slovnični portal je zbirka pogostih jezikovnih problemov, ki so obravnavani po poglavjih. Vsako od njih predstavlja zaključeno celoto, za razumevanje katere ni potrebno poznavanje drugih slovničnih vsebin. Velika pozornost je namenjena razumljivosti razlage: jezikoslovne terminologije skoraj ni, vsi zahtevnejši pojmi so sproti razloženi, jezik razlage je izredno preprost. Na ta način je učiteljem omogočeno, da povezujejo usvajanje snovi pri pouku z uporabo portala doma.

Obeliks

Statistični oblikoskladenjski označevalnik

Označevalnik je računalniški program, s katerim poljubno besedilo razdelimo na enote in posameznim besedam pripišemo dodatne informacije, npr. besedno vrsto, v katero spada, in kakšne so njene lastnosti, ali njeno osnovno obliko, če gre za besedo, ki ima več pregibnih oblik.

MSTParser

Statistični skladenjski razčlenjevalnik

Skladenjski razčlenjevalnik je računalniški program, s pomočjo katerega besedam v povedih lahko pripišemo skladenjska razmerja. Z jezikoslovnega vidika nam avtomatizirano skladenjsko razčlenjevanje na ogromnih besedilnih korpusih omogoča raziskavo temeljnih skladenjskih pojavov za slovenščino, kot se kažejo v dejanski rabi.

ssj500k

Korpus za učenje statističnih analizatorjev

ssj500k je učni korpus, ki vsebuje ročno pregledane podatke jezikoslovne narave, ki so dodani izvornemu besedilu. Ti podatki se uporabljajo pri učenju računalniških programov za strojno analizo besedil, ki iz njih zgradijo statistični model, ali pa služijo za preverjanje pravilnosti analize pri programih, ki za analizo uporabljajo pravila. Pri statističnih programih tak na učnem korpusu naučeni model uporabljamo za analiziranje novih, neznanih besedil.

Zbirke

Odprto dostopna korpusa ccGigafida in ccKres

Korpus ccGigafida vsebuje približno 9 % korpusa Gigafida oz. 100 milijonov besed, ccKres vsebuje približno 9 % korpusa Kres oz. 10 milijonov besed. Njuna struktura je enaka strukturi korpusov, iz katerih sta nastala. S korpusoma ccGigafida in ccKRES omogočamo tretjim osebam, tudi raziskovalcem v tujini, da pod čim bolj liberalnimi pogoji poglobljeno raziskujejo slovenski jezik tako z jezikoslovnega kot računalniškega oz. jezikovnotehnološkega vidika.

TOP

Z nadaljevanjem uporabe teh strani se strinjate z uporabo piškotkov. Več informacij >

Več informacij o zasebnosti: ZASEBNOST IN PIŠKOTKI

Naša spletna stran uporablja tehnologijo “piškotkov” (cookies), da lahko razločujemo med obiskovalci in izvajamo statistiko uporabe spletne strani. To nam omogoča sprotno izboljševanje delovanja strani. Uporabniki, ki ne dovolijo zapisa "piškotka" naše strani v svoj računalnik, bodo ob pregledu spletne strani prikrajšani za nekatere od njenih funkcionalnosti (ogled videa, povezava do Facebooka, ipd). Piškotki so majhne datoteke, ki jih sistem obiskane spletne strani zapiše na vaš računalnik. Tako vas sistem ob naslednjem obisku strani lahko prepozna.

Na naših spletnih straneh uporabljamo naslednje vrste piškotkov:

Piškotki lastnih spletnih strani

PHPSESSID: Osnovno delovanje strani, enoličen identifikator seje za prijavo uporabnika. Namen je izboljšanje delovanja spletne strani. Piškotek ne shranjuje nobenih osebnih podatkov. Trajanje do konca seje.

Sejni piškotki: služijo za shranjevanje začasnih informacij. Trajanje do konca seje.

wordpress_test_cookie: trajanje do konca seje.

_icl_current_language: WPML piškotek, zapomni si izbiro jezika. Traja 24 ur.

Piškotki tretjih spletnih strani

datr: piškotek družbenega omrežja Facebook za varnostne namene. Trajanje 2 leti,

fr: piškotek družbenega omrežja Facebook za namene oglaševanja. Trajanje 3 mesece.

reg_fb_gate: piškotek družbenega omrežja Facebook za delovanje povezave na Facebook. Trajanje za čas seje.

reg_fb_ref: piškotek družbenega omrežja Facebook za delovanje povezave na Facebook. Trajanje za čas seje.

Google Map (SID - trajanje 2 leti, SAPISID - trajanje 2 leti, APISID - trajanje 2 leti, SSID - trajanje 2 leti, HSID - trajanje 2 leti, NID - trajanje 6 mesecev, PREF - trajanje 8 mesecev): služijo za merjenje števila in za sledenje obnašanja uporabnikov Google Maps.

Skrij podrobnosti