VIRI IN ORODJA

Med jezikovnimi tehnologijami najdemo programsko opremo, spletne servise in zbirke podatkov.

Obeliks

Statistični oblikoskladenjski označevalnik

Označevalnik je računalniški program, s katerim poljubno besedilo razdelimo na enote in posameznim besedam pripišemo dodatne informacije, npr. besedno vrsto, v katero spada, in kakšne so njene lastnosti (spol, sklon, število itd.), ali njeno osnovno obliko, če gre za besedo, ki ima več pregibnih oblik. Delovanje označevalnika lahko tudi preizkusite.

Statistični skladenjski razčlenjevalnik

Skladenjski razčlenjevalnik je računalniški program, s pomočjo katerega besedam v povedih lahko pripišemo skladenjska razmerja, npr. jedro in določilo besednih zvez, osebek in predmet stavka ipd. Z jezikoslovnega vidika nam avtomatizirano skladenjsko razčlenjevanje na ogromnih besedilnih korpusih omogoča raziskavo temeljnih skladenjskih pojavov za slovenščino, kot se kažejo v dejanski rabi. Delovanje skladenjskega razčlenjevalnika lahko tudi preizkusite.

ssj500k

Korpus za učenje statističnih analizatorjev

ssj500k je učni korpus, ki vsebuje ročno pregledane podatke jezikoslovne narave, ki so dodani izvornemu besedilu. Ti podatki se uporabljajo pri učenju računalniških programov za strojno analizo besedil, ki iz njih zgradijo statistični model, ali pa služijo za preverjanje pravilnosti analize pri programih, ki za analizo uporabljajo pravila. Pri statističnih programih tak na učnem korpusu naučeni model uporabljamo za analiziranje novih, neznanih besedil.

ccGigafida in ccKres

Odprto dostopna korpusa

Korpus ccGigafida vsebuje približno 9 % korpusa Gigafida oz. 100 milijonov besed, ccKres vsebuje približno 9 % korpusa Kres oz. 10 milijonov besed. Njuna struktura je enaka strukturi korpusov, iz katerih sta nastala. S korpusoma ccGigafida in ccKRES omogočamo tretjim osebam, tudi raziskovalcem v tujini, da pod čim bolj liberalnimi pogoji poglobljeno raziskujejo slovenski jezik tako z jezikoslovnega kot računalniškega oz. jezikovnotehnološkega vidika.