VIRI IN ORODJA

Med jezikovnimi tehnologijami najdemo programsko opremo, spletne servise in zbirke podatkov.

Vejice

Spletno orodje za strojno postavljanje vejic

Z orodjem za strojno postavljanje vejic v okence prilepimo besedilo dolžine do 3.000 znakov ter pritisnemo rdečo puščico. Zatem orodje označi manjkajoče vejice s sivo, odvečne vejice pa z modro barvo. Zasnovano je kot pomoč pri postavljanju vejic in ni nadomestek za lektorski pregled besedil. Glede na teste program trenutno deluje uspešno v 94 odstotkih primerov.

Berljivost

Aplikacija za oceno težavnosti besedil v slovenščini

V okviru projekta Za kakovost slovenskih učbenikov (KaUč) je bila razvita prva aplikacija za oceno težavnosti besedil v slovenskem jeziku. Z njo lahko preverite težavnost besedil dolžine do 5.000 znakov. Opozorila vas bo na težave na ravni besed: dolge, redke in ponavljajoče besede, okrajšave ter besedišče, ki ga ne najdemo v učbenikih. Obenem bo označila dolge povedi ter tiste z veliko ali brez glagolov. Ponudila vam bo tudi več različnih statistik in mer berljivosti, ki so podrobno opisane na spletni strani.

Obeliks

Statistični oblikoskladenjski označevalnik

Označevalnik je računalniški program, s katerim poljubno besedilo razdelimo na enote in posameznim besedam pripišemo dodatne informacije, npr. besedno vrsto, v katero spada, in kakšne so njene lastnosti (spol, sklon, število itd.), ali njeno osnovno obliko, če gre za besedo, ki ima več pregibnih oblik. Delovanje označevalnika lahko tudi preizkusite.

Statistični skladenjski razčlenjevalnik

Skladenjski razčlenjevalnik je računalniški program, s pomočjo katerega besedam v povedih lahko pripišemo skladenjska razmerja, npr. jedro in določilo besednih zvez, osebek in predmet stavka ipd. Z jezikoslovnega vidika nam avtomatizirano skladenjsko razčlenjevanje na ogromnih besedilnih korpusih omogoča raziskavo temeljnih skladenjskih pojavov za slovenščino, kot se kažejo v dejanski rabi. Delovanje skladenjskega razčlenjevalnika lahko tudi preizkusite.

ssj500k

Korpus za učenje statističnih analizatorjev

ssj500k je učni korpus, ki vsebuje ročno pregledane podatke jezikoslovne narave, ki so dodani izvornemu besedilu. Ti podatki se uporabljajo pri učenju računalniških programov za strojno analizo besedil, ki iz njih zgradijo statistični model, ali pa služijo za preverjanje pravilnosti analize pri programih, ki za analizo uporabljajo pravila. Pri statističnih programih tak na učnem korpusu naučeni model uporabljamo za analiziranje novih, neznanih besedil.

ccGigafida in ccKres

Odprto dostopna korpusa

Korpus ccGigafida vsebuje približno 9 % korpusa Gigafida oz. 100 milijonov besed, ccKres vsebuje približno 9 % korpusa Kres oz. 10 milijonov besed. Njuna struktura je enaka strukturi korpusov, iz katerih sta nastala. S korpusoma ccGigafida in ccKRES omogočamo tretjim osebam, tudi raziskovalcem v tujini, da pod čim bolj liberalnimi pogoji poglobljeno raziskujejo slovenski jezik tako z jezikoslovnega kot računalniškega oz. jezikovnotehnološkega vidika.