VIRI IN ORODJA

Med jezikovnimi tehnologijami najdemo programsko opremo, spletne servise in zbirke podatkov.

Vejice

Spletno orodje za strojno postavljanje vejic

Z orodjem za strojno postavljanje vejic v okence prilepimo besedilo dolžine do 3.000 znakov ter pritisnemo rdečo puščico. Zatem orodje označi manjkajoče vejice s sivo, odvečne vejice pa z modro barvo. Zasnovano je kot pomoč pri postavljanju vejic in ni nadomestek za lektorski pregled besedil. Glede na teste program trenutno deluje uspešno v 94 odstotkih primerov.

Berljivost

Aplikacija za oceno težavnosti besedil v slovenščini

V okviru projekta Za kakovost slovenskih učbenikov (KaUč) je bila razvita prva aplikacija za oceno težavnosti besedil v slovenskem jeziku. Z njo lahko preverite težavnost besedil dolžine do 5.000 znakov. Opozorila vas bo na težave na ravni besed: dolge, redke in ponavljajoče besede, okrajšave ter besedišče, ki ga ne najdemo v učbenikih. Obenem bo označila dolge povedi ter tiste z veliko ali brez glagolov. Ponudila vam bo tudi več različnih statistik in mer berljivosti, ki so podrobno opisane na spletni strani.

Označevalnik in razčlenjevalnik

Statistični oblikoskladenjski označevalnik in skladenjski razčlenjevalnik

Označevalnik je računalniški program, s katerim poljubno besedilo razdelimo na enote in posameznim besedam pripišemo dodatne informacije, npr. besedno vrsto, v katero spada, in kakšne so njene lastnosti (spol, sklon, število itd.), ali njeno osnovno obliko, če gre za besedo, ki ima več pregibnih oblik. Skladenjski razčlenjevalnik je računalniški program, s pomočjo katerega besedam v povedih lahko pripišemo skladenjska razmerja, npr. jedro in določilo besednih zvez, osebek in predmet stavka ipd. Z jezikoslovnega vidika nam avtomatizirano skladenjsko razčlenjevanje na ogromnih besedilnih korpusih omogoča raziskavo temeljnih skladenjskih pojavov za slovenščino, kot se kažejo v dejanski rabi. Delovanje obeh orodij lahko tudi preizkusite.

CJVT Svala

Orodje za pripravo korpusov z jezikovnimi popravki

Orodje CJVT Svala je nastalo kot lokalizirana in adaptirana različica odprto dostopnega orodja Svala. Uporablja se za gradnjo besedilnih korpusov z jezikovnimi popravki in podobne vire, kjer je zanimiva poravnava dveh različic besedila. Orodje je uporabno tako za transkribcijo, psevdonimizacijo, poravnavo kot tudi označevanje jezikovnih popravkov v besedilih. Trenutno podpira označevanje po sistemih dveh slovenskih korpusov z jezikovnimi popravki: Šolar in KOST.

Slovenski učni korpus SUK

Korpus za učenje statističnih analizatorjev

SUK je učni korpus, ki vsebuje ročno pregledane podatke jezikoslovne narave, ki so dodani izvornemu besedilu. Ti podatki se uporabljajo pri učenju računalniških programov za strojno analizo besedil, ki iz njih zgradijo statistični model, ali pa služijo za preverjanje pravilnosti analize pri programih, ki za analizo uporabljajo pravila. Pri statističnih programih tak na učnem korpusu naučeni model uporabljamo za analiziranje novih, neznanih besedil.

ccGigafida in ccKres

Odprto dostopna korpusa

Korpus ccGigafida vsebuje približno 9 % korpusa Gigafida oz. 100 milijonov besed, ccKres vsebuje približno 9 % korpusa Kres oz. 10 milijonov besed. Njuna struktura je enaka strukturi korpusov, iz katerih sta nastala. S korpusoma ccGigafida in ccKRES omogočamo tretjim osebam, tudi raziskovalcem v tujini, da pod čim bolj liberalnimi pogoji poglobljeno raziskujejo slovenski jezik tako z jezikoslovnega kot računalniškega oz. jezikovnotehnološkega vidika.