VIRI IN ORODJA
Med jezikovnimi tehnologijami najdemo programsko opremo, spletne servise in zbirke podatkov.
BerljivostAplikacija za oceno težavnosti besedil v slovenščiniV okviru projekta Za kakovost slovenskih učbenikov (KaUč) je bila razvita prva aplikacija za oceno težavnosti besedil v slovenskem jeziku. Z njo lahko preverite težavnost besedil dolžine do 5.000 znakov. Opozorila vas bo na težave na ravni besed: dolge, redke in ponavljajoče besede, okrajšave ter besedišče, ki ga ne najdemo v učbenikih. Obenem bo označila dolge povedi ter tiste z veliko ali brez glagolov. Ponudila vam bo tudi več različnih statistik in mer berljivosti, ki so podrobno opisane na spletni strani. |
|
Označevalnik in razčlenjevalnikStatistični oblikoskladenjski označevalnik in skladenjski razčlenjevalnikOznačevalnik je računalniški program, s katerim poljubno besedilo razdelimo na enote in posameznim besedam pripišemo dodatne informacije, npr. besedno vrsto, v katero spada, in kakšne so njene lastnosti (spol, sklon, število itd.), ali njeno osnovno obliko, če gre za besedo, ki ima več pregibnih oblik. Skladenjski razčlenjevalnik je računalniški program, s pomočjo katerega besedam v povedih lahko pripišemo skladenjska razmerja, npr. jedro in določilo besednih zvez, osebek in predmet stavka ipd. Z jezikoslovnega vidika nam avtomatizirano skladenjsko razčlenjevanje na ogromnih besedilnih korpusih omogoča raziskavo temeljnih skladenjskih pojavov za slovenščino, kot se kažejo v dejanski rabi. Delovanje obeh orodij lahko tudi preizkusite. |
|
Slovenski učni korpus SUKKorpus za učenje statističnih analizatorjevSUK je učni korpus, ki vsebuje ročno pregledane podatke jezikoslovne narave, ki so dodani izvornemu besedilu. Ti podatki se uporabljajo pri učenju računalniških programov za strojno analizo besedil, ki iz njih zgradijo statistični model, ali pa služijo za preverjanje pravilnosti analize pri programih, ki za analizo uporabljajo pravila. Pri statističnih programih tak na učnem korpusu naučeni model uporabljamo za analiziranje novih, neznanih besedil. |
|
ccGigafida in ccKresOdprto dostopna korpusaKorpus ccGigafida vsebuje približno 9 % korpusa Gigafida oz. 100 milijonov besed, ccKres vsebuje približno 9 % korpusa Kres oz. 10 milijonov besed. Njuna struktura je enaka strukturi korpusov, iz katerih sta nastala. S korpusoma ccGigafida in ccKRES omogočamo tretjim osebam, tudi raziskovalcem v tujini, da pod čim bolj liberalnimi pogoji poglobljeno raziskujejo slovenski jezik tako z jezikoslovnega kot računalniškega oz. jezikovnotehnološkega vidika. |
|