VZPOSTAVITEV DOSTOPA DO HISTORIČNIH VERZIJ REFERENČNEGA KORPUSA SLOVENSKEGA JEZIKA GIGAFIDA

V spletnih konkordančnikih CLARIN.SI noSketch Engine in KonText je bila na voljo samo najnovejša različica korpusa Gigafida 2.0. Čeprav ta verzija korpusa Gigafida vsebuje tudi besedila iz starejših različic, pa se od njih vendarle razlikuje, saj so bila iz nje odstranjena podvojena in nestandardna besedila, poleg tega pa je bil korpus tudi na novo jezikoslovno označen.

Iz različnih razlogov se občasno pojavlja potreba po dostopu do starejših različic korpusa, na primer za dostop do odstranjenih nestandardnih besedil (še posebej je to lahko pomembno za raziskave na področju zamejske slovenščine, saj so bili odstranjeni viri, kot je glasilo Novi Matajur). Poleg tega se z omogočanjem dostopa do starejših različic zagotavlja ponovljivost že izvedenih raziskav na prejšnjih različicah korpusov.

V okviru projekta je bil v spletnih konkordančnikih noSketch Engine in KonText vzpostavljen dostop do prejšnjih različic korpusa Gigafida, in sicer do korpusov FidaPLUS, Gigafida 1.0 in Gigafida 1.1. V načrtu je bila tudi vzpostavitev dostopa do prve verzije korpusa Gigafida (t. i. korpusa FIDA), za katerega je bil v okviru projekta že sklenjen dogovor z lastnikoma korpusa, tj. s podjetjema Amebis, d.o.o. in DZS, d.d. Vendar do tega žal ni prišlo, ker so bila vsa projektna sredstva namenjena plačilu prenosa avtorskih pravic za korpus FIDA s podjetja DZS, d.d. na Univerzo v Ljubljani, in je zato zmanjkalo sredstev za izvedbo dejanskega prenosa korpusa s fizičnih nosilcev podatkov (CD-jev) v digitalno obliko, primerno za objavo na konkordančnikih.

Prek konkordančnikov noSketch Engine in KonText so sedaj dostopne naslednje različice korpusa Gigafida:

POVEZAVE IN KONTAKT

Andraž Repar
Center za jezikovne tehnologije Univerze v Ljubljani
Fakulteta za računalništvo in informatiko Univerze v Ljubljani
Večna pot 113, SI-1000 Ljubljana