Projektni sklopi

Projektno delo bo razdeljeno na pet delovnih sklopov, od tega so štirje raziskovalni, peti pa pokriva koordinacijo in vodenje dela na projektu in diseminacijo.

Glavni korpusni vir projekta je korpus Gigafida, ki je nastal v projektu Sporazumevanje v slovenskem jeziku (2008–2013) in je referenčni korpus slovenskega jezika z več kot milijardo besed iz besedil, tiskanih ali spletno objavljenih v letih 1990–2011 (podrobneje je predstavljen v Logar idr. 2012).

Glavni leksikalni vir projekta je Leksikalna baza za slovenščino (Gantar et al. 2012, Gantar 2015), ki je nastala v okviru istega projekta v letih 2008–2012 ter predstavlja izčrpen pomenski in skladenjski opis izbranega nabora slovenskih besed, ki je bil izdelan izključno na podlagi analize referenčnih besedilnih korpusov.

Od ostalih virov bomo pri primerjalnih analizah in evalvacijah uporabljali še različne specializirane korpuse, kot so korpus Kres, vzorčeni uravnoteženi podkorpus s 100 milijoni besed; milijonski korpus šolskih pisnih izdelkov Šolar; korpus KoRP, ki je nastal v projektu Terminološke baze podatkov kot osnova strokovnih znanj in obsega nekaj več kot 1,8 milijona besed ter zajema besedila iz obdobja 1994–2007, korpus akademske slovenščine, korpus slovenskih tvitov iz projekta JANES ipd.