Korpusnik – povzemalnik korpusnih podatkov
Orodje Korpusnik povzema statistične in tekstovne podatke iz petih korpusov slovenskega jezika, in sicer:
- standardna slovenščina: referenčni korpus pisne standardne slovenščine Gigafida 2.0 (1,3 milijarde pojavnic, besedila iz let 1990-2018).
- sprotna slovenščina: spremljevalni korpus Trendi, ki se posodablja mesečno in črpa besedila iz spletnih medijskih portalov. Vsebuje besedila od 2019 do danes.
- akademska slovenščina: korpus akademske slovenščine OSS 1.0 (3,2 milijarde besed) vsebuje več kot 150.000 znanstvenih besedil z Nacionalnega portala odprte znanosti.
- spletna slovenščina: korpus internetne slovenščine JANES 1.0 (več kot 252 milijonov pojavnic) vsebuje besedila s slovenskih družbenih omrežij (blogi, komentarji na novice, tviti).
- govorjena slovenščina: referenčni korpus govorjene slovenščine Gos 2.0 (2,5 milijona pojavnic) vsebuje približno 300 ur govora.
V Korpusniku so v zavihku Poudarki predstavljene glavne značilnosti iskane besede iz vseh petih korpusov.
POVEZAVE IN KONTAKT
Center za jezikovne vire in tehnologije, Univerza v Ljubljani
Večna pot 113, SI-1000 Ljubljana
- e-pošta: info@cjvt.si
Orodje Korpusnik je bilo izdelano v okviru projekta SLOKIT (Nadgradnja CLARIN.SI: Korpusni informator in besedilni analizator), ki je potekal v letih 2022-2023 in ga je financiralo Ministrstvo za kulturo Republike Slovenije. Vodja projekta je bil dr. Iztok Kosem. V projektu sta sodelovala Institut Jožef Stefan (vodilni partner) in Društvo študentov invalidov Slovenije. Infrastrukturno podporo izven projektnega financiranja (gostovanje in vzdrževanje orodij) zagotavlja Center za jezikovne vire in tehnologije Univerze v Ljubljani, tudi član konzorcija CLARIN.SI.