Korpusnik – povzemalnik korpusnih podatkov

Orodje Korpusnik povzema statistične in tekstovne podatke iz petih korpusov slovenskega jezika, in sicer:

  • standardna slovenščina: referenčni korpus pisne standardne slovenščine Gigafida 2.0 (1,3 milijarde pojavnic, besedila iz let 1990-2018).
  • sprotna slovenščina: spremljevalni korpus Trendi, ki se posodablja mesečno in črpa besedila iz spletnih medijskih portalov. Vsebuje besedila od 2019 do danes.
  • akademska slovenščina: korpus akademske slovenščine OSS 1.0 (3,2 milijarde besed) vsebuje več kot 150.000 znanstvenih besedil z Nacionalnega portala odprte znanosti.
  • spletna slovenščina: korpus internetne slovenščine JANES 1.0 (več kot 252 milijonov pojavnic) vsebuje besedila s slovenskih družbenih omrežij (blogi, komentarji na novice, tviti).
  • govorjena slovenščina: referenčni korpus govorjene slovenščine Gos 2.0 (2,5 milijona pojavnic) vsebuje približno 300 ur govora.

V Korpusniku so v zavihku Poudarki predstavljene glavne značilnosti iskane besede iz vseh petih korpusov. 

POVEZAVE IN KONTAKT

Center za jezikovne vire in tehnologije, Univerza v Ljubljani
Večna pot 113, SI-1000 Ljubljana

Orodje Korpusnik je bilo izdelano v okviru projekta SLOKIT (Nadgradnja CLARIN.SI: Korpusni informator in besedilni analizator), ki je potekal v letih 2022-2023 in ga je financiralo Ministrstvo za kulturo Republike Slovenije. Vodja projekta je bil dr. Iztok Kosem. V projektu sta sodelovala Institut Jožef Stefan (vodilni partner) in Društvo študentov invalidov Slovenije. Infrastrukturno podporo izven projektnega financiranja (gostovanje in vzdrževanje orodij) zagotavlja Center za jezikovne vire in tehnologije Univerze v Ljubljani, tudi član konzorcija CLARIN.SI.