Korpusnik – povzemalnik korpusnih podatkov

Orodje Korpusnik omogoča hiter in osnovni pregled rabe besed.

Orodje Korpusnik povzema statistične in tekstovne podatke iz petih korpusov slovenskega jezika:

  • standardna slovenščina: referenčni korpus pisne standardne slovenščine Gigafida 2.0 (1,3 milijarde pojavnic, besedila iz let 1990-2018).
  • sprotna slovenščina: spremljevalni korpus Trendi, ki se posodablja mesečno in črpa besedila iz spletnih medijskih portalov. Vsebuje besedila od 2019 do danes.
  • akademska slovenščina: korpus akademske slovenščine OSS 1.0 (3,2 milijarde besed) vsebuje več kot 150.000 znanstvenih besedil z Nacionalnega portala odprte znanosti.
  • spletna slovenščina: korpus internetne slovenščine JANES 1.0 (več kot 252 milijonov pojavnic) vsebuje besedila s slovenskih družbenih omrežij (blogi, komentarji na novice, tviti).
  • govorjena slovenščina: referenčni korpus govorjene slovenščine Gos 2.0 (2,5 milijona pojavnic) vsebuje približno 300 ur govora.

POVEZAVE IN KONTAKT

Iztok Kosem

Fakulteta za računalništvo in informatiko

Večna pot 113

1000 Ljubljana

  • E-pošta: iztok.kosem@fri.uni-lj.si

V Korpusniku so v zavihku Poudarki predstavljene glavne značilnosti iskane besede iz vseh petih korpusov. Posebnosti vmesnika so avtomatsko generirane Glavne točke, ki tekstovno povzamejo pomembne informacije, predstavljene na strani, in opisi vseh diagramov.

V Korpusniku lahko spremljate rabo besed od leta 1991 do danes, odkrivate nove besede in pomene, najdete podatke, kot so npr. kdaj se je beseda v slovenščini prvič pojavila, za koliko ji je raba narasla v vseh letih rabe, s katerimi besedami (kolokacijami) se najpogosteje pojavlja, v kateri slovenščini oz. korpusu je najpogostejša.

Gre za inovativno in v mednarodnem pogledu edinstveno orodje, ki je bilo izdelano z namenom približati bogate podatke o besedah, ki jih najdemo v korpusih, splošni javnosti. Posebna pozornost pri izdelavi spletnega vmesnika je bila posvečena dostopnosti, zlasti osebam s posebnimi potrebami, zato so pri zasnovi in testiranju vmesnika sodelovali predstavniki Društva študentov invalidov Slovenije.

Orodje Korpusnik je bilo izdelano v okviru projekta SLOKIT (Nadgradnja CLARIN.SI: Korpusni informator in besedilni analizator), ki je potekal v letih 2022-2023 in ga je financiralo Ministrstvo za kulturo Republike Slovenije. Vodja projekta je bil dr. Iztok Kosem. V projektu sta sodelovala Institut Jožef Stefan (vodilni partner) in Društvo študentov invalidov Slovenije. Infrastrukturno podporo izven projektnega financiranja (gostovanje in vzdrževanje orodij) zagotavlja Center za jezikovne vire in tehnologije Univerze v Ljubljani, tudi član konzorcija CLARIN.SI.