Korpusnik – povzemalnik korpusnih podatkov
Orodje Korpusnik omogoča hiter in osnovni pregled rabe besed.
Orodje Korpusnik povzema statistične in tekstovne podatke iz petih korpusov slovenskega jezika:
- standardna slovenščina: referenčni korpus pisne standardne slovenščine Gigafida 2.0 (1,3 milijarde pojavnic, besedila iz let 1990-2018).
- sprotna slovenščina: spremljevalni korpus Trendi, ki se posodablja mesečno in črpa besedila iz spletnih medijskih portalov. Vsebuje besedila od 2019 do danes.
- akademska slovenščina: korpus akademske slovenščine OSS 1.0 (3,2 milijarde besed) vsebuje več kot 150.000 znanstvenih besedil z Nacionalnega portala odprte znanosti.
- spletna slovenščina: korpus internetne slovenščine JANES 1.0 (več kot 252 milijonov pojavnic) vsebuje besedila s slovenskih družbenih omrežij (blogi, komentarji na novice, tviti).
- govorjena slovenščina: referenčni korpus govorjene slovenščine Gos 2.0 (2,5 milijona pojavnic) vsebuje približno 300 ur govora.
POVEZAVE IN KONTAKT
Iztok Kosem
Fakulteta za računalništvo in informatiko
Večna pot 113
1000 Ljubljana
- E-pošta: iztok.kosem@fri.uni-lj.si
V Korpusniku so v zavihku Poudarki predstavljene glavne značilnosti iskane besede iz vseh petih korpusov. Posebnosti vmesnika so avtomatsko generirane Glavne točke, ki tekstovno povzamejo pomembne informacije, predstavljene na strani, in opisi vseh diagramov.
V Korpusniku lahko spremljate rabo besed od leta 1991 do danes, odkrivate nove besede in pomene, najdete podatke, kot so npr. kdaj se je beseda v slovenščini prvič pojavila, za koliko ji je raba narasla v vseh letih rabe, s katerimi besedami (kolokacijami) se najpogosteje pojavlja, v kateri slovenščini oz. korpusu je najpogostejša.
Gre za inovativno in v mednarodnem pogledu edinstveno orodje, ki je bilo izdelano z namenom približati bogate podatke o besedah, ki jih najdemo v korpusih, splošni javnosti. Posebna pozornost pri izdelavi spletnega vmesnika je bila posvečena dostopnosti, zlasti osebam s posebnimi potrebami, zato so pri zasnovi in testiranju vmesnika sodelovali predstavniki Društva študentov invalidov Slovenije.
Orodje Korpusnik je bilo izdelano v okviru projekta SLOKIT (Nadgradnja CLARIN.SI: Korpusni informator in besedilni analizator), ki je potekal v letih 2022-2023 in ga je financiralo Ministrstvo za kulturo Republike Slovenije. Vodja projekta je bil dr. Iztok Kosem. V projektu sta sodelovala Institut Jožef Stefan (vodilni partner) in Društvo študentov invalidov Slovenije. Infrastrukturno podporo izven projektnega financiranja (gostovanje in vzdrževanje orodij) zagotavlja Center za jezikovne vire in tehnologije Univerze v Ljubljani, tudi član konzorcija CLARIN.SI.