Improving Linguistic Data with LLMs

We have developed a novel methodology for extracting knowledge graphs from digital linguistic databases that is tailored to morphologically complex languages.

Advanced grammatical analysis of multilingual corpora

As part of the LLM4DH project, we will develop a novel approach to grammatical analysis of multilingual corpora by augmenting state-of-the-art LLMs with the Universal Dependencies (UD) data.

Dr. Darinka Verdonik v oddaji KiKs na Prvem programu Radia Slovenija

Dr. Darinka Verdonik je v oddaji KiKs na Prvem programu Radia Slovenija predstavila portal Govorjena slovenščina.

Iščemo ljubiteljske znanstvenike in znanstvenice!

V okviru raziskovalnega projekta zbiramo posnetke vsakdanjega govora slovenščine. K sodelovanju v raziskavi vabimo ljubiteljske jezikoslovce. 

CLASSLA-Express Workshops in 2025

CLASSLA-Express workshops aim to show participants how to use the CLASSLA web corpora in language research. The workshops comprise hands-on exercises showing how to create queries in corpora for Bulgarian, Croatian, Macedonian, Serbian and Slovene.

Zakulisje razvoja velikega jezikovnega modela za popravljanje črkovanja in slovnice za slovenščino: kombinacija avtentičnih in sintetičnih podatkov

V članku so na kratko predstavljene metode in iztočnice, ki jih uporabljamo pri razvoju velikih jezikovnih modelov za pravopisno in slovnično popravljanje v slovenščini.