Projekti

V prvem projektu SloSBZ: Splošna baza znanja za slovenščino (RRP1)  bomo najprej zgradili ustrezne jezikovne vire (korpus dialogov in sledenja ukazom) in nato v drugem projektu SloLLaMai: Odprtodostopni računsko učinkoviti modeli za slovenščino (RRP2) razvili odprtodostopen računsko učinkovit generativen jezikoven model za slovenščino, ki bo prvi tak model za morfološko bogat jezik z malo viri, kar predstavlja velik raziskovalen izziv.  Pripravljen korpus za sledenje ukazom bo osnova za nadaljne prilagoditve slovenskega generativnega jezikovnega modela specifičnim potrebam aplikacij, na voljo pa bo tudi za širšo akademsko in industrijsko rabo.

V aplikativnih projektih bomo osnovni jezikovni model prilagajali z dodatnimi ukaznimi in dialoškimi učnimi množicami za specifične aplikacije. To bo omogočilo bistvene izboljšave in praktično uporabo pri integraciji govornih tehnologij v napredne industrijske aplikacije v projektih:

Znanstveno-raziskovalni partnerji, ki vodijo projekta RRP1 in RRP2, zagotavljajo potrebna orodja in ogrodja za gradnjo velikih jezikovnih modelov. Izdelan bo tudi vsaj en splošen jezikovni model, ki bo uporaben za prilagoditev za poljubno uporabo na področju obdelave naravnega jezika (npr. pametni asistent, odgovarjanje na vprašanja, prevajanje, zdravorazumsko sklepanje). Model bo po uspešnosti primerljiv z modelom GPT-4, na katerih temeljijo veliki prilagojeni modeli (npr. ChatGPT), ki se uporabljajo v raznovrstnih aplikacijah. Trenutni javno dostopni veliki modeli so bili naučeni le na delčku slovenskega besedila, zato za slovenščino delujejo slabše kot za ostale večje jezike. Izdelava takšnega modela bo slovenski raziskovalni in gospodarski sferi prinesla konkurenčno prednost in jih izenačila z vsemi velikimi gospodarstvi iz trgov velikih jezikovnih skupin.

Partnerji iz gospodarstva, ki vodijo projekte RRP3, RRP4, RRP5 in RRP6 bodo pripravili specializirane korpuse in z njimi prilagodili veliki jezikovni model iz RRP2, da bodo lahko izdelali nove inovativne produkte ali nadgradili obstoječe. Vsak izmed partnerjev bo izdelal vsaj eno inovacijo in jo v povezavi z obdelavo naravnega jezika ponudil že obstoječim naročnikom ter si skušal dodatno izboljšati položaj na trgu. 

RRP1: SloSBZ

Splošna baza znanja za slovenščino

RRP2: SloLLaMai

Odprtodostopni računsko učinkoviti modeli za slovenščino

RRP3: VeMo-Digi

Veliki jezikovni modeli za napredno domensko-specifično digitalizacijo

RRP4: VeMo-Med

Prilagoditev velikih jezikovnih modelov za uporabo slovenščine v medicini

RRP5: VeMo-Ind

Prilagoditev velikih jezikovnih modelov za uporabo v industrijskih okoljih

RRP6: VeMo-IaC

Prilagoditev velikih jezikovnih modelov za generiranje infrastrukturnih opisov v kodi