Projekti
V prvem projektu SloSBZ: Splošna baza znanja za slovenščino (RRP1) bomo najprej zgradili ustrezne jezikovne vire (korpus dialogov in sledenja ukazom) in nato v drugem projektu SloLLaMai: Odprtodostopni računsko učinkoviti modeli za slovenščino (RRP2) razvili odprtodostopen računsko učinkovit generativen jezikoven model za slovenščino, ki bo prvi tak model za morfološko bogat jezik z malo viri, kar predstavlja velik raziskovalen izziv. Pripravljen korpus za sledenje ukazom bo osnova za nadaljne prilagoditve slovenskega generativnega jezikovnega modela specifičnim potrebam aplikacij, na voljo pa bo tudi za širšo akademsko in industrijsko rabo.
V aplikativnih projektih bomo osnovni jezikovni model prilagajali z dodatnimi ukaznimi in dialoškimi učnimi množicami za specifične aplikacije. To bo omogočilo bistvene izboljšave in praktično uporabo pri integraciji govornih tehnologij v napredne industrijske aplikacije v projektih:
- VeMo-Digi: Veliki jezikovni modeli za napredno domensko-specifično digitalizacijo (RRP3)
- VeMo-Med: Prilagoditev velikih jezikovnih modelov za uporabo slovenščine v medicini (RRP4)
- VeMo-Ind: Prilagoditev velikih jezikovnih modelov za uporabo v industrijskih okoljih (RRP5)
- VeMo-IaC: Prilagoditev velikih jezikovnih modelov za generiranje infrastrukturnih opisov v kodi (RRP6)
Znanstveno-raziskovalni partnerji, ki vodijo projekta RRP1 in RRP2, zagotavljajo potrebna orodja in ogrodja za gradnjo velikih jezikovnih modelov. Izdelan bo tudi vsaj en splošen jezikovni model, ki bo uporaben za prilagoditev za poljubno uporabo na področju obdelave naravnega jezika (npr. pametni asistent, odgovarjanje na vprašanja, prevajanje, zdravorazumsko sklepanje). Model bo po uspešnosti primerljiv z modelom GPT-4, na katerih temeljijo veliki prilagojeni modeli (npr. ChatGPT), ki se uporabljajo v raznovrstnih aplikacijah. Trenutni javno dostopni veliki modeli so bili naučeni le na delčku slovenskega besedila, zato za slovenščino delujejo slabše kot za ostale večje jezike. Izdelava takšnega modela bo slovenski raziskovalni in gospodarski sferi prinesla konkurenčno prednost in jih izenačila z vsemi velikimi gospodarstvi iz trgov velikih jezikovnih skupin.
Partnerji iz gospodarstva, ki vodijo projekte RRP3, RRP4, RRP5 in RRP6 bodo pripravili specializirane korpuse in z njimi prilagodili veliki jezikovni model iz RRP2, da bodo lahko izdelali nove inovativne produkte ali nadgradili obstoječe. Vsak izmed partnerjev bo izdelal vsaj eno inovacijo in jo v povezavi z obdelavo naravnega jezika ponudil že obstoječim naročnikom ter si skušal dodatno izboljšati položaj na trgu.
RRP1: SloSBZ
Splošna baza znanja za slovenščino
RRP2: SloLLaMai
Odprtodostopni računsko učinkoviti modeli za slovenščino
RRP3: VeMo-Digi
Veliki jezikovni modeli za napredno domensko-specifično digitalizacijo
RRP4: VeMo-Med
Prilagoditev velikih jezikovnih modelov za uporabo slovenščine v medicini
RRP5: VeMo-Ind
Prilagoditev velikih jezikovnih modelov za uporabo v industrijskih okoljih
RRP6: VeMo-IaC
Prilagoditev velikih jezikovnih modelov za generiranje infrastrukturnih opisov v kodi