Splošna baza znanja za slovenščino
SloSBZ
Cilj projekta je razvoj slovenskih jezikovnih virov za izgradnjo velikih generativnih jezikovnih modelov in podpornih orodij za pripravo modelov ter uporabo pri njihovem treniranju, kadar je to potrebno. Za uspešno pripravo modelov v projektu SloLLamAI (RRP2), njegovo prilagoditev in demonstracije v okviru ostalih štirih industrijskih projektov (RRP3-6) potrebujemo velike količine kakovostnih dialogov in ukaznih zahtevkov z rangiranimi odgovori ter temeljne velike jezikovne korpuse, ki pokrivajo tudi pogovorni jezik ter specializirana terminološka področja.
Projekt je eden izmed dveh temeljnih projektov znotraj programa in zagotavlja osnovno jezikovno infrastrukturo, potrebno za treniranje modelov. To pomeni, da bo delo v projektu obsegalo primarno pripravo orodij in baz, ki bodo nato uporabljeni pri pripravi osnovnega modela SloLLaMai, kasneje pa tudi pri ekspirementalnem razvoju demonstracij posameznih tehnologij v okviru industrijskih projektov. Rezultati ostalih projektov se bodo preko zahtev projekta SloLLaMai vračali do projekta SloSBZ, kar bo usmerjalo nadaljni razvoj korpusov. V okviru projekta bodo izdane tudi tri različice digitalne slovarske baze.
Specifični cilji:
- Zagotoviti korpuse, primerne za trening velikih modelov, ki jih bo mogoče uporabiti znotraj programa, pa tudi širše.
- Zagotoviti orodja, ki bodo podpirala pripravo omenjenih korpusov.
- Zagotavljati jezikovno podporo za slovenščino s prilagajanjem obstoječih in izdelavo novih korpusov glede na potrebe industrijskih raziskav in eksperimentalnega razvoja med projektom.
- Zagotoviti nadgradnje cevovodov razširjenih knjižnic za trening in uporabo velikih jezikovnih modelov.
- Zagotoviti validacijske in testne množice za validacijo izdelanih modelov.
Predvideni rezultati:
- D1.1: Prostodostopna slovenska učna množica za dialoge in ukazne zahtevke (avgust 2024).
- D1.2: Velik jezikovni korpus za pogovorni jezik in naslovljena terminološka področja – prva različica (avgust 2024).
- D1.3: Validacijski korpus za velike jezikovne modele (september 2024).
- D14: Orodja za pripravo slovarskih baz za učenje modelov in komponente za integracijo odprtih slovarskih oblik (februar 2025).
- D1.5: Namenski tokenizatorji za slovenski jezik – prva razičica (februar 2025).
- D1.6: Velik jezikovni korpus (za pogovorni jezik) in naslovljena terminološka področja – druga različica (avgust 2025).
- D1.7: Namenski tokenizatorji za slovenski jezik – končna razičica (marec 2026).
- D1.8: Velik jezikovni korpus (za pogovorni jezik) in naslovljena terminološka področja – končna različica (junij 2026).
- D1.9: Baza znanja, izdelana na podlagi Digitalne slovarske baze (julij 2026).