Odprtodostopni računsko učinkoviti modeli za slovenščino
SloLLaMai
Izjemno veliki jezikovni modeli (ChatGPT in GPT-4) so v zadnjem času za nekatere naloge pokazali izjemen napredek, a tudi številne praktične ovire pri njihovem izkoriščanju, kot so zaprtost in netransparentnost, visoke računske zahteve in visoka cena prilagoditev in širše uporabe, ki je nedosegljiva za večino raziskovalnih organizacij in podjetij. Nadaljnje povečevanje teh modelov tako ni več smiselno. Pojavili so se tudi bistveno manjši, odprtodostopni modeli, kot so LLaMA, Alpaca, GPT4All in Koala, ki jih je možno naučiti ali prilagoditi za posamezne naloge na povsem običajnih GPU računalnikih in dosegajo enako ali skoraj enako kakovost delovanja kot največji modeli. V projektu SloLLaMAi bomo razvili odprtodostopen računsko učinkovit generativen jezikoven model za slovenščino, ki bo prvi tak model za morfološko bogat jezik z malo viri, kar predstavlja velik raziskovalen izziv. Razviti novi veliki splošni model bo predstavljal osnovno infrastrukturo za industrijske projekte in vse n0ve izdelke, ki bodo potrebovali obdelavo naravnega jezika. Predhodno razviti modeli (npr. SloT5, SloBERTa, CroSloEn BERT) so že omogočili izgradnjo tehnologij, ki jih pred nekaj leti za slovenščino še ni bilo možno razviti s primerljivo natančnostjo z večjimi jeziki (npr. strojno prevajanje, povzemanje, odgovarjanje na vprašanja) in teh tehnologij niti ne bi bilo možno razviti, če takšni modeli za slovenščino ne bi obstajali. Za razvoj naslednje generacije velikih jezikovnih modelov so potrebni rezultati prvega projekta (RRP1), da bo mogoče pripraviti splošne jezikovne modele, ki jih bo možno specializirati za specifične naloge obdelave naravnega jezika.
Specifični cilji:
- Razvoj in izgradnja sodobnih, računsko učinkovitih velikih generativnih jezikovnih modelov tipa GPT (varianta LLaMa, Alpaca, Koala) in njihova prilagoditev za sledenje ukazom, dialoško komunikacijo in slovenski jezik. Zgrajeni veliki modeli predstavljajo temeljno infrastrukturo za preostanek projekta in aplikativne projekte.
- Izboljšava modelov z vstavljanjem dodatnega znanja v zgrajene velike generativne jezikovne modele za izboljšavo logičnega sklepanja, zdravorazumskega sklepanja, jezikovnih in morfoloških posebnosti slovenskega jezika ter upoštevanje etičnih in pravnih norm.
- Prilagoditev velikih jezikovnih modelov za računsko nizko zmogljive naprave in industrijske aplikacije; raziskava možnosti kompresije in destilacije velikih jezikovnih modelov, kvantizacije in približnega računanja z upoštevanjem morfološke bogatosti naslovljenega jezika.
Rezultati:
- D2.1: Prostodostopen velik generativni jezikovni model, prilagojen dialogom in ukazom velikosti milijarde parametrov (avgust 2024).
- D2.2: Prostodostopen velik generativni jezikovni model, prilagojen dialogom in ukazom velikosti 10 milijard parametrov (februar 2025).
- D2.3: Prostodostopen računsko malo zahteven generativni jezikovni model, prilagojen dialogom in ukazom (avgust 2025).
- D2.4: Prostodostopen velik jezikovni model z vstavljenim dodatnim znanjem (februar 2026).