Veliki jezikovni modeli za napredno domensko-specifično digitalizacijo

VeMo-Digi

Projekt bo jezikovne modele apliciral na digitalizacijo na različnih področjih. Semantika d.o.o. ima že razvit širok nabor rešitev, ki jih trži mednarodno (npr. platforma Museums), pri čemer se kot ena večjih težav kaže prav priprava večjezičnih materialov predstavitvenih gradiv. Z razvojem strojnega prevajalnika in kasnejšo produkcijsko integracijo v produkte bodo slovenski uporabniki dobili enostavnejši doseg mednarodnega občinstva produktnega portfelja podjetja, s čimer bo dosežen tudi multiplikativni učinek rezultatov. Rešitve bo mogoče razširiti tudi na druge manj zastopane jezike na trgih (npr. Bosna in Hercegovina).

Specifični cilji:

  1. Izdelati ukazno oziroma dialoško množico z dialogi in ukazi s področja humanistike.
  2. Nadgraditi in razširiti obstoječo infrastrukturo za digitalizacijo muzejskih zbirk in arhivskih gradiv z uporabo optičnega prepoznavanja znakov nadgrajenega s kontekstno občutljivim črkovanjem z modelom SloLLaMai.
  3. Demonstracija semantičnega iskalnika s podporo sporočanju v naravnem jeziku, z implementacijo na primeru iskalnika po internih dokumentih s PoC v digitalni humanistiki in v visoko regulirani industriji.
  4. Demonstracija samodejnega generiranja, urejanja in optimizacije besedil za objavo na spletu za muzejsko dokumentacijo in gradiva.
  5. Demonstracija samodejnega iskanja, ekstrakcije in povzemanja relevantnih informacij iz prosto dostopnih virov, na podlagi posredovane teme (na primer priprave kratkega opisa avtorja dela na podlagi Wikipedije).
  6. Demonstracija strojne intepretacije zaporedja navodil v naravnem jeziku za delo z aplikacijo.
  7. Demonstracija strojnega prevajanja besedil s pomočjo velikih jezikovnih modelov med slovenšino in a) drugimi jeziki in b) starejšimi oblikami slovenščine, s prevajanjem arhivskih gradiv INZ v sodobno slovenščino.
  8. Demonstracija govornega vmesnika na primeru elektronskega vodiča.
  9. Demonstracija rešitev za avtomatsko ekstrakcijo entitet, kot so osebe, kraji, itd., z uporabo velikih jezikovnih modelov in demonstracija anonimizacije dnevnikov na njihovi podlagi.

Rezultati:

  • D3.1: Učna množica z vsaj 10.000 primeri (avgust 2023).
  • D3.2: Kalibrirani modeli SloLLaMai za humanistiko in sledenje navodilom (februar 2025)
  • D3.3: Demonstracijska aplikacija za OCR (avgust 2025).
  • D3.4: Demonstracijska aplikacija za semantično iskanje (avgust 2025).
  • D3.5: Demonstracijska aplikacija za samodejno generiranje opisov zbirk (februar 2026).
  • D3.6: Demonstracijska aplikacija za povzemalnik (februar 2026).
  • D3.7: Demonstracijska aplikacija za prevajalnik (februar 2026).
  • D3.8: Demonstracijska aplikacija za prevajanje med navodili v naravnem jeziku in ukaznim jezikom (februar 2026).
  • D3.9: izdelava aplikacije za strojno ekstrakcijo entitet in izvedbo anonimizacije dokumentov, ter demonstracija na podatkovnih zbirkah Semantike (februar 2026).

Projektni partnerji:

Nosilec projekta:
Sodelujoči partnerji: