V ponedeljek, 16. septembra 2024, je na Fakulteti za računalništvo in informatiko potekala strokovna razprava z naslovom Izzivi in dileme pri gradnji velikega jezikovnega modela za slovenščino.
V okviru programa Prilagodljiva obdelava naravnega jezika s pomočjo velikih jezikovnih modelov (PoVeJMo) konzorcij treh javnih institucij in petih podjetij pripravlja odprtodostopni veliki jezikovni model za slovenščino. Za njegov razvoj potrebujejo veliko količino besedil v slovenščini. Trenutno imajo v bazi 9,2 milijarde besed, za razvoj kakovostnega modela pa bi jih potrebovali 40 milijard. Zato se je začela velika akcija zbiranja besedil, h kateri vabijo vse – tako besedilodajalce, ki imajo v lasti velike količine besedil (npr. založbe, mediji, knjižnice, šole in druge javne ustanove), kot posameznike z manjšim številom besedil, ki želijo sodelovati. Vsako besedilo namreč šteje.
Razvoj velikega jezikovnega modela pa odpira številna etična in pravna vprašanja. Prav ta so bila osrednja tematika razprave.
Gostje so bili:
- Simon Krek, UL FRI,
- Maja Bogataj Jančič, ODIPI,
- Marko Milosavljević, UL FDV,
- Ines Vodopivec, NUK, in
- Marko Robnik Šikonja, UL FRI.
Razpravo je moderirala Špela Arhar Holdt, UL FRI.
Strokovno razpravo so povzeli v Delu. Lepo vabljeni k branju.
Na portalu Videolectures si lahko ogledate posnetek razprave.