Delavnica Evropskega jezikovnega podatkovnega prostora (language data space – LDS)
V torek, 17. junija, je na Fakulteti za računalništvo in informatiko potekala delavnica Evropskega jezikovnega podatkovnega prostora (language data space – LDS). Pobuda Evropske komisije si prizadeva vzpostaviti zanesljiv in učinkovit podatkovni trg za izmenjavo jezikovnih virov v javnem in zasebnem sektorju.
Na delavnici so razpravljali o pomenu jezikovnih podatkov za razvoj jezikovnih tehnologij in orodij umetne inteligence. Med govorci so bili visoki predstavniki Evropske komisije, strokovnjaki za umetno inteligenco in jezikovne tehnologije ter predstavniki industrije in gospodarstva.
Sodelujoče je uvodoma nagovorila državna sekretarka na Ministrstvu za digitalno preobrazbo, dr. Aida Kamišalić Latifić. Poudarila je pomen kvalitetnih podatkov za razvoj učinkovitih digitalnih storitev in produktov. Ob tem je izpostavila pomen vlaganja v skupne, evropske jezikovne vire in razvijanja evropskih platform za gradnjo velikih jezikovnih modelov, ki bodo spoštovali kulturno raznolikost.
Philippe Gelin, vodja sektorja Evropske komisije za večjezičnost, je zbranim na delavnici predstavil program Digitalne evrope in iniciativo Evropskega jezikovnega podatkovnega prostora.
Georg Rehm, koordinator initiative LDS, je na delavnici izpostavil, da je večjezičnost temeljni izziv za razvijanje orodij umetne inteligence znotraj Evropske unije. Izpostavil je neravnovesje podatkov (angl. data imbalance) med posameznimi evropskimi jeziki. Vsi evropski jeziki, razen angleščne in nemščine, imajo namreč manko podatkov za učinkovit razvoj velikih jezikovnih modelov.
Dr. Marko Robnik-Šikonja je v predavanju z naslovom The importance of language data for the development of LT solutions – future steps predstavil aktivnosti, povezane z velikimi jezikovnimi modeli, ki potekajo na Fakulteti za računalništvo in informatiko. Predstavil je projekte PoVeJMo, LLM4DH in AI4DH. V predavanju je poudaril, da slovenska javna uprava, sodišča in univerze potrebujejo lastne velike jezikovne modele, ki niso ameriško pristrani, poznajo slovenski jezik in kulturo ter zagotavljajo, da podatki ostanejo doma:
“Kot družba se moramo odločiti, da bomo razvoj umetne inteligence zapeljali na način, da bo ta tehnologija služila nam, da ohranimo jezikovno suverenost in zagotovimo konkurenčnost gospodarstva.”
V okviru dogodka sta potekali dve panelni diskusiji s predstavniki gospodarstva in industrije, ki ju je moderiral dr. Simon Krek.
Na prvi panelni diskusiji z naslovom Language Data and Language Technologies in Slovenia and for Slovenian so sodelovali Gregor Leban (Event Registry), Tomi Ilijaš (Arctur), Robert Tovornik (Better), Slavko Žitnik (FRI UL) in Daniel Vladušič (XLAB). Sodelujoči so izpostavili potrebo po zbiranju jezikovnih virov, ki so zaradi (pre)številnih regulativ velikokrat nedostopni ali pa so procesi pridobivanja podatkov dolgotrajni. Izrazili so velik pomen sodelovanja med industrijo, javno upravo in raziskovalnimi institucijami.
Na drugi panelni diskusiji z naslovom Language data production, management, and market development: overcoming obstacles so sodelovali Matjaž Krč (Ideus d.o.o.), Urban Pfeifer (Poslovni Mediji), Igor Panjan, (Red Bumerang d.o.o.) in Peter Trobec (Danfoss d.o.o.). Panelisti so se strinjali, da je umetna inteligenca velika priložnost, vendar prinaša tudi številne pasti. Izrazili so potrebo po ozaveščanju in opismenjevanju splošne slovenske javnosti o pomenu podatkov in uporabi umetne inteligence.
Na drugi panelni diskusiji z naslovom Language data production, management, and market development: overcoming obstacles so sodelovali Matjaž Krč (Ideus d.o.o.), Urban Pfeifer (Poslovni Mediji), Igor Panjan, (Red Bumerang d.o.o.) in Peter Trobec (Danfoss d.o.o.). Panelisti so se strinjali, da je umetna inteligenca velika priložnost, vendar prinaša tudi številne pasti. Izrazili so potrebo po ozaveščanju in opismenjevanju splošne slovenske javnosti o pomenu podatkov in uporabi umetne inteligence.
Dr. Slavko Žitnik je sklenil dogodek s pozivom k zbiranju (jezikovnih) podatkov: “Začnimo z zbiranjem tega olja, da bomo imeli polne rezevoarje, ko se bo pokazala potreba na trgu.”
Evropski jezikovni podatkovni prostor je enotna platforma, prek katere lahko različni deležniki izmenjujejo ter monetizirajo jezikovne podatke in druge jezikovne vire v skladu z evropskimi vrednotami in regulativo. Iniciativi se lahko pridružite na povezavi.