Nedavni uspehi metod umetne inteligence na področju obdelave in razumevanja naravnega jezika so posledica napredka na področju globokih nevronskih mrež. Tako na primer lahko vidimo, da so se bistveno izboljšali sistemi za prepoznavanje govora, strojno prevajanje, klasifikacijo besedil in iskanje informacij.
Globoke nevronske mreže za svoje delovanje zahtevajo, da so besedila predstavljena v številski obliki, imenovani vektorske vložitve. Z njimi se preslika pomenska podobnost besed, ta pa se pretvori v številsko obliko – v razdalje med vektorji. Danes so vektorske vložitve besedil predpogoj za uspešne obdelave naravnega jezika.
V okviru EU projekta »EMBEDDIA – Medjezikovne vektorske vložitve za manj zastopane jezike v evropskih medijih« so člani CJVT razvili več naprednih vrst vektorskih vložitev tipa ELMo in BERT tudi za slovenščino.
Moderne jezikovne vložitve besed so v svojem bistvu jezikovni modeli, ki se značilnosti jezika učijo tako, da poskušajo napovedati naslednjo ali prejšnjo besedo v zaporedju. Za učenje uporabljajo velike enojezične besedilne korpuse, tako da jih je mogoče učiti brez posebnega označevanja. Jezikovne vložitve ELMo so občutljive na kontekst in omogočajo tudi analize večpomenskih besed, saj za kontekst uporabljajo stavek, v katerem beseda nastopa. Jezikovne vložitve tipa BERT so še bolj napredne in pri učenju uporabljajo maskirni jezikovni model, pri katerem se učimo napovedati skrito besedo kjerkoli v stavku. Te modele je mogoče naučiti hkrati za več jezikov in tako prenašati naučene modele strojnega učenja med jeziki.
Do obeh modelov lahko prosto dostopate:
Če želite izvedeti več o omenjenih vektorskih vložitvah za slovenščino, sta na spletu dostopna dva znanstvena članka:
Ulčar, Matej and Marko Robnik-Šikonja, 2020. “High Quality ELMo Embeddings for SevenLess-Resourced Languages”. In Proceedings of the 12th Language Resources and Evaluation Conference, LREC 2020.
Ulčar, Matej and Marko Robnik-Šikonja, 2020. “FinEst BERT and CroSloEngual BERT: less is more in multilingual models.” In Proceedings of Text, Speech, and Dialogue, TSD2020.