Izziv 3: Veliki jezikovni modeli za govorjeni jezik

Veliki jezikovni modeli so zelo odvisni od podatkov. Pri rabi jezika obstajajo precejšnje razlike med različnimi vrstami diskurza. Večina jezikovnih podatkov izhaja iz pisnih virov. Obsežni viri govorjenih podatkov, če so sploh dostopni za raziskave, so običajno v lasti različnih podjetij ali institucij in so le redko na voljo raziskovalni skupnosti. Vendar pa se ti podatki, tudi če so javno dostopni, bistveno razlikujejo od govora, ki se uporablja v vsakdanjih pogovorih. Značilnosti, kot so ohlapnejše stavčne strukture, prekinjanje, motnje, molk, popravki, ponavljanja, napačna izgovorjava, pojasnjevanje, pritrjevanje, konflikti, žaljivke in žargon (Yeomans idr., 2023), ponazarjajo površinske posebnosti pogovora in kažejo, da ima raziskovanje takih podatkov velik potencial vpliva na jezikovne raziskave (Love idr. 2014) ter predstavlja pomemben izziv za umetno inteligenco (Wahlster 2023). Pri tem izzivu želimo z najnovejšimi metodologijami zbiranja, filtriranja, avtomatskega transkribiranja in pragmatične obdelave govornih podatkov s pomočjo velikih jezikovnih modelov doseči napredek v govornih tehnologijah in z njimi povezanih raziskavah.

Aktivnost 3.1 Aktivnost 3.2 Aktivnost 3.3 Aktivnost 3.4 Letna poročila

Aktivnost 3.1: Učinkovito zbiranje podatkov o govorjenem jeziku

Na voljo je nekaj podatkov o pogovornem jeziku v slovenščini (Verdonik et al. 2024), vendar ne zadoščajo za trenutne potrebe (Love et al. 2017). Zato je razvoj sodobne in trajnostne rešitve za zbiranje podatkov o pogovornem jeziku prvi izziv, s katerim se bomo ukvarjali. Zbiranje podatkov o govornem jeziku na daljavo je nujno za pridobivanje geografsko razpršenih podatkov, zlasti za jezike, ki niso angleščina (Parent in Eskénazi, 2011). Vendar pa je glavni izziv motiviranje državljanov za darovanje posnetkov govora. Razumevanju motivacije državljanov za prispevanje podatkov o govoru ali njihovemu odnosu do tehnologij, ki temeljijo na velikih jezikovnih modelih, je bilo namenjene malo pozornosti. Naš cilj je raziskati stališča državljanov do tehnologij velikih jezikovnih modelov, ki temeljijo na govoru, ugotoviti njihove motive in vzpostaviti učinkovit spletni pristop za trajnostno zbiranje govornih podatkov.

Uporabili bomo uspešni platformi za množično zbiranje podatkov, Games-With-A-Purpose (GWAP) in Collect4NLP, ter oblikovali spletni vmesnik za zbiranje posnetkov govora, pri čemer bomo upoštevali ekonomske, etične in pravne vidike ter hkrati poenostavili in avtomatizirali zbiranje metapodatkov. Nadalje bomo raziskali stališča uporabnikov o tehnologijah velikih jezikovnih modelih, ki podpirajo govor, in preučili strategije za motiviranje govorcev, da prispevajo v govorne zbirke podatkov, npr. ozaveščanje o pomenu zaupanja in zasebnosti. Uporabili bomo teorijo samoodločanja, da bi poudarili vlogo notranjih motivacij, kot so prispevanje k znanstvenim raziskavam, ohranjanje jezikovne dediščine in družbena povezanost. Zbrani posnetki, ročne transkripcije in večreferenča transkripcija primerjalnega dela podatkov bodo javno objavljeni.

Kazalniki 3.1: Spletni vmesnik za zbiranje posnetkov pogovorov (M4). Ročne transkripcije pogovorov za učni govorni korpus (5 ur) (M7). Ročne večreferenčne transkripcije za primerjalni govorni korpus (1 ura novih podatkov + 3 ure obstoječih podatkov, pridobljenih z avtomatsko prepoznavo govora) (M25). Govorni korpus s posnetki pogovorov (M36).

Aktivnost 3.2: Semantično in pragmatično procesiranje govora

Ljudje si v pogovoru razlagajo pomen na več ravneh. Ena od ključnih ravni je namen oz. funkcija izreka. Že na primer preprosto vprašanje „Zakaj?“ lahko glede na kontekst razumemo ali kot zahtevo po informaciji ali kot izraz oklevanja. Teorija govornih dejanj (Austin 1975) pojasnjuje to raven pomena in je ena najvplivnejših teorij v pragmatiki. Vendar se je izkazalo, da je za avtentične podatke neustrezna (Levinson 2017). Zato so raziskovalci za pojem „govorno dejanje“ razvili alternativne razlage. Opisovanje govorne rabe, zlasti pogovornega govora, z zanesljivimi, dobro uravnoteženimi in ustreznimi anotacijami ter razlagami govornih dejanj in z njimi povezanih ravni pomena v kontekstu obeta boljše razumevanje tega, kako izražamo pomen, pa tudi učinkovitejšo semantično in pragmatično procesiranje govora. S pojavom na govoru temelječih velikih jezikovnih modelov (Baevski et al. 2020; Radford et al. 2022), ki opravljajo tako ekstrakcijo kot tudi obsežno interakcijo značilnosti, je obdelava govora ob upoštevanju pragmatičnih kategorij postala izvedljiva (Miah et al. 2023).

Anotacije govornih dejanj in z njimi povezanih semantičnih ravni, zlasti izražanja sentimenta, bodo izvedene na slovenskih posnetkih pogovora, dolgih najmanj pet ur. Kritično bomo analizirali temeljne kategorije dialoških dejanj in njihove povezave z drugimi semantičnimi ravnmi, kot je izražanje sentimenta. Avtomatizirali bomo prepoznavanje govornih dejanj in prepoznavanje sentimenta iz govornih podatkov, pri čemer bomo uporabili govorno podprte velike jezikovne modele, predhodno učene tudi na slovenščini, npr. XLS-R, MMS, Whisper in Seamless.

Kazalniki 3.2: Razširjeni učni govorni korpus z oznakami govornih dejanj in sentimenta (najmanj 5 ur posnetkov pogovorov) (M10). Modeli za prepoznavanje govornih dejanj in sentimenta v govorjeni slovenščini (M30).

Aktivnost 3.3: Nadzor kakovosti in flitriranje govornih podatkov

Govorni podatki so ključni za razvoj velikih jezikovnih modelov in njihovo prilagoditev za učinkovito prepoznavanje govorjenega jezika (Prabhavalkar et al., 2023). Vendar pa je zbiranje takšnih podatkov, zlasti za jezike z manj viri, kot je slovenščina, precejšen izziv. Tipična strategija vključuje pridobivanje posnetkov iz različnih javno dostopnih medijev in pretočnih platform. Ti posnetki se pogosto zelo razlikujejo glede na raznolikost govorcev, tematike, narečja in akustična okolja ter izkazujejo širok razpon ravni kakovosti. Uporaba nefiltriranih podatkov za obsežno učenje modelov ali natančno prilagajanje lahko negativno vpliva na natančnost in zanesljivost modelov. Poleg tega je v skladu z načeli zelene IKT, ki dajejo prednost zmanjševanju porabe energije in emisij toplogrednih plinov (Georgescu et al., 2021), neselektivna uporaba velikih podatkovnih množic okoljsko zaskrbljujoča. Zato je za učinkovito upravljanje velikih naborov podatkov o govoru nujno oceniti ustreznost podatkov pred njihovo uporabo v postopkih učenja ali doučitve. Ta korak je ključen tudi za ohranjanje natančnosti in zmanjševanje pristranskosti v raziskavah digitalne humanistike, ki temeljijo na jezikovnih tehnologijah. Naš cilj je razviti metode izbiranja govornih podatkov, ki bodo povečale učinkovitosti pri zbiranju in analizi govornih podatkov.

Posnetki govorjene slovenščine bodo pridobljeni iz javno dostopnih virov, npr. javno dostopnih videoposnetkov. Te podatkovne množice zajemajo različne govorce iz različnih demografskih skupin. Posnetki lahko predstavljajo izzive, kot so nizka kakovost, šumi v ozadju, negovorni elementi (npr. tišina, petje, glasba), prekrivanje govora in tujejezična vsebina. Zaščitili bomo govorce, ki so mladoletni ali pripadajo socialno ranljivim skupinam. Najprej bomo analizirali značilnosti in atribute vzorčnih podatkov. Ugotovljene kategorije bomo uporabili za (a) izbiro objektivnih govornih/zvočnih metrik za nadzor kakovosti in (b) opredelitev akustičnih klasifikacij govornih posnetkov na podlagi atributov. Obe komponenti bosta vključeni v postopek predhodnega izbiranja zbranih govornih posnetkov. Razvita govorna podatkovna baza bo ocenjena s sistemom avtomatske prepoznave govora z velikimi modeli za splošni govor.

Kazalniki 3.3: Baza posnetkov slovenskega govora s podatki, pridobljenimi iz javno dostopnih virov (najmanj 300 ur) (M36)

Aktivnost 3.4: Veliki jezikovni modeli za prepoznavo domensko specifičnega govora

Zagotoviti zelo natančno avtomatsko prepoznavo govora je še vedno izziv, zlasti v realnih okoljih s šumom v ozadju, naglašenim govorom, preklapljanjem med jeziki/dialekti in domensko specifičnim besediščem (Hu et al, 2024). Tradicionalni modeli avtomatske razpoznave govora imajo v takšnih razmerah pogosto težave. Vključevanje velikih jezikovnih modelov, predhodno učenih na obsežnih besedilnih podatkih, lahko potencialno izboljša zanesljivost avtomatske razpoznave govora, saj zaradi jezikovnega znanja omeji število možnih transkripcij (Ma et al., 2024; Miao et al., 2022; Min & Wang, 2023). Vendar pa učinkovito združevanje komponent avtomatske razpoznave govora in velikih jezikovnih modelov predstavlja raziskovalni izziv, zlasti za jezike z manj viri, ki so premalo zastopani v podatkih za predhodno učenje modelov (Zhengdong et al, 2024; Hu et al, 2023b). Cilj te raziskovalne naloge je izvesti celovito primerjalno analizo za oceno učinkovitosti različnih tehnik za povezovanje avtomatske razpoznave govora in velikih jezikovnih modelov ob upoštevanju omejitev jezikov z manj viri. Razviti želimo inovativno metodo za domensko specifično avtomatsko razpoznavo govora, ki bo izkoristila potencial njene integracije v velike jezikovne modele in bo optimizirana za jezike z manj viri.

Izvedli bomo obsežno študijo o povezovanju avtomatske razpoznave govora in velikih jezikovnih modelov (ki bo vključevala plitve in globoke pristope združevanja), nato pa izmerili učinkovitost teh metod pri delovanju avtomatske razpoznave govora in njeni zanesljivosti. Poudarek bo na a) identifikaciji pristopov, ki so najprimernejši za jezike z manj viri glede na njihove omejitve v povezavi z velikimi jezikovnimi modeli, in b) uporabnosti posameznih metod integracije avtomatske razpoznave govora v jezikovne modele pri preklapljanju domene/konteksta (v realnem času) brez prilagajanja modela razpoznave govora. Na podlagi rezultatov bomo razvili novo metodo za domensko specifično prepoznavo govora, ki bo izkoristila potencial integracije avtomatske razpoznave govora v velike jezikovne modele za jezike z manj viri.

Kazalniki 3.4: Nova metoda za integracijo domensko specifične avtomatske razpoznave govora v velike jezikovne modele za jezike z malo viri (M36)

Izziv 3: Veliki jezikovni modeli za govorjeni jezik

Aktivnost 3.1: Učinkovito zbiranje podatkov o govorjenem jeziku

Aktivnost 3.2: Semantično in pragmatično procesiranje govora

Aktivnost 3.3: Nadzor kakovosti in flitriranje govornih podatkov

Aktivnost 3.4: Veliki jezikovni modeli za prepoznavo domensko specifičnega govora

KONTAKT

TRAJANJE

LOKACIJA

FINANCIRANJE

Archive