Izziv 6: Evalvacija in razumevanje velikih jezikovnih modelov

Primerjalno testiranje je ključni instrument za merjenje in spremljanje uspešnosti velikih jezikovnih modelov, ki ves čas dobivajo nove različice (Zhao et al. 2023). Čeprav imajo statični primerjalni testi omejitve, med katerimi je najpomembnejša kontaminacija velikih jezikovnih modelov s podatki iz primerjalnih testov (Zhou et al. 2023), so še vedno najbolj izvedljiva rešitev za spremljanje uspešnosti za jezike z manjšim številom govorcev, za katere dinamične alternative, kot so arene velikih jezikovnih modelov (Chiang et al. 2024), niso primerne. Za boljše razumevanje velikih jezikovnih modelov potrebujemo primerjalne teste, ki so boljši pri merjenju višjih ravni razumevanja, zlasti povezanih s kompleksnim izražanjem, figurativnim jezikom in govorjenim jezikom. Enako pomembno je odkrivanje pristranskosti v velikih jezikovnih modelih in neposredne razlage vedenja velikih jezikovnih modelov pri pomembnih nalogah.

Aktivnost 6.1 Aktivnost 6.2 Aktivnost 6.3 Aktivnost 6.4 Letna poročila

Aktivnost 6.1: Figurativni jezik in pragmatični benčmarki

Figurativni jezik, ki vključuje metafore, ironijo in sarkazem, je pomembna značilnost človeške komunikacije. Čeprav veliki jezikovni modeli kažejo izjemne sposobnosti pri prilagajanju določenemu slogu in ustvarjanju inovativnih metafor, je njihova razen razumevanja sarkazma in ironije še vedno nizka (Yakura 2024). Težave imajo tudi z razumevanjem ali detektiranjem posrednih prošenj in faux pasov (Strachan et al. 2024). Prav tako veliki jezikovni modeli bistveno zaostajajo za ljudmi pri svojih pragmatičnih sposobnostih, kot so upoštevanje zunajjezikovnega konteksta, namenov govorca, predpostavk in implicitnih pomenov (Sravanthi et al. 2024). Glavna težava pri ocenjevanju zmožnosti velikih jezikovnih modelov pri niansiranem razumevanju in tvorjenju jezika je pomanjkanje evalvacijskih množic in primerjalnih testov. Naš cilj je vzpostaviti cevovod, ki bo olajšal evalvacijo in primerjavo modelov glede na figurativni jezik in pragmatiko.

Sestavili in prilagodili bomo več podatkovnih množic ter vzpostavili cevovod primerjalnega testiranja za razumevanje figurativnega jezika, obravnavo pogovora, pragmatično sklepanje in asociativno vedenje velikih jezikovnih modelov. Začeli bomo 1) s prepoznavanjem in razlago metafor ter primerjalnim testiranjem, ki bo potrjeno in dopolnjeno s človeškimi opombami. Podatkovna množica bo vključevala veljavne in neveljavne parafraze in razlage, kar bo omogočilo evalvacijo v različnih nastavitvah, npr. besedilno ujemanje, prepoznavanje in razlaga prenesenega jezika, odgovarjanje na vprašanja itd. Za razumevanje ironije in sarkazma bomo prilagodili in prevedli test metafore in sarkazma (Adachi et al. 2004). V primerjalni test pragmatičnega razumevanja bomo vključili implikacije, predpostavke in obvladovanje pogovora v skladu z Griceovimi maksimami ter jih preizkusili s pogovornimi umetnointeligenčnimi chatboti (Sravanthi et al. 2024; Miehling et al. 2024). Nazadnje bomo s primerjalnim testom asociativnega vedenja in asociacijske razlage prilagodili podatkovno množico asociacijskih razlag z datotekami WOW in WAX (Liu et al. 2022).

Kazalniki 6.1: Primerjalni test metafor, ironije in sarkazma v slovenščini (M12). Primerjalni test razlage pragmatičnega in asociativnega vedenja (M24).

Aktivnost 6.2: Primerjalni test razumevanja govorjenega jezika

Če obstajajo številni primerjalni testi razumevanja pisnega jezika, pa je primerjalnih testov razumevanja govorjenega jezika precej manj. Vendar se z vse večjim številom multimodalnih velikih jezikovnih modelov, ki podpirajo govor (Barrault et al. 2023, Hu et al. 2024, Fathullah et al. 2024), potreba po primerjalnih testih razumevanja govorjenega jezika znatno povečuje. Cilj tega izziva je razviti primerjalni test razumevanja govorjenega jezika za slovenščino in ga vzpostaviti v evalvacijski platformi SloBENCH za evalvacijo uspešnosti sedanjih in prihodnjih velikih jezikovnih modelov, ki podpirajo govor.

Primerjalni test bo sestavljen iz 1) avtomatske prepoznave govora, 2) prepoznavanja govornih dejanj in 3) klasifikacije sentimenta. Vse tri naloge bodo integrirane v platformo SloBENCH, ki trenutno omogoča izvajanje le ene naloge avtomatske razpoznave govora. Primerjalni test bo vseboval dobesedno („kaj je bilo povedano“) in nedobesedno, normalizirano različico transkripcije z odstranjenimi različnimi oblikami disfluenc in uporabljenim standardnim jezikom. Številke, kratice in okrajšave bodo zapisane v več različicah. Izvedeni bosta dve evalvaciji: “požrešna”, ki zagotavlja najboljši možni rezultat glede stopnje napak pri besedah in znakih, in druga, ki določa najboljšo, vendar dosledno pot skozi variante glede na njihove oznake. Drugi del aktivnosti prepoznave govora bo poročilo o pristranskosti, ki je rezultat poskusov v aktivnosti 6.3. Drugi dve nalogi v primerjalnem testu, govorno dejanje in klasifikacija sentimenta, bosta rezultat poskusov in izkušenj, pridobljenih v aktivnosti 3.2.

Kazalniki 6.2: Govorna množica (4 ure) z anotacijami govornega dejanja in sentimenta (M30). Večreferenčna naloga avtomatske razpoznave govora, naloga procesiranja dialoga in sentimenta v govoru (M36).

Aktivnost 6.3: Detekcija pristranskosti v velikih jezikovnih modelih in pri avtomatski prepoznavi govora

Ocenjevanje pristranskosti v velkih jzikovnih modelih je pomemben in zahteven vidik. Ena od težav pri evalvaciji pristranskosti jezikov z manj viri je prilagajanje podatkovnih množic, saj so te pogosto kulturno specifične (EEC, Kiritchenko in Mohammad 2018), strojno prevajanje pa ni ustrezno. Zato je treba upoštevati kulturno specifično prilagoditev. Poleg detekcije pristranskosti v besedilni modaliteti se moramo osredetočiti tudi na detekcijo pristranskosti pri generiranju slik in prepoznavi govora. Zaradi uveljavljene pristranskosti pri delovanju sistemov avtomatske razpoznave govora (Feng et al. 2024) je ta tehnologija bistveno manj dostopna določenim demografskim skupinam. Ena od možnosti je odpravljanje pristranskosti v velikih jezikovnih modelih, saj se ti uporabljajo kot osnovna tehnologija za številne nadaljnje naloge; to je način, ki ga želimo raziskati.

Analizirali bomo pristranskost velikih jezikovnih modelov za unimodalne in multimodalne jezikovne in slikovne naloge ter raziskali tehniko odpravljanja pristranskosti za uporabo pri zmanjševanju/obvladovanju ravni pristranskosti v odgovorih velikih jezikovnih modelov v klepetalnih okoljih. Najprej bomo angleško podatkovno množico za evalvacijo pristranskosti EEC (Kiritchenko in Mohammad 2018) prilagodili slovenščini. Na njej bomo uporabili tehniki pozivanja brez doučitve in generiranja nadaljevanja stavka in tako ocenili stopnjo pristranskosti v velikih jezikovnih modelih. V klepetalnem okolju se različni veliki jezikovni modeli med seboj uravnotežijo, saj za odpravljanje pristranskosti uporabijo besedilo, generirano med klepetom, s pomočjo doučitve in/ali modeliranju po principu toka misli. Modeli z odpravljeno pristranskostjo bodo ocenjeni s pomočjo primera politične pristranskosti. Pri multimodalnih modelih bomo pristranskost ocenili z uporabo obstoječih klasifikatorjev za atribute, kot sta spol in etnična pripadnost v slikah (npr. CLIP, Radford et al. 2021). Pristranskost pri prepoznavi govora bomo analizirali na podlagi demografskih značilnosti govorcev, vključno s starostjo, spolom in regionalnim ozadjem.

Kazalniki 6.3: Detekcija pristranskosti za slovenščino (M24). Pristop odpravljanja pristranskosti za velike jezikovne modele (M30). Analiza detekcije pristranskosti v govorjenem jeziku (M36).

Aktivnost 6.4: Razlage velikih jezikovnih modelov na osnovi znanja

Transparentnost in zanesljivost velikih jezikovnih modelov sta temeljnega pomena za krepitev zaupanja, zagotavljanje pravičnosti in etične uporabe, spodbujanje inovacij ter skladnost z regulacijskimi standardi. Čeprav obstajajo delne rešitve pojasnjevanja, ki večinoma temeljijo na samopojasnjevanju, to še zdaleč ni dovolj. V tem raziskovalnem izzivu bomo sedanje pomanjkanje tranparentnosti velikih jezikovnih modelov obravnavali s splošno metodologijo, ki jo bomo uporabili na specifičnih zahtevnih področjih, kot so zdravorazumsko sklepanje, sklepanje v naravnem jeziku, parafraziranje in računalniška folkloristika.

Pomanjkanje transparentnosti v velikih jezikovnih modelih bomo obravnavali s splošno metodologijo, ki se bo uporabljala na specifičnih zahtevnih področjih, kot so zdravorazumsko sklepanje, sklepanje v naravnem jeziku in računalniška folkloristika. Predlagana metodologija bo uporabila i) analizo znanja specifičnega področja (npr. obstoječih ontologij, grafov znanja, navodil za anotacijo itd.), ii) polavtomatsko generiranje podatkovnih množic pojasnjevanja s pomočjo velikih jezikovnih modelov in iii) učenje velikih jezikovnih modelov na izvirnem problemu skupaj s specifičnimi podatkovnimi množicami pojasnjevanja tako v načinu doučitve kot v načinu RAG.

Kazalnik 6.4: Nova metodologija za razlage na osnovi znanja za velike jezikovne modele (M36).

Izziv 6: Evalvacija in razumevanje velikih jezikovnih modelov

Aktivnost 6.1: Figurativni jezik in pragmatični benčmarki

Aktivnost 6.2: Primerjalni test razumevanja govorjenega jezika

Aktivnost 6.3: Detekcija pristranskosti v velikih jezikovnih modelih in pri avtomatski prepoznavi govora

Aktivnost 6.4: Razlage velikih jezikovnih modelov na osnovi znanja

KONTAKT

TRAJANJE

LOKACIJA

FINANCIRANJE

Archive