Izziv 4: Napredne tehnologije za digitalno humanistiko

Specifične pomembne naloge na področju digitalne humanistike zahtevajo nove napredne jezikovne tehnologije ali prilagoditve obstoječih splošnih pristopov. V tem izzivu predstavljamo štiri tehnologije za reševanje splošnih problemov, ki jih bomo v naslednjem izzivu prilagodili specifičnim nalogam digitalne humanistike.

Aktivnost 4.1 Aktivnost 4.2 Aktivnost 4.3 Aktivnost 4.4 Letna poročila

Aktivnost 4.1: Grafi imenskih entitet

V različnih korpusih obstaja potreba po raziskovanju omrežij ljudi, organizacij, krajev in drugih entitet. Trenutne metode prepoznavanja imenskih entitet in povezovanja (Boros et al., 2020) niso ustrezno prilagojene za jezike z manj viri, zaradi česar so ti jeziki premalo zastopani v večjezičnih korpusih zgodovinopisnih virov (Schweter et al., 2022). Ta neprilagojenost omejuje možnost gradnje celovitih interakcijskih grafov za analizo pomembnih entitet in njihovih povezav v različnih časovnih obdobjih. Kompleksna analiza omrežij lahko pomaga pri razvrščanju in vizualizaciji teh entitet, uporaba predučenih jezikovno-agnostičnih modelov, kot je ULTRA (Galkin et al., 2024), za utemeljevanje tovrstnih grafov in ekstrakcijo smiselnih, jezikovno-agnostičnih podatkov pa lahko dodatno izboljša analizo časopisja iz starejših zgodovinskih obdobij in sedanjosti ter parlamentarnih transkriptov in književnosti. S konstrukcijo in vizualizacijo celovitih interakcijskih grafov želimo bistveno izboljšati razumevanje odnosov, sentimenta in pripovednih struktur v teh besedilih ter zagotoviti prepotreben vir za slovenščino in druge jezike z manj viri.

Za raziskovanje omrežij ljudi, organizacij, krajev in drugih entitet v različnih korpusih bomo metode prepoznavanja imenskih entitet in povezovanja, kot je (Prelevikj in Žitnik, 2021), prilagodili slovenskim in večjezičnim korpusom zgodovinopisnih virov. Tako bomo omogočili izdelavo interakcijskih grafov za analizo pomembnih entitet in njihovih povezav v sodobnem in zgodovinskem kontekstu. Kompleksna analiza omrežij bo razvrstila in vizualizirala ključne entitete in motive v omrežjih. Za utemeljevanje grafov bomo uporabili predučene, jezikovno-agnostične modele, kot je ULTRA.

Kazalniki 4.1: Interakcijski grafi zgodovinskih imenskih entitet (M12). Vizualizacija ektrahiranih grafov imenskih entitet (M24).

Aktivnost 4.2: Veliki jezikovni modeli za diahrono analizo

Avtomatizirano odkrivanje semantičnih sprememb je naloga ugotavljanja in analiziranja, kako se semantični pomeni besed razlikujejo v različnih kontekstih, pogosto v več letih ali desetletjih. Čeprav je bilo v ta namen razvitih več metod, se običajno uporabljajo na majhnih, specifičnih podatkovnih množic, ki predstavljajo zlati standard (Schlechtwer et al., 2020) in se osredotočajo na nove leksikalne pomene. Težji korak nastopi, ko želimo metode prilagoditi tako, da bi do smiselnih rezultatov prišli v tistih primerih v digitalni humanistiki, kjer zaznamo le majhne nianse v spremembi pomena. Cilj te aktivnosti bo z uporabo velikih jezikovnih modelov razviti nove metode za odkrivanje semantičnih sprememb, ki bodo v digitalni humanstiki podprle diahrono analizo.

Obstoječe pristope diahrone analize, ki temeljijo na kontekstualnih vložitvah (Montariol et al., 2021), bomo razširili z generativnimi velikimi jezikovnimi modeli. Novi pristop za generiranje nadomestnih besed (Periti et al. 2024) bo prilagojen za uporabo brez doučitve. Ustvarili bomo porazdelitev verjetnih zamenjav besed, vsaka zamenjava pa bo imela „utež“, ki bo temeljila na verjetnosti generiranja besed. V nasprotju z omenjeno raziskavo (Periti et al., 2024), ki vsaki generirani besedi pripiše enako težo, bo naš pristop zaznal bolj natančne pomenske razlike. Metode bomo preizkusili na zlatem standardu za semantične spremembe za slovenščino (Pranjić et al., 2024) ter na diahronih spremembah.

Kazalnik 4.2: Nova metodologija za diahrono analizo, temelječo na uporabi velikih jezikovnih modelov (M24).

Aktivnost 4.3: Multimodalni modeli za analizo slik

Analiziranje gradiv v digitalni humanistiki presega besedilo, saj pogosto vključuje multimodalna gradiva. Uporaba slikovno-jezikovnih modelov v digitalni humanistiki zlasti za jezike z manj viri, kot je slovenščina, je neraziskana, zaradi česar analiza vizualnega gradiva ni optimalno učinkovita. Celovita izgradnja slikovno-jezikovnih modelov zahteva velike količine poravnanih jezikovnih in slikovnih podatkov. Naš izziv je prilagoditi obstoječe slikovno-jezikovne modeleza specifične domene z uporabo manjše količine bolj specializiranih virov. Obstaja na primer pereča potreba po prilagoditvi velikih jezikovnih modelov in slikovno-jezikovnih modelov zahtevnim nalogam, kot so izboljšanje optične prepoznave znakov (OCR), klasifikacija in iskanje informacij, da bi učinkovito podprli raziskave v digitalni humanistiki.

Slikovno-jezikovni model, razvit v aktivnosti 1.3, bomo prilagodili in uporabili pri več nadaljnjih aktivnostih, povezanih z digitalno humanistiko, v delovnem sklopu 5. Model bomo doučili za iskanje in analizo fotografij ter prepoznavanje OCR z uporabo poravnanih večjezičnih korpusov zgodovinopisnih virov kot dodatnih učnih podatkov za učenje specializiranih slikovno-jezikovnih modelov. Nadaljnje aktivnosti bodo vključevale razvrščanje vrst vizualnega gradiva iz dokumentov iz preteklosti, analizo vsebine specifičnih virov (kot so slike iz časopisja iz starejših zgodovinskih obdobij) in tematik (npr. raziskovanje in ekstrakcijo tematskih ilustracij s področja folkloristike konfliktov in vloge junaka izobčenca).

Kazalniki 4.3: Podatkovna množica slik iz slovenskega časopisja iz starejših zgodovinskih obdobij (M24). Slikovno-jezikovni model, prilagojen za izbrane aktivnosti digitalne humantistike (M30).

Aktivnost 4.4: Veliki jezikovni modeli in RAG za detekcijo kontradikcij

Številne aktivnosti procesiranja naravnega jezika obravnavajo dinamične dokumente, ki se sčasoma spreminjajo in vsebujejo popravke prejšnje vsebine (npr. spremembe zakonodaje). Odkrivanje protislovij je temeljna aktivnost v teh domenah, saj za iskanje protislovij zahteva primerjavo več dokumentov. Vendar je iskanje pravih dokumentov za primerjavo lahko zahtevno. Perspektivni pristop, ki omogoča modelu boljšo detekcijo protislovij, je uporaba sistema RAG. Dodatna težava, ki je sistemi RAG pogosto ne upoštevajo, je časovna komponenta dokumentov, saj lahko ta informacija zagotovi pomemben dodaten kontekst pri odločanju, kateri dokumenti so lahko relevantni. Cilj tega izziva je zgraditi sistem RAG, ki bo podpiral model odkrivanja protislovij z ustreznimi dokumenti kandidati, ki bi lahko vsebovali protislovja z izvirnim dokumentom. Glavni izziv je oblikovanje vložitve dokumentov, ki poudarjajo potencialno nasprotujoče si dokumente.

Razvili bomo sistem RAG za obdelavo slovenskih dokumentov z detekcijo protislovij. Razvili bomo nov model za konstruiranje in shranjevanje vektoriziranih predstavitev dokumentov, ki bo zmožen prepoznati morebitna nasprotja med dokumenti. Pri tem bo treba prepoznati ključne entitete in odnose v besedilu ter doučiti model za kodiranje teh elementov v vložitve dokumentov. S primerjavo vektoriziranih prikazov bomo te strategije integrirali v sistem RAG z namenom detekcije protislovij med novimi in že obstoječimi dokumenti. To metodologijo bomo aplicirali tudi v pravnem izzivu aktivnosti 5.3.

Kazalniki 4.4: Novi RAG sistem za slovenščino, zmožen detekcije protislovij v dokumentih (M18).

Izziv 4: Napredne tehnologije za digitalno humanistiko

Aktivnost 4.1: Grafi imenskih entitet

Aktivnost 4.2: Veliki jezikovni modeli za diahrono analizo

KONTAKT

TRAJANJE

LOKACIJA

FINANCIRANJE

Archive