Izziv 5: Izbrani izzivi digitalne humanstike
Digitalna humanistika je široko raziskovalno področje, ki vključuje številne humanistične in družboslovne discipline. V tem izzivu obravnavamo tri izzive, ki znatno vplivajo na druge.
Digitalna humanistika je široko raziskovalno področje, ki vključuje številne humanistične in družboslovne discipline. V tem izzivu obravnavamo tri izzive, ki znatno vplivajo na druge.
Raziskave digitalne humanistike o diskurzu v velikih jezikovnih korpusih so se tradicionalno opirale na nenadzorovane tehnike razvrščanja besedil, kot je modeliranje tem. Vendar pri mnogih razširjenih tehnikah pogosto pride do preprileganja, pogosto pa so tudi nestabilne. To je še posebej problematično pri odkrivanju latentnih značilnosti diskurza, kot so njegove ideološke osnove, ki zahtevajo kompleksne jezikovne dokaze. Da bi se spopadli s tem izzivom, želimo uporabiti znanje, pridobljeno z velikimi jezikovnimi modeli v kombinaciji z grafi imenskih entitet. Ker so takšni grafi sestavljeni iz medsebojno povezanih nizov dinamičnih odnosov med (imenskimi) entitetami (Hogan idr. 2021), jih je mogoče učinkovito uporabiti za intergracijo in konceptualizacijo temeljnih diskurzivnih pojavov, kot so ideologije (van Dijk 2017). Naš cilj je zgraditi grafe znanja za kritično analizo diskurza, temelječe na velikih jezikovnih modelih, in izluščiti ključne entitete politične, družbene in institucionalne moči (van Dijk 2013), kot se kažejo v slovenskem časopisju preteklih obdobij. Tako bomo omogočili diahrono analizo ideoloških sprememb in s tem povezanih semantičnih leksikalnih premikov v zgodovinskem časopisnem diskurzu.
Najprej bomo z grafi imenskih entitet iz aktivnosti 4.1 raziskali odnose med osebami, kraji in organizacijami v korpusu slovenske zgodovinske periodike sPeriodika 1.0 (1771-1914). Za analizo grafov imenskih entitet bomo uporabili pristop mešanih metod, pri čemer bomo kombinirali kvantitativno mrežno analizo s kritično analizo diskurza. Raziskava se bo osredotočila na nastanek in razvoj prepletenih zgodovinskih identitet: nacionalne, jezikovne, politične, družbenoekonomske in verske. Ker se lahko odnosi med zgodovinskimi identitetami skozi čas semantično spreminjajo, bomo diahrono analizo iz aktivnosti 4.2 nato uporabili za preučevanje odnosov, predsodkov in ideologij družbenih elit v različnih časovnih obdobjih. Grafe bomo uporabili kot približke za dinamično spreminjajoče se identitete, da bi raziskali ohranjanje jezikovnih ideologij in preučili, kako so bile te ideologije zgodovinsko povezane z drugimi vidiki ustvarjanja identitet posameznikov in krajev. Raziskali bomo tudi diahrone semantične premike leksike, povezane z vzponom in padcem zgodovinskih nacionalizmov, s poudarkom na konceptih državnosti. Raziskali bomo 1) nasprotja med panslovansko, jugoslovansko in slovensko identiteto, 2) kako so bili takšni pojmi povezani s ključnimi centri moči tistega časa (npr. habsburško cesarstvo do začetka 20. stoletja) in 3) kako takšne identitete vključujejo manjše regionalne identitete.
Kazalnik 5.1: Novi metodološki pristopi k zgodovinski in ideološki analizi z uporabo velikih jezikovnih modelov LLMs (M18). Nove analize ideoloških konceptov skozi zgodovino (M36).
Pravljice, ljudske pripovedke, druge etnografske pripovedke, očarljive zgodbe, stkane skozi čas, niso le brezčasne zgodbe, temveč odsev družb, ki so jih ustvarjale in pripovedovale. Izziv je avtomatizirati analizo pripovedne strukture s preučevanjem različnih različic zgodb skozi čas in kulture. Z razvojem metodologije za računalniško folkloristiko, ki temelji na velikih jezikovnih modelih, želimo povečati učinkovitost in natančnost primerjalnih študij v folkloristiki, kar bo omogočilo obsežne diahrone, medjezikovne in medkulturne primerjave.
Oblikovali bomo korpuse rokopisov iz starejših zgodovinskih obdobij, razprav in etnografskih besedil (biografij, dnevnikov, revij, potopisov itd.) različnih evropskih izvorov (španskega, francoskega, nemškega, angleškega, italijanskega, slovenskega in hrvaškega) od 15. do 19. stoletja ter digitaliziran nacionalni arhiv slovenskih ljudskih pripovedk. Na teh korpusih bomo uporabili velike jezikovne modele in tako izvedli obsežno diahrono, sinhrono in anahrono raziskavo sprememb diskurza v praksah reševanja konfliktov. Na že digitaliziranih starih tiskih ali natipkanemu gradivu bomo velike jezikovne modele uporabili za izdelavo kakovostnih transkripcij. Že zbrane ilustracije (približno 500) o ritualu reševanja sporov bomo analizirali s slikovno-jezikovnim modelom iz aktivnosti 4.3. Z uporabo vlikih jezikovnih modelov, prilagojenih za odkrivanje specifičnih motivov in mitov, bomo opravili obsežno analizo ritualov sporov in sklepanja miru, kot se pojavljajo v etnografskih besedilih in ljudskih pripovedkah, pri čemer bomo zajeli tudi motive izgona in lik junaka izobčenca. Ta pristop bo omogočil primerjalno analizo slovenskih in drugih evropskih pravljic in mitov o reševanju sporov.
Kazalniki 5.2: Nova metodologija za digitalno folkloristiko (M18). Nove analize ritualov reševanja sporov (M36).
Med pravnim postopkom je treba poiskati in obdelati velike količine dokumentov. Ta opravila so lahko učinkovitejša, napake pa manj pogoste ob uporabi velikih jezikovnih modelov, ki nudijo podporo pri pravnem odločanju in obdelavi informacij. Pomemben izziv na pravnem področju je odkrivanje protislovij, saj zahteva samodejno prepoznavanje problematičnih delov pravnih dokumentov. Naš cilj je zasnovati rešitev za odkrivanje pravnih nasprotij z uporabo sistema RAG, ki bo samodejno prepoznal potencialno kontradiktorne dokumente iz baze znanja in jih posredoval modelu za detekcijo kontradikcij.
Veliki jezikovni modeli in sistem RAG za detekcijo kontradikcij iz T4.4 bomo prilagodili slovenski pravni domeni. Sistem bo zmožen upravljanja s slovenskimi pravnimi besedili ter ekstrakcije semantičnih in pravno relevantnih informacij. Model bomo uporabili za nalogo detekcije kontradikcij v pravnih dokumentih. Najprej bomo zbrali neobdelane pravne podatke in ustvarili pravno podatkovno množico slovenskih besedil. Nato bomo izvedli pravno evalvacijo ključnih predpisov, pravnih precedensov in literature, ki jo bo uporabil sistem RAG. Zgradili bomo pravne komponente za iskanje in vektorizirali besedila. Na koncu bomo v sistem RAG vključili znanje o katetrih. Celovita rešitev na pravnem področju bo v pomoč pri pravnih raziskavah, analizi dokumentov, prepoznavanju morebitnih tveganj, podpori pravnim primerom, preverjanju skladnosti s predpisi in sistemu vprašanj in odgovorov.
Kazalniki 5.3: Podatkovna množica slovenskih pravnih besedil (M18). Sistem, temelječ na RAG, za slovensko pravno podporo (M36)
Vsebinska vprašanja:
marko.robniksikonja@fri.uni-lj.si
Trajanje projekta:
September 2024- september 2027
Fakulteta za računalništvo in informatiko
Večna pot 113, SI-1000 Ljubljana, Slovenija
Soba: R2.06 (2. nadstropje)