V zadnjih desetletjih je zaradi pojava obsežnih korpusov in naprednih računalniških orodij jezikoslovje doživelo revolucionarni prehod od raziskav, ki temeljijo na intuiciji, k pristopom, ki temeljijo na podatkih. Ta premik je pripeljal do pomembnih novih odkritij o zgradbi in rabi jezika, zlasti na področju deskriptivne in primerjalne slovnične analize. Vendar tradicionalne korpusne metode še vedno zahtevajo veliko dela in se implicitno zanašajo na že obstoječe jezikoslovne predpostavke, ki usmerjajo pridobivanje ustreznih vzorcev iz korpusov in njihovo nadaljnjo analizo. Pojav velikih jezikovnih modelov s sofisticiranimi zmožnostmi utemeljevanja ponuja prelomno priložnost za izboljšanje in razširitev teh metod z racionalizacijo in pospešitvijo korpusne jezikovne analize ter morebitnim odkrivanjem prej neznanih vzorcev jezikovne rabe. Nov pristop k slovnični analizi večjezičnih korpusov bomo razvili z doučitvijo najsodobnejših jezikovnih modelov na podatkovni množici Universal Dependencies (UD), ki zagotavlja obsežne in zanesljive morfosintaktične anotacije za številne svetovne jezike. Sistematično bomo ocenili možnosti takšnih jezikovnih modelov, izboljšanih z eksplicitnim slovničnim znanjem z namenom pridobivanja novega vpogleda v slovnico svetovnih jezikov in olajšanja jezikovne analize jezikovnih korpusov na splošno.
Razvili in evalvirali bomo novo metodo za slovnično analizo večjezičnih korpusov na podlagi velikih jezikovnih modelov. Najprej bomo množične večjezičnih velike jezikovne modele, kot sta LLaMa-3 ali T5-XXL, učili na množični večjezični podatkovni množici UD. Nato bomo sestavili večplastno podatkovno množico z izbranimi najsodobnejšimi jezikoslovnimi ugotovitvami za tri tipične korpusnojezikovne naloge: anotacijo podatkov, ekstrakcijo vzorcev in povzemanje podatkov. Na koncu bomo kvantitativno in kvalitativno ocenili zmožnosti in omejitve novega večjezičnega jezikoslovnega jezikovnega modela za te naloge, pri čemer bomo upoštevali tudi različne strategije ustvarjanja iztočnic. Novi model bo omogočil nov jezikoslovni vpogled v svetovne jezike, zajete v podatkovni množici UD, in podprl slovnično analizo jezikovnih korpusov na splošno.