Izziv 6: Evalvacija in razumevanje velikih jezikovnih modelov
Primerjalno testiranje je ključni instrument za merjenje in spremljanje uspešnosti velikih jezikovnih modelov, ki ves čas dobivajo nove različice (Zhao et al. 2023). Čeprav imajo statični primerjalni testi omejitve, med katerimi je najpomembnejša kontaminacija velikih jezikovnih modelov s podatki iz primerjalnih testov (Zhou et al. 2023), so še vedno najbolj izvedljiva rešitev za spremljanje uspešnosti za jezike z manjšim številom govorcev, za katere dinamične alternative, kot so arene velikih jezikovnih modelov (Chiang et al. 2024), niso primerne. Za boljše razumevanje velikih jezikovnih modelov potrebujemo primerjalne teste, ki so boljši pri merjenju višjih ravni razumevanja, zlasti povezanih s kompleksnim izražanjem, figurativnim jezikom in govorjenim jezikom. Enako pomembno je odkrivanje pristranskosti v velikih jezikovnih modelih in neposredne razlage vedenja velikih jezikovnih modelov pri pomembnih nalogah.