Izziv 3: Veliki jezikovni modeli za govorjeni jezik
Veliki jezikovni modeli so zelo odvisni od podatkov. Pri rabi jezika obstajajo precejšnje razlike med različnimi vrstami diskurza. Večina jezikovnih podatkov izhaja iz pisnih virov. Obsežni viri govorjenih podatkov, če so sploh dostopni za raziskave, so običajno v lasti različnih podjetij ali institucij in so le redko na voljo raziskovalni skupnosti. Vendar pa se ti podatki, tudi če so javno dostopni, bistveno razlikujejo od govora, ki se uporablja v vsakdanjih pogovorih. Značilnosti, kot so ohlapnejše stavčne strukture, prekinjanje, motnje, molk, popravki, ponavljanja, napačna izgovorjava, pojasnjevanje, pritrjevanje, konflikti, žaljivke in žargon (Yeomans idr., 2023), ponazarjajo površinske posebnosti pogovora in kažejo, da ima raziskovanje takih podatkov velik potencial vpliva na jezikovne raziskave (Love idr. 2014) ter predstavlja pomemben izziv za umetno inteligenco (Wahlster 2023). Pri tem izzivu želimo z najnovejšimi metodologijami zbiranja, filtriranja, avtomatskega transkribiranja in pragmatične obdelave govornih podatkov s pomočjo velikih jezikovnih modelov doseči napredek v govornih tehnologijah in z njimi povezanih raziskavah.