DS4: Zbiranje besedil za razvoj strojnega prevajalnika
V sklopu 4 bomo razvili strojni prevajalnik za jezikovni par angleščina-slovenščina, ki bo na voljo na portalu RSDO kot spletna aplikacija, kot del cevovoda za govorno prevajanje in kot programska koda pod odprtokodno licenco, ki bo omogočala tudi komercialno rabo.
Razvoj jezikovnih tehnologij, kot je strojno prevajanje, je ključnega pomena za preživetje jezika v digitalni dobi, saj jih ne bo mogoče vključiti v nove načine komunikacije in metode dela ter preživljanja prostega časa, ki nam bodo na voljo v prihodnosti. Del te nevarnosti lahko že opazimo v segmentu pametnih asistentov, s katerimi se že danes lahko pogovarjamo – vendar le v nekaj jezikih (Amazon Alexa, 8 jezikov, Google Assistant, 13 jezikov in Apple Siri, 21 jezikov). S projektom RSDO želimo slovenščino pripeljati v družbo teh jezikov.
Za razvoj kakovostnega strojnega prevajalnika je treba zbrati čim večje količine prevedenih in poravnanih besedil. V primerjavi z večjimi jeziki je slovenščina v slabšem položaju, saj manj govorcev pomeni tudi manjšo količino prevodov, poleg tega pa so manjši jeziki tudi manj tržno zanimivi za razvoj komercialnih rešitev. Groba ocena količine poravnanih segmentov za jezikovni par ANG-SLO je 36 milijonov, pri čemer več kot polovica teh segmentov izvira iz podnapisov na spletnem portalu OpenSubtitles, zato so manj uporabni za razvoj strojnega prevajalnika, ki bo lahko uspešno prevajal raznolike tipe besedil. Jeziki z večjim številom govorcev imajo na voljo tudo 3 do 4-krat večje korpuse prevodov.
Iz tega razloga je eden ključnih ciljev sklopa 4 zbiranje poravnanih prevodov in izvirnikov z najrazličnejših področij, zato pozivamo vse, ki pri svojem delu proizvajajo prevode, da prispevajo svoja besedila v korpus prevodov ANG-SLO in tako pomagajo pri razvoju slovenščine v digitalnem okolju.
Potencialni besedilodajalci so lahko javne ustanove, zasebna podjetja, prevajalske agencije in posamezni prevajalci. Spodaj smo pripravili seznam najpogostejših vprašanj in odgovorov, povezanih z zbiranjem.
Odgovori in vprašanja za podjetja in lastnike besedil
Kakšna besedila lahko prispevam?
Za razvoj strojnega prevajalnika potrebujemo originalna besedila in prevode, ki so segmentirani. Tipično to pomeni, da so bili prevedeni s programom za računalniško podprto prevajanje (CAT) in so na voljo v dvojezični XML obliki (pomnilniki prevodov, datoteke XLIFF). Večina profesionalnih prevajalcev in agencij za svoje delo uporablja orodja CAT, da prevode shranijo v bazo in jih pozneje lahko hitro prikličejo, zato jih lahko enostavno vključimo v korpus.
Prevajalska agencija ali prevajalec mi ni posredoval dvojezičnih datotek. Kaj lahko storim?
Običajna praksa v prevajalski industriji je, da prevod ostanejo last naročnika, razen če je s pogodbo izrecno določeno drugače. Zato lahko pozovete svojega ponudnika prevodov, naj vam posreduje dvojezične datoteke, ki jih potem lahko prispevate v projekt RSDO.
Kaj pa če vseeno ne morem dobiti dvojezičnih datotek?
Večje količine izvirnih besedil in njihovih prevodov je mogoče poravnati tudi naknadno. Najnovejše samodejne rešitve dosegajo visoko natančnost in v projektu bomo razvili aplikacije, ki bodo omogočale strojno poravnavo besedil med jeziki, zato lahko prispevate tudi prevode, ki niso poravnani.
Želim prispevati besedila, vendar so v njih osebni podatki. Kaj lahko storim?
Osebni podatki in druge občutljive informacije je mogoče anonimizirati s postopki polavtomatske psevdonimizacije. Rezultati so zelo dobri in pred vključitvijo besedil v korpus jih boste dobili v pregled. Šele po vaši odobritvi jih bomo dodali v korpus.
Želim prispevati besedila, vendar ne želim, da bi tretje osebe lahko dostopale do mojih dokumentov.
Stavki v korpusu bodo randomizirani, t.j. pomešani med seboj v naključnem vrstnem redu. Prav tako bomo odstranili vse metapodatke, na podlagi katerih bi bilo mogoče retroaktivno sestaviti celotne dokumente, dodatno pa lahko tudi anonimiziramo imena podjetij, nazive izdelkov, naslove in podobno.
Želim prispevati besedila, vendar nisem zadovoljen s kakovostjo prevodov.
To je pogost pomislek številnih potencialnih besedilodajalcev in kaže na visoko stopnjo skrbi za materni jezik, vendar je v večini primerov ta skrb odveč. Sodobni algoritmi, ki delujejo po principu globokih nevronskih mrež, namreč lahko zelo učinkovito prepoznajo slabe oz. nestandardne prevode in jih v procesu učenja izločijo. Glede na princip gradnje korpusa (randomizirani stavki, brez metapodatkov) pa tudi ni bojazni, da bi bilo enostavno ugotoviti izvor morebitnih slabih prevodov v korpusu.
Ali je za prispevanje prevodov v korpus predvideno nadomestilo?
V okviru projekta RSDO je predvideno določeno denarno nadomestilo za prispevanje prevodov v korpus prevodov ANG-SLO. Višina je odvisna od količine besedil, področja in relevantnosti. Predlagamo, da nas kontaktirate in pripravili vam bomo prilagojeno ponudbo.
Ali bo korpus javno dostopen?
Da, v skladu z zahtevami projekta bo korpus prevodov ANG-SLO na voljo na portalu CLARIN pod licenco CC-BY-SA 4.0.
Odgovori in vprašanja za prevajalce in prevajalske agencije
Zakaj bi kot prevajalec pomagal pri aktivnosti, ki mi jemlje delo in zaslužek?
Strojni prevajalniki so zagotovo spremenili prevajalski trg v zadnjih 10 do 15 letih. Če so bili še pred desetletjem strojni prevodi iz angleščine v slovenščino praktično neuporabni, so danes vse bolj del običajnega prevajalskega vsakdana v obliki posteditinga, zlasti pri tujih naročnikih. Čeprav je neizogibno dejstvo, da so se tarife znižale, pa je po drugi strani res tudi, da svetovna prevajalska industrija iz leta v leto raste. Tako kot so pred slabimi 30 leti na trg prišla orodja za računalniško podprto prevajanje in povsem spremenila način dela v prevajalski panogi, se zdaj podoben preskok dogaja s strojnim prevajanjem. S projektom RSDO država Slovenija zagotavlja, da se razvoj slovenskega jezika ne bo dogajal samo v zaprtih krogih znotraj velikih (po večini) ameriških multinacionalk, obenem pa želimo tudi izobraziti slovensko javnost in naročnike prevodov, kaj je strojno prevajanje in v kakšnih primerih je njegova uporaba smiselna.
To sporočilo je dobro povzeto na portalu hugo.lv, ki ga je financirala Latvija za latvijski jezik, in je zelo podoben portalu, ki bo razvit v okviru projekta RSDO. V oknu za strojno prevajanje vsebuje naslednje sporočilo:
Mašīntulkošanas rezultāti ļauj saprast teksta nozīmi, bet nevar aizstāt cilvēka radītu tulkojumu.
V prevodu: Strojno prevajanje omogoča razumevanje pomena besedila, vendar ne more nadomestiti profesionalnega prevoda.
(Mimogrede, Google Translate zgornji stavek v slovenščino prevede kot “Rezultati strojnega prevajanja omogočajo razumevanje pomena besedila, vendar ne morejo nadomestiti umetnega prevoda.”, kar je še dodaten dokaz, da dela za prevajalce ne bo tako kmalu zmanjkalo.)
Ali lahko kot prevajalec oziroma prevajalska agencija prispevam besedila?
Za prispevanje besedil v korpus morate biti lastnik prevodov in originalnih besedil, kar prevajalci običajno niso. Preverite, kaj o tem piše v pogodbah o izvajanju prevajalskih storitev z vašimi naročniki.
Ali lahko kako drugače pomagam pri zbiranju besedil za korpus prevodov?
Kot prevajalec lahko obvestite svoje naročnike, da država Slovenija v okviru projekta RSDO odkupuje prevode in jim na tak način zagotovite dodaten vir dohodka. Vaši naročniki bodo zagotovo cenili tak predlog, s čimer boste še poglobili poslovni odnos, kar se bo morda odražalo tudi v novih naročilih prevodov v prihodnosti.