IZDELAVA SEZNAMOV BESED IN n-GRAMOV ZA RAZLIČNE RAVNI ŠOLANJA IN RAZLIČNE PREDMETE

V projektu je bil formiran korpus učbenikov za osnovne in srednje šole, iz njega pa so bili izluščeni seznami besed, n-gramov in ključnih besed. Korpus je bil iz izvornih formatov (PDF, html) pretvorjen v besedilo, ki je bilo preverjeno, popravljeno in strukturno označeno. Korpus vsebuje okoli 5 milijonov pojavnic iz 127 učbenikov za 16 predmetov. V drugem koraku je bilo izvedeno luščenje, pri čemer je bilo upoštevanih več kriterijev, ki naj bi zagotovili kvalitetne sezname. Ti so bili pregledani tudi ročno. Končni rezultat so sledeči seznami:

Seznam splošnih besed, ki se pojavljajo v vsaj 8 od 16 šolskih predmetov. Seznam vsebuje podatke o lemi, besedni vrsti, frekvenci (tudi po predmetu) in številu predmetov.
Seznam splošnih besed po nivoju šolanja (razred/letnik), ki vsebujejo podatke o lemi, besedni vrsti, frekvenci (tudi po ravni šolanja) in številu predmetov (od skupno 16).
Seznam 2-5-gramov, ki vsebuje podatke o besednih oblikah n-grama, njegovih lemah, besednih vrstah in oblikoskladenjskih oznakah ter o pogostosti in številu predmetov (od skupno 16), v katerih se pojavlja n-gram.
Seznami so dostopni pod licenco CC BY na:

Kosem, Iztok; Pori, Eva and Arhar Holdt, Špela, 2019, Keywords and n-grams from a textbook corpus, Slovenian language resource repository CLARIN.SI, http://hdl.handle.net/11356/1215.

POVEZAVE IN KONTAKT

dr. Iztok Kosem
Center za jezikovne tehnologije Univerze v Ljubljani
Fakulteta za računalništvo in informatiko Univerze v Ljubljani
Večna pot 113, SI-1000 Ljubljana