Tezaurus je vrsta terminološkog rječnika koji sadrži sustavno uređene nazive određenog znanstvenog područja i osnova je svake znanstvene discipline. Da bi bio uporabljiv, među nazivima moraju postojati određeni paradigmatski odnosi te odnosi ekvivalencije. Te vrste odnosa kod dokumenata podržanih računalom uređuju se izradom tezaurusa. Danas je tezaurus nezaobilazno pomagalo za označivanje i pronalaženje informacija. Iako uključuje sinonime, antonime i homonime sadržaj tezaurusa se ne smije smatrati kao popis istih. Formiran je tako da ocrtava točnu razliku između sličnih riječi i da pomaže u odabiru prave riječi.
Razvoj tezaurusa
Riječ tesaurus (rječnik sinonimnih, asocijativnih pojmova) izvedenica je iz latinskog jezika iz 16. stoljeća i novolatinske riječi thesaurus koja je nastala od grčke riječi θησαυρός, thesauros - skladište, riznica, blago, dragocjenost. Izraz tezaurus je upotrebljavan u različitom značenju o čemu svjedoči brojna literatura, što znači da se s razvojem tezaurusa proširivalo i njegovo značenje:a) jezično blago, zbirka jezičnog blaga, b) bilo kakav rječnik, enciklopedija, leksikografski priručnik, c) nediskriminirani popis semantički povezanih riječi, d) sinonimijski rječnik, e) abecedno usustavljen rječnik sinonima i antonima, f) specijalizirani vokabular pojedinog područja znanja, na primjer medicine ili glazbe.
Od srednjeg vijeka taj se izraz koristi u prenesenom značenju za rječnike, a kasnije za enciklopedije (u smislu jezičnog blaga). Izraz tezaurus bliži današnjoj uporabi u dokumentalistici 1852. godine upotrijebio je engleski liječnik Peter Roget u svome djelu "Thesaurus – rječnik sinonima engleskog jezika". Ono što mu s današnjim tezaurusima zajedničko jest to što odgovara na pitanja „Kako naći neki izraz?“. Razlika je pak u tome što je to rječnik sinonima pa nastoji obuhvatiti bogatstvo jezika za omogućavanje raznolikosti izražavanja, dok dokumentacijski tezaurus nastoji ograničiti raznovrsnost prirodnog jezika jer za isti ili sličan pojam uvijek treba koristiti istu oznaku.
U povijesti tezaurusa presudan je bio sustav UNITERM (Mortimer Taube, 1951.) koji je pomogao razvoju tezaurusa u smislu informacijskog pretraživanja. Na međunarodnoj konferenciji o općim principima izgradnje tezaurusa u Varšavi (1970.), postaje priznat leksički instrument u pretraživanju informacija, kao rječnik termina s preciziranim vezama pojmova. UNISIST je izradio "Smjernice za oblikovanje i razvoj znanstvenih i tehničkih tezaurusa" (Guidelines for the establishment and development od scientific and tehnical thesauri for information retrieval) koje su uključene u međunarodne standarde.
Tezaurusi u informacijskim znanostima
Definicije tezaurusa
Definicija tezaurusa nije samo jedna već ih ima nekoliko i svaka o njih na neki način odražava gledište autora kao i namjenu tezaurusa. U svom izlaganju na konferenciji u Varšavi Thomas Aitchison rekao je da je to abecedni popis pojmova – deskriptora koji pruža informaciju o strukturalnim osobinama i odnosima pojmova.
Njemačko društvo za dokumentaciju tezaurus definira kao zbirku riječi prirodnog jezika (općeg i stručnog) s prikazom njihovih pojmovnih odnosa.
Leksikon knjižničarstva kaže da je tezaurus rječnik ključnih riječi koje su izražene jezikom za indeksiranje. Njegova izrada namijenjena je određenoj struci, tehničkom području i slično. Mora sadržavati: deskriptore koji se koriste u jeziku odabranog sustava i njegove veze, riječi sporednog značenja i potrebna pojašnjenja; abecedno kazalo deskriptora i ključnih riječi koje u danom sustavu postoje za riječi sporednog značenja; pregled razreda u koje su sabrani svi deskriptori određenog jezika; pravila za prevođenje ključnih riječi prirodnoga jezika u deskriptorski jezik.
Prema standardu ISO 2788-1986(E) iz Smjernica, to je sredstvo za terminološku kontrolu, koja se koristi pri prevođenju prirodnog jezika dokumenta, ključnih riječi i govora korisnika u uži, “sustavni jezik” (dokumentacijski/informacijski jezik). Nazivi deskriptorskog jezika omogućuju detaljno indeksiranje dokumenata i traženje informacija pomoću tih naziva. Mora sadržavati sve deskriptore koje koristi određeni sustav i iskazati njihovu pojmovnu srodnost. Moraju se iskazati i ključne riječi unutar sustava, koje su riječi sporednog značenja u odnosu na prihvaćene deskriptore.
Vrste tezaurusa
Tezaurus može biti: jednojezični (deskriptori/nedeskriptori iz danog prirodnog jezika); višejezični (deskriptori/nedeskriptori iz više prirodnih jezika); izvorni (ishodište za izradu novih tezaurusa); ciljani (razvijen iz izvornog tezaurusa); mikrotezaurus (dio većeg tezaurusa; makrotezaurus (pokriva široko područje znanja); specijalni tezaurus (omeđen na uže područje znanja); tematski (deskriptori se razvrstavaju po temama, područjima, disciplinama interesa); fasetni (pojmovi su apstraktnije, ali temeljitije zastupljeni; fasete (skupine pojmova iste prirode koje imaju po jednu zajedničku karakteristiku) omogućuju podjelu rječnika u semantička polja; s vodećim izrazima (samo jedan izraz za pojam dovoljan je za indeksiranje; bez vodećih izraza (svi izrazi su deskriptori).
Veze među terminima u tezaurusu i simboli u uporabi
Vrijednost tezaurusa leži u vezama među terminima koje se utvrđuju prema unaprijed određenoj shemi, a ona određuje odnos među pojmovima radi veće preciznosti. Postoje dvije skupine veza: paradigmatske (ekvivalencija - pristup deskriptorima preko pojmova u prirodnom jeziku; hijerarhija – generičke veze koje zastupaju razred pojmova i partitivne veze koje prikazuju odnos pojma i njegova dijela; asocijacija – analogija značenja među pojmovima) i sintagmatske (navode veze među deskriptorima s obzirom na kontekst, ujedinjuju sintaktičke i semantičke veze). U završnoj fazi izradbe tezaurusa provodi se praktična provjera koja pokazuje njegovu funkcionalnost, a održavanje se provodi periodičkom provjerom učestalosti uporabe deskriptora. Ključno za rad tezaurusa je usvajanje općeprihvaćenog klasifikacijskog sustava kao osnove.
Odnosi u tezaurusu moraju biti jasno definirani i kodirani, a u označavanju međusobnih odnosa kodovima u općoj su uporabi ovi simboli: BT (nadređeni širi pojam), NT (podređeni uži pojam), BTG (nadređeni generički pojam), BTP (nadređeni partitivni pojam), NTG (podređeni generički pojam), NTP (podređeni partitivni pojam), RT (srodni pojam), USE/uporabi (uputa za sinonim ili kvazisinonim; sinonim-sinonim), UF/uporabi za (sinonim, kvazisinonim, deskriptor-sinonim), UFC (za kombinaciju pojmova).
Izrada tezaurusa
Tezaurus izrađen na sistematskom ili formalnom načelu sastavlja se metodom analize i sistematike, ovisno o tipu područja literature. Pri analitičkoj metodi analiziraju se elementi koji sadržajno pokrivaju područje tezaurusa, a tijekom izrade tezaurusa stalno se uključuju novi dokumenti. Izvori termina su eksperimentalno indeksiranje dokumenata, pitanja korisnika i stručnjaka. Korištenjem sistematske (globalne, sintetičke) metode klasificira se sadržaj područja, a tezaurus nastaje na podlozi iskustva stručnjaka za pojedino područje. Izrazi se traže u sekundarnim publikacijama (katalozi, priručnici i udžbenici, stručni rječnici, klasifikacijske sheme). U prikupljanju termina može se poći od analitičke metode koja se zatim dopunjava globalnom metodom ili od sintetičke metode pri kojoj se iz sekundarnih izvora izdvajaju termini koji čine okvir tezaurusa, a analitičkom se metodom prilagođavaju stvarnom sadržaju. Svaki pojam treba biti zastupljen jednim deskriptorom ili skupinom deskriptora koji odgovara danom u tezaurusu i po mogućnosti im odrediti sadržaj. Temeljni zahtjev pri izradi tezaurusa je postizanje jednoznačnosti pri čemu pomažu homonimi i kvalifikatori koji preciziraju značenje složenog deskriptora, zatim objašnjenja i napomene o uporabi, definicija koja precizira sadržaj. Do stvaranja lažnih veza i dokumenata nerelevantnih za upit dolazi zbog paradigmatske povezanosti jednostavnih deskriptora, tj. lažne koordinacije. Ona se otklanja korištenjem indikatora uloge (simboli za smanjivanje opsega označenog) i indikatora smjera (povezivanje u smislene cjeline). Strukturu deskriptora tvore njegov širi izraz, uži i srodni izrazi te sinonimi u obliku imenice/glagolske imenice. Strukturu tezaurusa čini oblik svakog pojma u tezaurusu u međusobnim vezama, a upute u tezaurusu prikazuju veze među pojmovima. Obavezni dijelovi tezaurusa su uvod, abecedno kazalo pojmova i sistematsko kazalo deskriptora. Termini u tezaurusu mogu se kombinirati u prethodno povezane deskriptore (prekoordinacija) ili se izrazi mogu staviti u odnose naknadno u postupku označivanja ili pretraživanja (poslijekoordinacija).
Rječnik i tezaurus
Tezaurus ne definira točnu riječ, taj posao je ostavljen rječniku. Razlika između rječnika i tezaurusa najčešće se tumači kao razlika između abecednog i konceptualnoga pristupa. Korisnik rječnika tragat će za značenjem riječi, s druge pak strane, korisnik tezaurusa poći će od ideje, pojma, koncepta, tragajući za riječima, odnosno za najboljom riječi koja će taj pojam izraziti na najprikladniji način. Rječnik daje značenja riječima, a tezaurus nudi riječi za značenja. Ako je pojam dvosmislen, može biti dodano šire objašnjenje, kako bi se osigurala točnost, te zbog uputa za interpretaciju određenog pojma.
Načini uporabe
Uobičajena uporaba jest da su tezaurus i kazalo u tiskanom obliku. Pod uobičajenom se uporabom podrazumijeva da su njegovi korisnici i osobe koje indeksiraju i osobe koje pretražuju. Osoba koja indeksira pregledava tezaurus kako bi utvrdila odgovarajuće termine za pojmove koje treba indeksirati, dok osoba koja pretražuje koristi isti tezaurus kako bi utvrdila odgovarajuće termine koje treba koristiti za traženje pojmova koji je zanimaju.
Ako su i tezaurus i zbirka građe koju označava u digitalnom obliku, tada su moguća dva načina uporabe tezaurusa: indeksni tezaurus i tezaurus za pretraživanje.
Indeksni se tezaurus koristi kada rukovatelji sustavom pretpostavljaju da njihovi korisnici neće htjeti koristiti tezaurus u pripremi pretraživanja, nego će to istraživanje željeti provesti putem slobodno odabranih termina za pretraživanje. Svrha je indeksnog tezaurusa obogatiti zapise u bazi podataka tako da svaki termin koji osoba koja pretražuje izabere, treba biti prisutan u pretraživanju (dodavanje svih sinonima i užih pojmova). Tezaurus za pretraživanje koristi se na suprotan način, kao pomoć pri pretraživanju baze podataka kojoj se ne dodaju termini i tezaurusa. Ovaj se tezaurus koristi u svrhu kako bi poboljšao izraze za pretraživanje uključene u sustav: sinonime, uže pojmove; širi i srodni pojmovi mogu biti dodani početnim terminima koje predlaže korisnik/osoba koja pretražuje. To može biti podržano automatski (termini se dodaju uza znanje korisnika) ili interaktivno (korisnik odmah odabire koje od mogućih termina treba još dodati). Ti novi načini uporabe tezaurusa umnogome proširuju njegove mogućnosti u digitalnom okruženju.
Danas je veliko zanimanje za metatezauruse – to su pomagala koja dopuštaju konverziju termina između pojedinih tezaurusa. Jedan od najrazrađenijih je primjera Jedinstveni medicinski jezični sustav (Unified Medical Language System – UMLS) Nacionalne medicinske knjižnice (National Library of Medicine – NLM). Sadrži metatezaurus koji uključuje i druge rječnike iz različitih polja medicine.
Izvori
- Bawden D. (1950). Tezaurusi: nova postignuća. Vjesnik bibliotekara Hrvatske. 44(2001), 1/4; str. 182-187.
- Horvat, A. Tezaurus termina iz književnosti i znanosti o književnosti : magistarski rad. Zagreb : A. Horvat, 1981.
- Leščić, J. Klasifikacija i predmetno označivanje : priručnik za stručne ispite. Zagreb : Naklada Nediljko Dominović, 2007.
- Lešić J. (1950). O tezaurusu: načela, izradba struktura: pregled. Vjesnik bibliotekara Hrvatske. 44 (2001), 1/4; str. 172 - 181
- Nikolić-Hoyt A. Konceptualna leksikografija : prema tezaurusu hrvatskoga jezika. Zagreb : Hrvatska sveučilišna naklada, 2004.
- Urbanija, J. ; Leščić, J. Metodologija izrade tezaurusa. Zagreb : Naklada Nediljko Dominović, 2004.
- Vladimir Anić,Hrvatski enciklopedijski rječnik, Novi Liber, Zagreb, 2003.