Hrvatski jezični korpus
Hrvatski jezični korpus (HJK) je korpus tekstova hrvatskoga jezika koji se izgrađuje u Institutu za hrvatski jezik i jezikoslovlje (IHJJ).
Pozadina
Hrvatski jezični korpus je u početku financiralo Ministarstvo znanosti, obrazovanja i športa Republike Hrvatske unutar istraživačkoga programa Hrvatske jezične mrežne riznice pod brojem 0212010 iz svibnja 2005. godine. U drugoj razvojnoj fazi, od 2007. godine, HJK se dalje razvijao kao dio istraživačkoga programa Hrvatske jezične riznice koji je također financirao MZOŠ (cf. Ćavar and Brozović Rončević, 2012[1]). U tom programu (voditeljica Dunja Brozović Rončević) HJK je razvijan kroz rezultate rada znanstvenih projekata Hrvatske jezične riznice. Voditelji HJK-a su Dunja Brozović Rončević i Damir Ćavar.
Ciljevi
Jedan od glavnih ciljeva HJK-a jest stvoriti javno dostupan korpus hrvatskoga jezika obilježen na više razina: lematizacijski, morfološki, morfosintaktički, fonološki i sintaktički. Osim onih pisanih na standardnome hrvatskom jeziku, HJK obuhvaća i tekstove iz raznih dijakronijskih faza hrvatskoga jezika, kao i digitalizirane rukopise te rječnike hrvatskoga jezika.
Format i dostupnost
Sakupljeni i digitalizirani tekstovi Hrvatskoga jezičnog korpusa obilježeni su s pomoću standarda TEI XML u inačici P5. HJK trenutačno obaseže više od 90 milijuna pojavnica. Korpusu se pristupa preko Philologicova [2] sučelja (vidi The ARTFL Project[3], Department of Romance Languages and Literatures, University of Chicago). Podijeljen je u različite potkorpuse, a za specifične istraživačke potrebe stvaraju se i prilagođeni potkorpusi.
Sadržaj
HJK je sastavljen od odabranih tekstova hrvatskoga jezika pokrivajući razne funkcionalne stilove i žanrove. Potkorpus standardnoga jezika obuhvaća pisane izvore iz razdoblja početaka standardizacije hrvatskoga jezika, tj. od druge polovice 19. stoljeća. Hrvatski jezični korpus sastoji se od sljedećih tekstova:
- temeljnih djela hrvatske književnosti (romani, novele, crtice, drame, pjesme, eseji),
- beletristike,
- sveučilišnih udžbenika i znanstvenih publikacija raznih disciplina,
- školskih priručnika,
- prevedenih djela vrsnih hrvatskih prevoditelja,
- mrežnih časopisa i novina,
- knjiga iz predstandardizacijskoga perioda hrvatskoga jezika prilagođenih suvremenome jeziku.
Suradnja
Izgradnja HJK-a omogućena je suradnjom sa sljedećim ustanovama:
- Školska knjiga
- Hrvatska akademija znanosti i umjetnosti (HAZU)
- Matica hrvatska, Stoljeća hrvatske književnosti
Referencije
Vanjske poveznice
- Hrvatski jezični korpus (HJK) i Hrvatska jezična riznica Instituta za hrvatski jezik i jezikoslovlje
- Institut za hrvatski jezik i jezikoslovlje
- Hrvatski nacionalni korpus, još jedan korpus hrvatskoga jezika koji je izgrađen u Zavodu za lingvistiku Filozofskoga fakulteta Sveučilišta u Zagrebu.