Toggle menu
243,9 tis.
68
18
626,3 tis.
Hrvatska internetska enciklopedija
Toggle preferences menu
Toggle personal menu
Niste prijavljeni
Your IP address will be publicly visible if you make any edits.

Hrvatski jezični korpus

Izvor: Hrvatska internetska enciklopedija

Hrvatski jezični korpus (HJK) je korpus tekstova hrvatskoga jezika koji se izgrađuje u Institutu za hrvatski jezik i jezikoslovlje (IHJJ).

Pozadina

Hrvatski jezični korpus je u početku financiralo Ministarstvo znanosti, obrazovanja i športa Republike Hrvatske unutar istraživačkoga programa Hrvatske jezične mrežne riznice pod brojem 0212010 iz svibnja 2005. godine. U drugoj razvojnoj fazi, od 2007. godine, HJK se dalje razvijao kao dio istraživačkoga programa Hrvatske jezične riznice koji je također financirao MZOŠ (cf. Ćavar and Brozović Rončević, 2012[1]). U tom programu (voditeljica Dunja Brozović Rončević) HJK je razvijan kroz rezultate rada znanstvenih projekata Hrvatske jezične riznice. Voditelji HJK-a su Dunja Brozović Rončević i Damir Ćavar.

Ciljevi

Jedan od glavnih ciljeva HJK-a jest stvoriti javno dostupan korpus hrvatskoga jezika obilježen na više razina: lematizacijski, morfološki, morfosintaktički, fonološki i sintaktički. Osim onih pisanih na standardnome hrvatskom jeziku, HJK obuhvaća i tekstove iz raznih dijakronijskih faza hrvatskoga jezika, kao i digitalizirane rukopise te rječnike hrvatskoga jezika.

Format i dostupnost

Sakupljeni i digitalizirani tekstovi Hrvatskoga jezičnog korpusa obilježeni su s pomoću standarda TEI XML u inačici P5. HJK trenutačno obaseže više od 90 milijuna pojavnica. Korpusu se pristupa preko Philologicova [2] sučelja (vidi The ARTFL Project[3], Department of Romance Languages and Literatures, University of Chicago). Podijeljen je u različite potkorpuse, a za specifične istraživačke potrebe stvaraju se i prilagođeni potkorpusi.

Sadržaj

HJK je sastavljen od odabranih tekstova hrvatskoga jezika pokrivajući razne funkcionalne stilove i žanrove. Potkorpus standardnoga jezika obuhvaća pisane izvore iz razdoblja početaka standardizacije hrvatskoga jezika, tj. od druge polovice 19. stoljeća. Hrvatski jezični korpus sastoji se od sljedećih tekstova:

  • temeljnih djela hrvatske književnosti (romani, novele, crtice, drame, pjesme, eseji),
  • beletristike,
  • sveučilišnih udžbenika i znanstvenih publikacija raznih disciplina,
  • školskih priručnika,
  • prevedenih djela vrsnih hrvatskih prevoditelja,
  • mrežnih časopisa i novina,
  • knjiga iz predstandardizacijskoga perioda hrvatskoga jezika prilagođenih suvremenome jeziku.

Suradnja

Izgradnja HJK-a omogućena je suradnjom sa sljedećim ustanovama:

Referencije

Vanjske poveznice