Razlika između inačica stranice »Hrvatski jezični korpus«

Izvor: Hrvatska internetska enciklopedija
Skoči na:orijentacija, traži
(Bot: Automatski unos stranica)
 
m (brisanje nepotrebnog teksta)
 
Redak 1: Redak 1:
<!--'''Hrvatski jezični korpus'''-->'''Hrvatski jezični korpus''' (HJK) je korpus tekstova [[hrvatski jezik|hrvatskoga jezika]] koji se izgrađuje u Institutu za hrvatski jezik i jezikoslovlje (IHJJ).
'''Hrvatski jezični korpus''' (HJK) je korpus tekstova [[hrvatski jezik|hrvatskoga jezika]] koji se izgrađuje u Institutu za hrvatski jezik i jezikoslovlje (IHJJ).


== Pozadina ==
== Pozadina ==

Trenutačna izmjena od 21:07, 7. ožujka 2022.

Hrvatski jezični korpus (HJK) je korpus tekstova hrvatskoga jezika koji se izgrađuje u Institutu za hrvatski jezik i jezikoslovlje (IHJJ).

Pozadina

Hrvatski jezični korpus je u početku financiralo Ministarstvo znanosti, obrazovanja i športa Republike Hrvatske unutar istraživačkoga programa Hrvatske jezične mrežne riznice pod brojem 0212010 iz svibnja 2005. godine. U drugoj razvojnoj fazi, od 2007. godine, HJK se dalje razvijao kao dio istraživačkoga programa Hrvatske jezične riznice koji je također financirao MZOŠ (cf. Ćavar and Brozović Rončević, 2012[1]). U tom programu (voditeljica Dunja Brozović Rončević) HJK je razvijan kroz rezultate rada znanstvenih projekata Hrvatske jezične riznice. Voditelji HJK-a su Dunja Brozović Rončević i Damir Ćavar.

Ciljevi

Jedan od glavnih ciljeva HJK-a jest stvoriti javno dostupan korpus hrvatskoga jezika obilježen na više razina: lematizacijski, morfološki, morfosintaktički, fonološki i sintaktički. Osim onih pisanih na standardnome hrvatskom jeziku, HJK obuhvaća i tekstove iz raznih dijakronijskih faza hrvatskoga jezika, kao i digitalizirane rukopise te rječnike hrvatskoga jezika.

Format i dostupnost

Sakupljeni i digitalizirani tekstovi Hrvatskoga jezičnog korpusa obilježeni su s pomoću standarda TEI XML u inačici P5. HJK trenutačno obaseže više od 90 milijuna pojavnica. Korpusu se pristupa preko Philologicova [2] sučelja (vidi The ARTFL Project[3], Department of Romance Languages and Literatures, University of Chicago). Podijeljen je u različite potkorpuse, a za specifične istraživačke potrebe stvaraju se i prilagođeni potkorpusi.

Sadržaj

HJK je sastavljen od odabranih tekstova hrvatskoga jezika pokrivajući razne funkcionalne stilove i žanrove. Potkorpus standardnoga jezika obuhvaća pisane izvore iz razdoblja početaka standardizacije hrvatskoga jezika, tj. od druge polovice 19. stoljeća. Hrvatski jezični korpus sastoji se od sljedećih tekstova:

  • temeljnih djela hrvatske književnosti (romani, novele, crtice, drame, pjesme, eseji),
  • beletristike,
  • sveučilišnih udžbenika i znanstvenih publikacija raznih disciplina,
  • školskih priručnika,
  • prevedenih djela vrsnih hrvatskih prevoditelja,
  • mrežnih časopisa i novina,
  • knjiga iz predstandardizacijskoga perioda hrvatskoga jezika prilagođenih suvremenome jeziku.

Suradnja

Izgradnja HJK-a omogućena je suradnjom sa sljedećim ustanovama:

Referencije

Vanjske poveznice