Hrvatski nacionalni korpus: razlika između inačica

Izvor: Hrvatska internetska enciklopedija
Prijeđi na navigaciju Prijeđi na pretraživanje
Bot: Automatski unos stranica
 
m brisanje nepotrebnog teksta
 
Redak 1: Redak 1:
<!--'''Hrvatski nacionalni korpus'''-->'''Hrvatski nacionalni korpus (HNK)''' najveći je i najznačajniji [[Korpus (Jezikoslovlje)|korpus]] [[hrvatski jezik|hrvatskoga jezika]]. Počeo se sastavljati u [http://www.ffzg.hr/zzl Zavodu za lingvistiku] [[Filozofski fakultet Zagreb|Filozofskoga fakulteta]] [[Sveučilište u Zagrebu|Sveučilišta u Zagrebu]] od 1998. prema zamislima [[Marko Tadić (jezikoslovac)|Marka Tadića]]. Same teorijske postavke te iskaz potrebe za opsežnim, reprezentativnim, više desetaka milijuna pojavnica velikim korpusom hrvatskoga jezika počele su se pojavljivati i ranije (Tadić (1990, [https://web.archive.org/web/20060210154654/http://www.hnk.ffzg.hr/txts/mt4hnk.pdf 1996], [https://web.archive.org/web/20060210154533/http://www.hnk.ffzg.hr/txts/mt4hnk2.pdf 1998])). Hrvatski nacionalni korpus sastavlja se od odabranih tekstova na hrvatskome jeziku iz svih područja, struka, žanrova i stilova: od književnih i znanstvenih djela do udžbenika, od novinskih tiskovina do mrežnih novina i pričaonica.
'''Hrvatski nacionalni korpus (HNK)''' najveći je i najznačajniji [[Korpus (Jezikoslovlje)|korpus]] [[hrvatski jezik|hrvatskoga jezika]]. Počeo se sastavljati u [http://www.ffzg.hr/zzl Zavodu za lingvistiku] [[Filozofski fakultet Zagreb|Filozofskoga fakulteta]] [[Sveučilište u Zagrebu|Sveučilišta u Zagrebu]] od 1998. prema zamislima [[Marko Tadić (jezikoslovac)|Marka Tadića]]. Same teorijske postavke te iskaz potrebe za opsežnim, reprezentativnim, više desetaka milijuna pojavnica velikim korpusom hrvatskoga jezika počele su se pojavljivati i ranije (Tadić (1990, [https://web.archive.org/web/20060210154654/http://www.hnk.ffzg.hr/txts/mt4hnk.pdf 1996], [https://web.archive.org/web/20060210154533/http://www.hnk.ffzg.hr/txts/mt4hnk2.pdf 1998])). Hrvatski nacionalni korpus sastavlja se od odabranih tekstova na hrvatskome jeziku iz svih područja, struka, žanrova i stilova: od književnih i znanstvenih djela do udžbenika, od novinskih tiskovina do mrežnih novina i pričaonica.


U početku je zamišljen u dvije temeljne sastavnice:
U početku je zamišljen u dvije temeljne sastavnice:

Posljednja izmjena od 7. ožujak 2022. u 21:30

Hrvatski nacionalni korpus (HNK) najveći je i najznačajniji korpus hrvatskoga jezika. Počeo se sastavljati u Zavodu za lingvistiku Filozofskoga fakulteta Sveučilišta u Zagrebu od 1998. prema zamislima Marka Tadića. Same teorijske postavke te iskaz potrebe za opsežnim, reprezentativnim, više desetaka milijuna pojavnica velikim korpusom hrvatskoga jezika počele su se pojavljivati i ranije (Tadić (1990, 1996, 1998)). Hrvatski nacionalni korpus sastavlja se od odabranih tekstova na hrvatskome jeziku iz svih područja, struka, žanrova i stilova: od književnih i znanstvenih djela do udžbenika, od novinskih tiskovina do mrežnih novina i pričaonica.

U početku je zamišljen u dvije temeljne sastavnice:

  1. 30-milijunskoga korpusa suvremenoga hrvatskoga jezika (30m) u koji su ulazili tekstovi ili njihovi odsječci nastali nakon 1990., isključivo od izvornih govornika, isključivo pisanoga teksta, različitih područja, žanrova i tematike. Nisu uključivani prijevodni i pjesnički tekstovi.
  2. Hrvatskoga elektroničkoga tekstovnoga arhiva (HETA) u koji su ulazili tekstovi u cjelini, a ponajprije čitavi nizovi publikacija (godišta, serije, edicije itd.) koji bi svojim uključivanjem u 30m u mnogome poremetili njegovu uravnoteženost.

Od 2004., s preuzimanjem koncepcije korpusa 3. generacije, napušta se dvosastavnost u korist višesastavnosti i većega opsega. Od 2005. HNK obasiže preko 105 milijuna pojavnica i sastoji se od niza potkorpusa koji se mogu pretraživati pojedinačno i zajedno. S napuštanjem prvotne dvosastavničke koncepcije HNK prelazi na novu poslužiteljsku platformu tako da je od tada za pretraživanje HNK (još uvijek bez ograničenja) potreban slobodno dostupan Bonito klijentski program proizveden u Laboratoriju za obradbu prirodnoga jezika Informatičkoga fakulteta Masarykova sveučilišta u Brnu. S pomoću toga programa omogućeni su znatno razrađeniji i složeniji upiti nad korpusom, dobivanje raznih vrsta statističkih podataka, potpuni ili djelomični popisi riječi prema raznovrsnim ulaznim uvjetima (s njihovim čestotama), čestotna distribucija različnica, automatsko pronalaženje kolokacija itd.

Vanjske poveznice[uredi | uredi kôd]