Hrvatski nacionalni korpus: razlika između inačica

Posljednja izmjena od 7. ožujak 2022. u 21:30

Hrvatski nacionalni korpus (HNK) najveći je i najznačajniji korpus hrvatskoga jezika. Počeo se sastavljati u Zavodu za lingvistiku Filozofskoga fakulteta Sveučilišta u Zagrebu od 1998. prema zamislima Marka Tadića. Same teorijske postavke te iskaz potrebe za opsežnim, reprezentativnim, više desetaka milijuna pojavnica velikim korpusom hrvatskoga jezika počele su se pojavljivati i ranije (Tadić (1990, 1996, 1998)). Hrvatski nacionalni korpus sastavlja se od odabranih tekstova na hrvatskome jeziku iz svih područja, struka, žanrova i stilova: od književnih i znanstvenih djela do udžbenika, od novinskih tiskovina do mrežnih novina i pričaonica.

U početku je zamišljen u dvije temeljne sastavnice:

30-milijunskoga korpusa suvremenoga hrvatskoga jezika (30m) u koji su ulazili tekstovi ili njihovi odsječci nastali nakon 1990., isključivo od izvornih govornika, isključivo pisanoga teksta, različitih područja, žanrova i tematike. Nisu uključivani prijevodni i pjesnički tekstovi.
Hrvatskoga elektroničkoga tekstovnoga arhiva (HETA) u koji su ulazili tekstovi u cjelini, a ponajprije čitavi nizovi publikacija (godišta, serije, edicije itd.) koji bi svojim uključivanjem u 30m u mnogome poremetili njegovu uravnoteženost.

Od 2004., s preuzimanjem koncepcije korpusa 3. generacije, napušta se dvosastavnost u korist višesastavnosti i većega opsega. Od 2005. HNK obasiže preko 105 milijuna pojavnica i sastoji se od niza potkorpusa koji se mogu pretraživati pojedinačno i zajedno. S napuštanjem prvotne dvosastavničke koncepcije HNK prelazi na novu poslužiteljsku platformu tako da je od tada za pretraživanje HNK (još uvijek bez ograničenja) potreban slobodno dostupan Bonito klijentski program proizveden u Laboratoriju za obradbu prirodnoga jezika Informatičkoga fakulteta Masarykova sveučilišta u Brnu. S pomoću toga programa omogućeni su znatno razrađeniji i složeniji upiti nad korpusom, dobivanje raznih vrsta statističkih podataka, potpuni ili djelomični popisi riječi prema raznovrsnim ulaznim uvjetima (s njihovim čestotama), čestotna distribucija različnica, automatsko pronalaženje kolokacija itd.

Vanjske poveznice

Inačica od 26. srpanj 2021. u 10:46 vidi izvor WikiSysop (razgovor \| doprinosi) AA_Korisnik, Botovi, Birokrati, Administratori sučelja, Otajnici, Administratori 570.185 edits Bot: Automatski unos stranica		Posljednja izmjena od 7. ožujak 2022. u 21:30 vidi izvor WikiSysop (razgovor \| doprinosi) AA_Korisnik, Botovi, Birokrati, Administratori sučelja, Otajnici, Administratori 570.185 edits m brisanje nepotrebnog teksta
Redak 1:		Redak 1:
	~~<!--'''Hrvatski nacionalni korpus'''-->~~'''Hrvatski nacionalni korpus (HNK)''' najveći je i najznačajniji [[Korpus (Jezikoslovlje)\|korpus]] [[hrvatski jezik\|hrvatskoga jezika]]. Počeo se sastavljati u [http://www.ffzg.hr/zzl Zavodu za lingvistiku] [[Filozofski fakultet Zagreb\|Filozofskoga fakulteta]] [[Sveučilište u Zagrebu\|Sveučilišta u Zagrebu]] od 1998. prema zamislima [[Marko Tadić (jezikoslovac)\|Marka Tadića]]. Same teorijske postavke te iskaz potrebe za opsežnim, reprezentativnim, više desetaka milijuna pojavnica velikim korpusom hrvatskoga jezika počele su se pojavljivati i ranije (Tadić (1990, [https://web.archive.org/web/20060210154654/http://www.hnk.ffzg.hr/txts/mt4hnk.pdf 1996], [https://web.archive.org/web/20060210154533/http://www.hnk.ffzg.hr/txts/mt4hnk2.pdf 1998])). Hrvatski nacionalni korpus sastavlja se od odabranih tekstova na hrvatskome jeziku iz svih područja, struka, žanrova i stilova: od književnih i znanstvenih djela do udžbenika, od novinskih tiskovina do mrežnih novina i pričaonica.		'''Hrvatski nacionalni korpus (HNK)''' najveći je i najznačajniji [[Korpus (Jezikoslovlje)\|korpus]] [[hrvatski jezik\|hrvatskoga jezika]]. Počeo se sastavljati u [http://www.ffzg.hr/zzl Zavodu za lingvistiku] [[Filozofski fakultet Zagreb\|Filozofskoga fakulteta]] [[Sveučilište u Zagrebu\|Sveučilišta u Zagrebu]] od 1998. prema zamislima [[Marko Tadić (jezikoslovac)\|Marka Tadića]]. Same teorijske postavke te iskaz potrebe za opsežnim, reprezentativnim, više desetaka milijuna pojavnica velikim korpusom hrvatskoga jezika počele su se pojavljivati i ranije (Tadić (1990, [https://web.archive.org/web/20060210154654/http://www.hnk.ffzg.hr/txts/mt4hnk.pdf 1996], [https://web.archive.org/web/20060210154533/http://www.hnk.ffzg.hr/txts/mt4hnk2.pdf 1998])). Hrvatski nacionalni korpus sastavlja se od odabranih tekstova na hrvatskome jeziku iz svih područja, struka, žanrova i stilova: od književnih i znanstvenih djela do udžbenika, od novinskih tiskovina do mrežnih novina i pričaonica.

	U početku je zamišljen u dvije temeljne sastavnice:		U početku je zamišljen u dvije temeljne sastavnice: