Dubinsko pretraživanje interneta

Izvor: Hrvatska internetska enciklopedija
Skoči na:orijentacija, traži

Rudarenje podataka

Rudarenje podataka (Data mining) je proces sortiranja, organiziranja ili grupiranja velikog broja podataka i izvlačenje relevantnih informacija. Rudarenje podataka mogli bismo definirati kao pronalaženje zakonitosti u podatcima. Ti podatci mogu biti organizirani u podatkovne baze, ali isto tako to mogu biti i tekstualni podatci, nestrukturirani podatci proizašli iz interneta, ili pak podatci organizirani u vremenske serije. Cilj rudarenja podataka je identificirati vrijedne nove, potencijalno korisne veze i uzorke u postojećim podatcima. Rudarenjem podataka dolazi se do logičnosti u podatcima, odnosno otkrivanja odnosa, pravilnosti, zakonitosti i ostalih struktura među podatcima.

Rudarenje podataka se može koristiti za:

  1. zbrajanje podataka
  2. segmentiranje
  3. klasificiranje
  4. predviđanje
  5. asocijaciju (prepoznavanje uzoraka)


Rudarenje Weba

Rudarenje Weba je dio rudarenja podataka specijalizirano za otkrivanje podataka na internetu, posebice na World Wide Webu. Ogromne baze podataka bogate su podatcima, ali i siromašne informacijama koje su skrivene u pohranjenim podatcima. Rudarenje podataka pomaže otkriti važne informacije i znanje utkano u podatke.Također, uvelike pridonosi donošenju odluka, poslovanju i znanosti.
Rudarenje Web-a je integracija informacija prikupljenih od strane tradicionalnih metoda i tehnika rudarenja podataka, sa informacijama prikupljenim na World Wide Webu.
Rudarenje Web-a služi za razumijevanje ponašanja kupaca, ocjenjivanja učinkovitosti neke web-stranice i pri određivanju uspješnosti neke marketinške kampanje.

Postoje tri vrste rudarenja web-a:

  1. Web Usage Mining
  2. Web Content Mining
  3. Web Structure Mining

Content mining se koristi za pregledavanje podataka prikupljenih od strane tražilica i web paukova. Zove se još i rudarenje Web teksta jer je tekst najraširenije područje istraživanja.
Structure mining se koristi za ispitivanje podataka povezanih sa strukturom određenog web mjesta.
Može se podijeliti u dvije vrste:

  • izvlačenje uzoraka iz hiperpoveznica na Webu
  • Rudarenje strukture stranice (analiza i opis HTML I XML oznaka na stranici)

Usage mining se koristi za pregledavanje podataka koji se odnose na preglednik nekog određenog korisnika, kao i na podatke prikupljene putem obrazaca koje je korisnik predao tijekom web transakcije.
Sastoji se od tri faze:

  • predobrada
  • otkrivanje uzoraka
  • analiza uzoraka

Informacije prikupljene putem rudarenja web-a procjenjuju se koristeći tradicionalne parametre rudarenja podataka, kao što su grupiranje i klasifikacija, spajanje i ispitivanje redoslijednih uzoraka.


Rudarenje web-a je privlačno raznim tvrtkama (personalizirani marketing), pa i vladinim organizacijama (borba protiv terorizma). Tvrtke mogu uspostaviti bolje odnose sa svojim potrošačima jer mogu bolje upoznati potrebe potrošača, i brže reagirati na njihove upite. Postoje i problemi kod Rudarenja web-a. Sama tehnologija Web mininga ne uzrokuje nikakve probleme, dok korištenje te tehnologije na osobnim podatcima može činiti štetu. Najveći takav problem bi bio narušavanje privatnosti. Privatnost je narušena kada su informacije o nekom pojedincu dobivene, korištene i diseminirane bez njegova znanja i dopuštenja. Još jedan takav problem je da tvrtke koje prikupljaju podatke za neku određenu svrhu, mogu te podatke koristiti za nešto posve drukčije. Istina je da su te tvrtke odgovorne za sva izdavanja tih podataka, i ako se primijete nekakve nepravilnosti slijedi ih sudska tužba, ali nema zakona koji ih sprječava da trguju tim podatcima. Kako popularnost World Wide Weba i dalje raste, postoji rastuća potreba za razvijanjem novih alata i tehnika koje će poboljšati njegovu cjelokupnu korisnost.
Rudarenje web-a, u usporedbi s rudarenjem podataka koje je postojalo i prije Internet eksplozije, uključuje novu paradigmu prikupljanja, integracije i analize podataka. Rudarenje web-a uključuje prepoznavanje uzoraka preko aktivnosti koje se odvijaju na mreži. Ta analiza podataka dovodi do povećanja prodaje, povećanja raznih prilika i ciljanja na određene proizvode ili usluge.

Poveznice

Literatura