Web pauk (eng. web spider) ili web gmizavac, web unjalo (web crawler), softver koji pretražuje podatkovnu bazu, izlistava pogotke riječi i zapisuje mjesto gdje ih je našao, indeksira pogotke u indeks prema vlastitom sustavu prosudbe, ukodira podatke na sigurno mjesto i sprema podatke za korisničku uporabu. Automatizirani je program za doticanje baza podataka, no u njih ne ulazi, a preostale zadaće su mu prikupljanje podataka iz dokumenata u bazama podataka. Web pauci preko poveznika skaču s Web mjesta na Web mjesto, prikupljajući naslove svih mjesta, URL te barem neke od njihovih tekstovnih sadržaja. Čim pronađu web mjesto, pretražuju ga, snimaju, skeniraju (eng. scan) Web stranice toga mjesta i zapisuju (eng. record) sve informacije u indeks. Web pauk cilja posjetiti milijune Web mjesta te ostati s njima u vezi koliko god je moguće. Program kojemu je funkcija indeksiranje vadi informacije iz dokumenata i sprema ih u svoju katalošku podatkovnu bazu, a što će se spremiti, ovisi o pretraživaču, pa jedni indeksiraju samo naslov, a drugi svaku riječi iz mrežnog dokumenta. Web pauk je dio web pretraživača. Ostali dijelovi su programi koji pretražuju u katalogu, te oni koji rangiraju zatim stranice u skladu s njihovom relevantnošću prema pretraženim riječima.[1]
Izvori
- ↑ Prirodoslovno-matematički fakultet Vježbe; pristupljeno 1. veljače 2020.