Roboti a pavouci na netu

Co jsou WWW roboti? Roboti jsou programy, které automaticky procházejí hypertextovou strukturu WEBu, vyhledávají a načítají dokumenty, a všechny další dokumenty, na které existují hypertextové odkazy - linky. Označení Spiders - pavouci mají tito roboti proto, že prolézají WWW pavučinu - web (World Wide Web), některé z těchto automatů, robotů označujeme termínem WebCrawlers, což lze přeložit jako specifický, plazivý robot. Pro podrobnější informace týkající se WEB robotů nabízím následující (anglicky) internetový zdroj: How Search Engines Work
Podrobnější informace o optimalizaci vlastních stránek můžete nalézt na serverech věnovaných optimalizaci pro vyhledávače - SEO - Search Engine Optimization, např. SEO Asistent - rozcestník zaměřený na SEO, SEO Tipy - nástroje, tipy, a odkazy.

Web se však stále rozrůstá, informací přibývá a pavouci to nestíhají. Dovoluji si zde odcitovat závěry, které byly v roce 2002 zveřejněny na stránce http://buben.cz/hledat - 800 milionů stránek - dokument nyní již nedostupný.

Dnešní Web představuje na 15 terrabajtů informací - na 800 milionů stránek, 180 milionů obrázků. Den co den se objevuje na 3 miliony nových stránek. Některé části Webu se indexují dobře, většina špatně a mnohé vůbec.
Výsledkem je, že indexovací vyhledávací stroje dosahují odhadem na stěží 16% světového WWW ! V roce 1998 přitom šlo o 34%.
Nejlépe na tom je vyhledavač Northern Light dosahující na 16% Webu, Altavista těsně následuje s 15.5% (0.5% rozdíl je ovšem spíš statistická chyba). Následuje Microsoft (8.5%), Yahoo (7.4%), Excite (5.6%) a Lycos (2.5%) - pokud tedy něco hledáte, máte k dispozici kompletní sadu nejlépe vybavených indexačních strojů.
Nakolik se indexy jednotlivých indexátorů překrývají či nikoliv zůstává ovšem otázkou - v extrémně příznivém případě mohou výše zmíněné indexátory dohromady obsáhnout maximálně polovinu Webu - druhá polovina zůstává neviděna a nenalezitelná.
Ani v českém prostředí na tom nejsme nijak dobře - indexátor Seznamu má omezenu databázi na 2GB a indexuje několikaprocentní zlomek českého Internetu - pokud indexuje vůbec (zpravidla se k indexování dostane stěží jednou za rok). Indexátor Atlasu je na tom sice o trochu lépe, ale ani tady to není tak dobré, jak by uživatelé potřebovali.
pozn.citovaná stránka z Webu nemá uvedené žádné datum, údaje, které autor uvádí, a které já pouze cituji, je nutno považovat za ilustrativní, orientační informace, platné ke dni, kdy byl tento text zveřejněn - toto datum známo neni.

Podrobný přehled zahraničních zdrojů, indexů (AOL, Google, Yahoo, Exite a dalších) nabízí tato tabulka - Search Engine Optimization, Guidelines, Tips - 3/8/05.

Vyhledávací servery mnohdy kombinují varianty vlastního indexu a adresářovou službu, kam je možno aktivně stránky nabídnout. V každém případě Vám doporučuji používat tzv. META TAGy - popisné údaje v hlavičce každého, jednotlivého HTML dokumentu. V těchto popisných položkách a v názvu - titulu dokumentu nepoužívat češtinu, resp. psát alespoň bez diakritiky. Některé indexy zobrazí nalezené stránky jako TITUL + META deskriptory (pokud je naleznou), pokud ne tak zobrazí např. prvních 250 znaků HTML dokumentu. Jak to může dopadnout je vidět na následujících příkladech:

Ukázky zobrazení česky definovaných stránek - grafická kopie stránek

HTML dokument v češtině, Titulek + META TAG anglicky
HTML dokument i Titulek stránky v češtině bez META TAGu
HTML dokument i Titulek stránky v češtině, server nezobrazuje META TAGy


WebMaster: Petr Kocna - kocna@cesnet.cz
HomePage: orientovaná lékařsky na 1.LF UK nebo orientovaná církevně a teologicky