Pók

Pók

A pók definíciója

A pók az internetet feltérképező robotok egyik megnevezése. Ezeket a pókokat a keresőmotorok küldik ki az internetre, hogy rátaláljanak az új vagy frissített webes tartalmakra, és hozzáadhassák azokat az indexükhöz. A „pók” név onnan származik, hogy ezek az eszközök a világhálót járják, akárcsak a nyolclábú rovarok.

Pókokat szinte csak a keresőmotorok küldenek ki az internetre, és az általuk összeszedett adatokból állítják elő a keresőtalálatokat.

 

A pókokat tehát lényegében úgy kell elképzelni, mint amikor valaki besétál egy óriási, rendezetlen könyvtárba (az internet), végignézi az összes könyvet (a webhelyek és weboldalak), majd készít egy hatalmas katalógust (index) arról, hogy mi hol van, és hol lehet azonnal megtalálni őket.

 

Senki sem tudja pontosan, hogy az interneten fellelhető tartalmak mekkora hányadát indexelték már a keresőmotorok pókjai. Még a Google több milliárd oldalas indexében sem szerepel az összes nyilvánosan elérhető tartalom.

 

A pókok működése

Az internet folyamatosan bővül és változik. Folyamatosan jönnek létre új webhelyek, weboldalak, illetve változnak meg, vagy tűnnek el már elérhető tartalmak. Éppen ezért a keresőmotorok pókjai is rendszeresen kutatják a világhálót, hogy naprakészen tartsák az indexet (már amennyire ez lehetséges). A keresőmotorok éppen ezért egy fix webhelylistát „mutatnak” a pókoknak, amelyről feltérképező útra kelhetnek az interneten.

Akárcsak a felhasználók, a pókok is a linkeken, hivatkozásokon keresztül jutnak el más webhelyekre és weboldalakra. Valahányszor új hivatkozásokat találnak egy weboldalon, ezeket is követik majd, és így tovább.

Természetesen ez a folyamat szinte a végtelenségig elhúzódhat, hiszen, mint említettük, mindig jönnek létre új webes tartalmak és hivatkozások. Éppen ezért a pókok előre meghatározott szabályok szerint végzik munkájukat, és megválogatják, hogy mely oldalakat, milyen sorrendben és milyen gyakran látogassanak meg a feltérképezés céljából.

 

A weboldalak fontossága

A pókok zömét úgy állítják be, hogy meg se próbálják feltérképezni az összes nyilvánosan elérhető webes tartalmat. E helyett figyelembe veszik, hogy egy oldalnak mekkora a forgalma, hány hivatkozás mutat rá, illetve egyéb szempontokat is, ezzel prioritást adva a legfontosabb tartalmaknak.

Mindez logikus, hiszen ha egy weboldalra sok hivatkozás mutat, és sokan látogatják, akkor bizonyára fontos információkat tartalmaz, ezért fontos, hogy mindig a legfrissebb verziója szerepeljen az indexben.

 

Visszatérés a weboldalakra

Mivel az internetre nem csak új tartalmak kerülnek fel, hanem a régiek is gyakran frissülhetnek, a keresőmotorok pókjai újra és újra visszatérnek a már korábban feltérképezett, indexelt oldalakra, hogy ellenőrizzék a változásokat, és frissítsék velük az indexet.

 

A robots.txt fájl

A robots.txt fájl segítségével egy webhely korlátozhatja a pókok tevékenységeit az oldalain. Amikor egy keresőmotor pókja egy webhelyre érkezik, először is az ahhoz tartozó robots.txt fájl tartalmát ellenőrzi (ez a webhely szerverén található), és megnézi, hogy mely oldalakat tilos feltérképeznie, mely hivatkozásokat tilos követnie a webhelyen, és így tovább.

A robots.txt rendkívül hasznos lehet, de egy egyszerű félregépeléssel nagyon könnyen ki is tilthatod vele az összes pókot webhelyedről. Alaposan ellenőrizd, hogy megfelelően töltötted-e ki, ha változtattál benne valamit!

 

Miért tiltaná ki bárki is a pókokat webhelyéről?

A pókok tevékenységei nélkülözhetetlenek ahhoz, hogy egy webhely tartalmai bekerüljenek a Google és más keresőmotorok indexébe. Azonban nem minden esetben érdemes hozzáférést biztosítani nekik az összes weboldalhoz egy webhelyen.

 

A pókok, akárcsak a felhasználók, kéréseket küldenek a szerverre, amikor az oldalak tartalmait vizsgálgatják. Ezeket a kéréseket a szervernek ugyan úgy ki kell szolgálnia, mintha felhasználók érkeznének a webhelyre, tehát a pókok is lefoglalnak valamennyit a szerver erőforrásaiból. Amennyiben egy webhely több száz, vagy több ezer oldalból áll, a pókok hamar leterhelhetik a szervert, ha az oldalak többségét megpróbálják lekérni róla.

 

Előfordulhat továbbá, hogy egy webhely fejlesztői, vagy tulajdonosai nem szeretnék, hogy bizonyos weboldalak felfedezhetők legyenek, hacsak a felhasználó nem kapott már egy linket ezekhez a tartalmakhoz. Ez általában akkor fordul elő, amikor egy tartalom fizetős, vagy csak a regisztrált és bejelentkezett felhasználók férhetnek hozzá.

Jó példák még azok a weboldalak is, amiket egy cég egy adott kampányhoz hozott létre, és csak célzott, érdeklődő forgalmat szeretne fogadni rajta. Ilyenkor a webmester „noindex” utasítással jelölheti meg az adott oldalt, ami megtiltja a robotoknak, hogy elhelyezzék azt a keresőmotorok indexében (így az oldal nem fog megjelenni a keresőtalálatok között).

Ha egy webhely keresési funkciót is kínál, akkor minden egyes keresés után egy új találati oldal jön létre. A pókokat ezektől is érdemes eltiltani, hiszen ezeket a belső találati oldalakat semmi értelme indexeltetni, hogy a Google és más keresőmotorok találati oldalain is megjelenjenek – nem hasznosak senkinek, csak azoknak a felhasználóknak, akik konkrétan a keresést indították a webhelyen belül.

 

A webes pókok és a SEO kapcsolata

A SEO, azaz a keresőoptimalizálás célja, hogy webhelyedre minél több érdeklődő találhasson rá, amikor egy keresőmotort (pl. Google) használ. A SEO segít, hogy webhelyed tartalmai jól látható helyeken (magasan) jelenjenek meg a keresőtalálati oldalakon.

A keresőmotorok mindig az indexükből állítják össze a találati oldalakat, ezért fontos, hogy ne tiltsd ki a pókokat webhelyedről (csak azokról az oldalakról, amiket tényleg nem szeretnél indexeltetni).

Gyakori kérdések

Kiemelt területeink