Robot
Mik azok a robotok?
Egy SEO szakember, vagy webmester számára a robotok olyan eszközök, amelyeket a keresőmotorok a webhelyek és más online dokumentumok feltérképezésére, illetve indexelésére használnak. A robotok általában linkeken keresztül jutnak el egyik weboldalról a másikra, és így mozognak a webhelyek között is.
A robotok feladata felkeresni, átkutatni (feltérképezni) a webhelyeket, megvizsgálni azok tartalmát, adatokat gyűjteni a webhelyekről, eldönteni, hogy miről szólnak a webhelyek, és hozzáadni ezeket az információkat a keresőmotor indexéhez.
A robotokat „pókokként” vagy „feltérképezőkként” is szokás emlegetni, de általánosságban robotokként (vagy keresőrobotokként) utalunk rájuk (angol nevük „bot”).
A robotok tehát lényegében egyszerű, automatikus adatgyűjtő programok, amelyek rendszeresen átvizsgálják az internet webhelyeit, új, vagy frissült dokumentumokat és információkat keresve.
Hogy működnek a robotok?
Amikor webhelyeden egy új weboldalt hozol létre (és nem blokkolod azt a robotok elől), akkor a robotok kétféleképpen találhatnak rá: az oldalra mutató hivatkozásokon keresztül, vagy egy webhelytérkép alapján.
Amikor olyan webhelytérképet töltesz fel a keresőmotor erre kialakított felületén, amelyben egy új weboldal is szerepel, akkor az a weboldal hozzáadódik a keresőrobot feltérképezendő tartalmainak listájához.
Amikor webhelyedre egy robot érkezik (akár egy linken keresztül, akár a feltöltött webhelytérkép miatt), akkor az első feladata ellenőrizni, hogy van-e robots.txt fájl a szervereden, és ha igen, akkor mit tartalmaz. A robots.txt fájlt a webmester szabadon szerkesztheti, és szabályokat írhat elő a webhelyét meglátogató robotok számára (például megtilthatja, hogy a robotok hozzáférjenek bizonyos tartalmakhoz, és hozzáadják azokat az indexhez). Sajnos a nem tisztességes szándékkal küldött robotok figyelmen kívül hagyhatják ezt a fájlt, de ettől függetlenül ellenőrzik annak tartalmát.
Ha egy részletes, teljes útmutatóra vagy kíváncsi a robots.txt fájl használatáról, akkor itt megtalálod!
Hogyan értelmezik a weboldalakat a robotok?
Amikor egy robot ellátogat egy weboldalra, akkor „elolvassa” annak összes szöveges tartalmát, a különböző címkéket (meta címkék, képek alt címkéi, scema strukturált adatok, stb.), illetve az oldalon található hivatkozások horgonyszövegét is.
Ezen adatok alapján a keresőmotor, ami a robotot küldte megállapítja, hogy az oldal miről szól. Számos szempont van, amik alapján a keresőmotorok megvizsgálják az oldal tartalmát, és mindegyik motor más algoritmust használ erre, amik más (titkos) szabályok alapján működnek. A különböző keresőmotorok más és más adatokat tárolhatnak el a weboldalakról az alapján, hogy mit tartanak fontosnak azok értelmezéséhez és rangsorolásához.
Miután ezek az információk belekerülnek a keresőindexbe, a keresőmotor képes lesz az új oldalt is megjeleníteni a keresőtalálatok között, ha annak tartalma kapcsolódik egy lekérdezéshez (kereséshez).
Milyen gyakran látogatják meg a webhelyeket a keresőmotorok?
A keresőmotorok indexei változó időszakonként frissülnek. Amint egy webhely bekerül az indexbe, a keresőmotor robotjai rendszeresen visszalátogatnak majd rá, hogy ellenőrizzék, mi változott a webhelyen az utolsó látogatásuk óta (milyen tartalmak frissültek, mik az új tartalmak, stb.) és a frissítik az indexüket.
A Googlebot (a Google Kereső robotja) egy határérték alapján dönti el, hogy milyen gyakran térképezi fel a tartalmakat egy webhelyen. Erről egy bővebb magyarázatot ebben a cikkben olvashatsz.
A robotok korlátai
Habár a „robot” megnevezés futurisztikusan hangzik, ezek az eszközök (legalább is a keresőmotorok robotjai) valójában viszonylag egyszerű szabálykészletek szerint működnek. A keresőrobotok csak a számukra látható információt képesek feltérképezni és értelmezni, úgymint az oldalak címeit, metaadatait, és egyéb szöveges tartalmát (bizonyos kivételekkel).
A robotok nem képesek értelmezni egy kép, videó, vagy más grafika kontextusát, ezért fontos, hogy az ezeket leíró szöveges meta címkék ki legyenek töltve. Ugyan ez a helyzet a különböző összetettebb elemekkel is, mint például flash animációkkal vagy a JavaScripttel.
A robotok továbbá csak az „egyértelmű” hivatkozásokat képesek követni a weboldalakról – tehát ha egy gomb hivatkozik egy másik tartalomra, akkor képtelenek lesznek követni azt.