Mi az a robots.txt, és hogyan segíthet a keresőoptimalizálásban?
Mi az a robots.txt, és hogyan segíthet a keresőoptimalizálásban?
A minap egy érdekes dolgot láttam: az egyik étterem hozzá nem értő honlapkészítője kitiltotta a Google robotját a weboldaláról, így az szinte teljesen eltűnt a keresőből. Hogy ez veled ne történhessen meg, ismerd meg a robots.txt fogalmát!
Történt 2018 őszén, hogy egyik ügyfelünk felvett egy új kollégát, egy marketingest. A hölgy a marketinghez sem ért nagyon, de korából kiindulva az online marketingről pedig fogalma sincs. Meg van azonban az a kapcsolatrendszere, mellyel szeret dolgozni, így bármilyen meglepő eredményeket is értünk el az Isten háta mögötti étteremmel, elbúcsúztunk a cégtől, és ők új honlapot készítettek az új marketing ügynökséggel. Nincsen ezzel semmi baj, van ez így néha. A telefonomon azonban megmaradt a Google találatokat figyelő alkalmazásban az étterem, így meglepődve tapasztaltam, mekkorát zuhannak a weboldal eredményei. Kíváncsi lettem, vajon mitől?
Ismertem ezt az ügynökséget, tíz évvel ezelőtt bejárta a nevük az online marketinggel foglalkozó világot, egy erős csúsztatás, vagy inkább csalás révén. Saleses kollégájuk ugyanis azzal hívta fel hideg hívásokkal cégek marketingeseit, hogy szeretnének-e a Keresőben az első helyen jönni a legfontosabb kulcsszavakra. Nyilván, mindenki szeretne a Google-ben első lenni, így sokan fizettek nekik, hiszen azt ígérték, BÁRMILYEN szóra az elsők lehetnek, évi pár ezer forintért. Később jött a döbbenet: nem a Google-ről volt szó, az illető cégnek volt egy saját adatbázisa a Neten, és annak keresőjében tudtál helyezeséseket vásárolni. Persze, ez nem sokat ért….
Hogy jön mindez a robots.txt-hez? Úgy, hogy ez a zseniális “keresőoptimalizáló cég” TELJESEN kitiltotta az új honlapból a Google robotját, azt a parancsot adva, hogy NE indexelje a honlap teljes tartalmát. Egy idő múlva aztán szóltam a cégcsoport másik marketingesének, érdemes lenne, megnézni a honlapot, hiszen hatalmas bukásban vannak, valószínűleg az ajánlatkérések is megálltak, a honlap látogatottsága a nulla felé közelít. Igyekeztek Google Ads hirdetésekkel forgalmat generálni, de azt is olyan dilettáns módon, hogy egy nem létező landing oldalra irányították a hirdetést, a hirdetésre kattintó először 404-es hibát talált.
Szóval ezért ilyen fontos a robots.txt. A negatív példa után azonban lássuk, milyen szerepet játszhat a SEO beállítások között, ha jól kezeled.
Bizony, egy egyszerű szövegfájlnak óriási hatalma van afelett, hogy a keresőmotorok robotjai hogyan bánnak webhelyeddel. Cikkünkben azt szeretnénk megmutatni, hogy hogyan használhatod te is a robots.txt-t a SEO-d fellendítésére, de előbb tisztázzuk, hogy mire is való ez a fájl!
Mi az a robots.txt?
A robots.txt egy egyszerű szövegfájl, ami megszabja az internetes robotok számára, hogy webhelyed mely oldalait térképezhetik fel, és melyeket nem. Ezek a robotok általában a keresőmotorok (például a Google) feltérképező robotjai.
Valahányszor egy ilyen robot meglátogat egy webhelyet hogy feltérképezze azt, először mindig „elolvassa” a robots.txt fájlt, és értelmezi az abban felsorolt utasításokat. Minden webhely robots.txt fájlja máshogy néz ki attól függően, hogy milyen utasításokat írtak bele.
A robots.txt-ben megadható többek között, hogy az utasítások csak bizonyos robotokra vonatkoznak-e, vagy egyszerűen az összesre, ami meglátogatja a webhelyet. Ezen kívül meg is lehet tiltani, hogy bizonyos oldalakat megvizsgálhassanak a robotok.
Persze nem akarnád, hogy a keresőmotorok robotjai ne tudják feltérképezni webhelyed minden oldalát, nem igaz? Téves! Itt jelenik meg a robot.txt óriási haszna a keresőoptimalizálással foglalkozók számára.
Miért olyan hasznos a robots.txt fájl?
Egy átlagos webhely sokkal több oldalból áll, mint gondolnád. Egy keresőmotor robotjának az a célja, hogy webhelyed összes oldalát feltérképezze. Természetesen minél több oldalad van, annál tovább tart ez a folyamat, és ez akár árthat is a rangsorolásodnak az adott keresőmotorban. De miért?
A robotok egy úgynevezett feltérképezési keret (vagy büdzsé) alapján dolgoznak, ami meghatározza, hogy hány oldalt látogathatnak és vizsgálhatnak meg egy webhelyen. Ez a keret két fő részből áll:
Feltérképezés gyakoriságának határértéke
A Google magyarázata (amit ITT megtalálsz) szerint a Googlebot (a Google robotja) elsődleges prioritása az, hogy feltérképezze a különböző webhelyeket, mindezt úgy, hogy közben ne zavarja meg a felhasználók böngészési élményét az épp vizsgált webhelyen. A Google éppen ezért korlátozza, hogy a robotja milyen gyakran kérhet le egy webhelyet. Ez a feltérképezés gyakoriságának határértéke.
A határérték szabja meg, hogy a Googlebot hány párhuzamos kapcsolatot használhat, hogy feltérképezze a webhelyet, illetve hogy milyen időközönként kérheti le annak tartalmát. A feltérképezés gyakoriságát két fő tényező befolyásolja:
A feltérképezés állapota: Ha egy webhely egy ideig nagyon gyorsan válaszol a lekérésre, akkor a határérték megnő, és a Google egyszerre több kapcsolatot használhat a feltérképezésre. Ha a webhely lelassul, vagy szerverhibákat ad vissza, akkor a határérték lecsökken, és a Googlebot kevesebbet térképez fel a webhelyből.
A Google Search Console-ban beállított korlátozás: A webmesterek akár saját maguk is lekorlátozhatják a Googlebot feltérképezését webhelyükön, azonban a Google ezt nem javasolja, hacsak nincs külön szükség rá. Ezen kívül egy nagyobb manuális határérték nem feltétlenül jelenti azt, hogy a robot többet térképez majd fel a webhelyből.
Feltérképezési igény
Ha a feltérképezés gyakoriságának határértékét még nem érte el a robot az adott webhelyen, de nincs szükség további indexelésre, akkor a Googlebot csökkenti a feltérképezés intenzitását. Ebben két tényező játszik szerepet:
Népszerűség: Azokat az URL-eket, amik népszerűbbek az interneten általában többször térképezi fel a Googlebot, hogy rendszeresen frissüljön az indexben tárolt verzió.
Elavultság: Ha egy URL kezd elavulttá válni a Google indexében, akkor a Googlebot igyekszik minél előbb frissíteni azt egy feltérképezéssel.
A feltérképezési igényt egyéb tényezők is befolyásolhatják a webhely irányából – például ha a webhely nemrég költözött át egy új címre, akkor megnőhet az igénye a feltérképezésre, hogy az index az új URL-eket tárolhassa el a webhelyről.
„A feltérképezés gyakorisága és a feltérképezési igény alapján a feltérképezési keret azon URL-ek mennyisége, amelyeket a Googlebot fel képes és fel akar térképezni.” – Google Webmaster Central Blog, 2017 január.
A Google tehát csak egy limitált számú oldalt lesz képes (és hajlandó) feltérképezni webhelyeden, ezért biztosítanod kell, hogy legfontosabb oldalaid legyenek azok.
A Google szintén ebben a cikkében hívta fel rá a figyelmet, hogy bizonyos tényezők negatívan befolyásolhatják egy webhely feltérképezését és indexelését.
A feltérképezési keretet befolyásoló tényezők
A Google vizsgálatai szerint az alacsony értékű URL-ek negatív hatással lehetnek a webhely feltérképezésére és indexelésére. Az alacsony értékű URL-ek a következő kategóriákba sorolhatók be (jelentőségük sorrendjében):
- Oldalakra osztott (faceted) navigáció, és munkamenet-azonosítók
- On-site duplikált tartalmak
- „Lágy” 404-es hibaoldalak
- Feltört oldalak
- Végtelen helyek és proxyk
- Rossz minőségű és spamjellegű tartalmak
„Ha a szerver erőforrásai ilyen oldalakra pazarlódnak el, akkor csökkenni fog a feltérképezési aktivitás az olyan oldalakon, amik valóban értékesek, így tovább tart majd felfedezni egy webhely igazán nagyszerű tartalmait.” – Google Webmaster Central Blog, 2017 január.
Szóval mi köze mindehhez a robots.txt-nek? Nos, mint említettük, ez a fájl képes „megtiltani” a robotoknak, hogy bizonyos oldalakat feltérképezzenek a webhelyeden. Ebből következik, hogy ha ezeket az oldalakat kizárod a feltérképezésből, akkor a robotok feltérképezési kerete az igazán hasznos, értékes oldalakra használódik majd el.
Olyan, mintha egy piacon paradicsomokat árulnál – értelemszerűen csak a legszebbeket viszed ki, hogy a vásárlók lássák, te csak szép, egészséges paradicsomokat termelsz. Esetedben digitális paradicsomokról van szó – a tartalmaidról –, a vásárlókat pedig a Google képviseli. A célod az, hogy a Google a legjobb tartalmaid alapján rangsorolja webhelyedet.
Ha kizársz ilyen felesleges oldalakat a feltérképezésből, azzal a szerveredet is megkíméled attól, hogy webhelyed összes tartalmát ki kelljen szolgálnia a Google-nak. Ez kevesebb belassulást eredményez majd, így – mint már olvashattad – a Googlebotnak több lesz a feltérképezési kerete.
A robots.txt fájl használata
Ideje tehát elkezdeni használni ezt a bizonyos fájlt a SEO fellendítésére. Nézzük meg, hogy hol találod, és hogy mit is érdemes beleírnod.
Hogy nézheted meg a robots.txt fájlt
Minden webhely rendelkezik robots.txt fájllal, sokan mégsem tudják, hogy létezik. Ezt a fájlt saját webhelyeden is könnyedén ellenőrizheted. Nincs más dolgod, mint beírni webhelyed URL-jét, majd a / jel után annyit, hogy robots.txt. Ez például a Google robots fájlja: google.com/robots.txt
Próbáld ki ezt a módszert saját webhelyeden is. Ha megjelenik egy fájl, amiben valami hasonlót látsz (és esetleg egyéb sorokat):
User-agent: *
Disallow:
akkor megvan a fájl. Viszont ha nem látsz semmit, vagy egy 404-es hibaoldal jelenik meg, akkor készítened kell egy saját fájlt (mindjárt eljutunk oda is).
Érdemes megvizsgálni néhány webhely robot.txt fájlját ezzel a módszerrel, mert sokat tanulhatsz mások taktikáiból.
Hol megtalálod a robots.txt fájlt
A robots.txt fájl webhelyed gyökérkönyvtárában található. Először is meg kell tehát keresned ezt a könyvtárat. Hogy ez hol van, az attól függ majd, hogy milyen webtárhelyet használsz. Szükség esetén kérd meg a rendszergazdát, hogy segítsen megtalálni. A webfejlesztődnek bizonyára szintén van hozzáférése ehhez a fájlhoz.
A Jegyzettömb az egyik legjobb eszköz a robots fájl szerkesztésére – a Microsoft Word és hasonló fejlettebb szerkesztők plusz kódrészleteket helyezhetnek el a fájlban, ami megzavarhatja a robotokat!
Hogyan hozz létre robots.txt fájlt, ha nincs ilyened
Ha nincs robots.txt fájlod, akkor készítened kell egy sajátot, hiszen csak így használhatod SEO-ra, vagy bármi másra. Ez a fájl kerüljön webhelyed gyökérkönyvtárába, és ügyelj rá, hogy a kiterjesztése .txt legyen.
Mielőtt elkezdenéd szerkesztgetni a robots fájlt, érdemes megismerkedned a benne használt szintaxissal. A Google-nak egy egész útmutató-sorozata van erről a témáról – mindenképpen érdemes végiglapozni az egészet, ha tényleg szeretnél megismerkedni a robots fájllal és használatával.
A következőkben megnézzük, hogy hogyan készül el egy alapvető robots.txt fájl.
A user-agent szabály azt szabja meg, hogy mely robotokra vonatkozik a robots.txt fájl tartalma. Nem csak a Google-nak van ilyen robotja (Googlebot), de szerencsére nem is kell tudnod az összes nevét. Egy egyszerű csillaggal jelezheted, hogy minden robotra vonatkoznak az általad megadott szabályok:
User-agent: *
A következő sorba a disallow szabály kerül. Ezzel szabhatod meg, hogy mely oldalaidat nem térképezhetik fel a robotok.
User-agent: *
Disallow:
Mivel jelenleg semmit nem zártál ki a disallow segítségével, így az összes (*) robot feltérképezheti webhelyed minden oldalát.
A robots.txt fájlban ezen kívül elhelyezheted webhelytéképedet is. Ezt nem muszáj, de segítheti a robotok munkáját. Helyezd el a webhelytérképet XML formátumban a webhely gyökérkönyvtárában (ahol a robots fájl is van), és add meg az elérési útját a sitemap paraméterrel:
Ehhez persze az kell, hogy a webhelytérkép-fájl neve sitemap.xml legyen.
Jelen pillanatban van egy alapvető, szabványos robots.txt fájlod:
User-agent: *
Disallow:
Sitemap: https://webhelyed.hu/sitemap.xml
Szóval hogy lesz ebből SEO csodafegyver?
A robots.txt, mint SEO eszköz
A robots.txt „optimalizálása” SEO-ra attól függ, hogy milyen tartalmak szerepelnek webhelyeden. Íme néhány gyakori felhasználási mód.
Mint említettük, a robots.txt-t érdemes arra használni, hogy a keresőmotorok robotjainak feltérképezési keretét maximálisan ki tudd használni. Ehhez ki kell zárnod a robotokat webhelyed azon oldalairól, amik egyébként sem nyilvánosak. Egy jó példa erre webhelyed adminisztrátori belépőfelülete – felesleges, hogy ez az oldal megjelenjen a keresési találatok között.
Ha ki szeretnéd zárni a robotokat egy oldalról, akkor erre a disallow szabályt kell használnod. Ilyenkor nem a teljes URL-t kell megadni, hanem csak az oldal címének azt a részét, ami a „.hu” után következik. A cím e részét két / jel közé kell írni. Tehát éldául:
Disallow: /oldal-neve/
Rendben, most már ez is tiszta. De milyen oldalakat érdemes kizárni a feltérképezésből? Nézzünk meg néhány példát.
Direkt duplikált tartalmak
A duplikált (többször előforduló, megegyező) tartalmakat nem kedvelik a keresőmotorok, mert megzavarhatják őket a megfelelő találatok rangsorolásában. Néha elkerülhetetlen, és indokolt duplikált tartalmakat használni egy webhelyen, de ügyelni kell rá, hogy a robotok csak egy verziót vizsgálhassanak meg a feltérképezéskor.
Ha például oldalaidnak van könnyedén olvasható verziója látáskárosultak számára, akkor ezeket a verziókat felesleges feltérképeztetni a keresőmotorokkal.
„Köszönjük…” oldalak
Ezek az oldalak általában egy vásárlás, feliratkozás, vagy bármilyen más konverzió után jelennek meg – a webmesterek gyakran ezeken helyezik el a konverziókövető kódokat. Ezek az oldalak tehát hasznosak a webhely üzemeltetője számára (és kedves gesztusok a felhasználó szemében), de bizonyos esetekben a robotok is megtalálhatják őket.
Noindex
Ez nem konkrét oldal ugyan, de érdemes tudni róla. Mindeddig a disallow szabályt használtuk, hogy kizárjunk oldalakat a feltérképezésből, de fontos észben tartani, hogy a disallow még nem garantálja, hogy az adott oldal nem kerül majd indexelésre.
Egy feltérképezésből kizárt oldal tehát elvileg továbbra is bekerülhet valahogy az indexbe, ami persze nem célszerű. Itt lép színre a noindex szabály, ami a disallow szabállyal együtt biztosítja, hogy a robotok nem térképezhetik fel és nem indexelhetik a megjelölt oldalakat.
Vegyük az előző „Köszönjük…” oldalas példát. Ha teljesen kizárod ezeket az oldalakat robots.txt segítségével, akkor egyrészt nem terheled feleslegesen a feltérképezési keretet, másrészt nem jelenhetnek meg a Google találatok között, ami hamis konverziókhoz vezethet, és megzavarhatja statisztikáidat.
Ha a „Köszönjük…” oldal címe webhelyeden „https://webhelyed.hu/koszonjuk/, akkor a következőképpen nézne ki a robots fájlod:
Disallow: /koszonjuk/
Noindex: /koszonjuk/
Nofollow
A nofollow szintén nem külön oldaltípus, ráadásul nem is a robots.txt fájl része, de funkciója szorosan kapcsolódik a témához, ezért jó, ha tudsz róla.
A nofollow szabály lényegében ugyanazt csinálja, mint egy nofollow-ként megjelölt hivatkozás, csak éppen az egész oldal összes linkjére vonatkozik, tehát a robotok az oldalon szereplő egyik hivatkozást sem követik majd feltérképezéskor. Tehát a nofollow szabály szintén a robotoknak szól annak ellenére, hogy nem a robots fájl része.
A nofollow szabályt a weboldal és közé kell írni! Fontos, hogy a kód aközé kerüljön, és még azon belül se más címkék közé. Ha szeretnéd, akkor noindex szabályt is beállíthatsz az oldal összes hivatkozására, akár önmagában, akár a nofollow-val együtt:
Ilyenkor a robotok mindkét szabályt az egész oldalra vonatkozóan értelmezik majd. Nos, ezt alkalmazta helytelenül az étterem új honlapkészítője.
Teszteld robot.txt fájlodat
Minél több mindent írsz robots.txt fájlodba, annál több lehetőséged van elvéteni itt-ott egy-egy hibát. Szerencsére a Google-nak van egy eszköze, ami kifejezetten ezt a fájlt segít ellenőrizni és tesztelni.
Ezt a Search Console régi felületén találod, amihez az új felület bal alsó sarkában térhetsz vissza.
A régi felületen válaszd a Feltérképezés menüt, azon belül pedig a robots.txt tesztelése elemet. Ha a szövegdobozban van valamilyen szöveg, akkor töröld azt, és másold be újonnan elkészített robots fájlod tartalmát. Válaszd ki, hogy mely robottal szeretnéd tesztelni a kódot (érdemes a Googlebotot választani), majd kattints a piros Teszt gombra. Ha a gomb szövege Engedélyezettre változik, akkor minden rendben. Ellenkező esetben a Google megmutatja, hogy milyen problémák vannak a kóddal.
Végül nincs más dolgod, mint feltöltened az új robots.txt fájlt webhelyed gyökérkönyvtárába, vagy legalább kicserélni annak teljes tartalmát az új fájléval. Érdemes mindenekelőtt készíteni egy biztonsági másolatot valamilyen más néven az eredeti robots.txt fájlról, ha korábban már módosítottad.
Online marketing tanácsadó 1998-óta
Diplomáim megszerzése után nem tudtam eldönteni, hogy a tudományos pályán maradjak, vagy helyezzem marketing iránti érdeklődésemet üzleti alapokra. Legyen hát a kettő együtt, gondoltam. Levelezőn kezdtem neki a marketing doktori elvégzésének, oktattam az egyetemen, közben megalapítottam a Marketing Professzorok online marketing ügynökséget. Az eltelt időszakban több, mint 500 KKV és több tucat nagyvállalat marketing kommunikációjában játszottam szerepet, mint online marketing tanácsadó. A kutatást sem adtam fel, csapatommal egy olyan marketing kommunikációs stratégiát építettünk fel, mely keresőoptimalizálás (SEO), Social Media Marketing és tartalommarketing (publishing) alapokon szinte minden iparágban eredményesen és költséghatékonyan bevethető. Amennyiben eljutottál már oda, hogy tudod, a Ti cégeteknél is egy ilyen hatékony marketing kommunikációs stratégiára van szükséged, kérd ajánlatunkat! Ha még nem érzed az Internet elsöprő erejét, olvasgasd cikkeinket - de tudom, egyszer így is eljön a Te időd!
Online marketing tanácsadás
Az online marketing nem egyezik meg az offline marketinggel. Egészen másak a reakcióidők, a reakciók, az eszközök. Legyen szó kisvállalkozásról vagy egy gyógyszergyár több brandjéről, az eddig bevált sales és marketing nem adaptálható az online világra. Nem elég egy cégbemutatkozó, sőt nem elég egy jól megírt marketing szöveg sem. Az Interneten nem csak a potenciális vevőknek írunk, a keresőmotorokat és az Internetezők szokásait is figyelembe kell vennünk. Ha viszont ezeket eltaláljuk, elkapunk egy fonalat mely akár olyan ingyenes reklámot hozhat cégünknek, amely annyi emberhez jut el, amennyit a hagyományos eszközök segítségével nem is remélhetünk. Mi kell ehhez? Keresőoptimalizálás? Közösségi média marketing? Tartalommarketing? Egy kreatív ötlet és sok-sok tapasztalat, na és mindenek előtt egy jól kidolgozott marketing stratégia!
Online PR és Publishing
Az online marketing mellett a Publishing és az online PR is része egy komplex marketing stratégiának. Gyógyszergyáraknál dolgozva megtanultam, mi az, ha az embert nem csak a kőkemény és tőkeerős konkurencia akarja megfektetni, feljelenteni, elgáncsolni, hanem a hatóságokkal és a média ellenszelével is harcolni kell. Sok olyan projektben vettem rész, ahol még csak látszódnia sem szabadott annak, hogy mit akarunk eladni, mégis konkrét eladási számokat vártak a multinacionális vállalat központjában az online PR vagy a Publishing hatására. Hibázni nem lehet, mert a konkurencia és a hatóságok szeme ránk szegeződik, a legkisebb félrelépésre is milliós büntetéseket várhatunk. Mégis rekordokat döntöttek az eladás-növekedési számok!
Online marketing előadások, oktatás és kutatás
A Gödöllői Szent István Egyetem Marketing Intézetének oktatójaként nem csak a diákok képzésében, de az elméleti kutatásokban is részt veszek. Doktori (PHD) munkám is online marketing témában készül. Az egyetemi kutató munka és a Marketing Professzorok Kft. mindennapi éles gyakorlati munkája során olyan tapasztalatokat szerezhetek, amelyet kevesen ma Magyarországon. Az élvonalbeli, EU-s forrásokból is támogatott elméleti egyetemi kutatás és az üzleti élet könyörtelen kihívásainak kombinációja hatékony és a konkurencia előtt járó tudást ad. Ezeket nem csak diákjaimnak, hanem nemzetközi marketing konferenciákon kutató társaimnak is igyekszem átadni, de ügyfeleimnél a mindennapi gyakorlatban is sikerrel alkalmazom. Keresőoptimalizálás, Facebook marketing, AdWords kampányok, LinkedIn és sorolhatnám azokat a vállalati tanfolyamokat, amelyeket tartottam az elmúlt években, kihelyezve vállalatoknál.
SEO tanácsadás, saját kutatás alapján
A SEO a komplex online marketing leghatékonyabb eszköze. A keresőoptimalizálás megítélése egy kis időre megrendült a közösségi média marketing felületek kialakulásával, amióta azonban azokon egyre inkább csak fizetett hirdetésekkel lehet nagy eléréseket produkálni, a SEO ismét vezeti a költséghatékony online marketing eszközök listáját. A keresőoptimalizálás azonban nem egy állandó rendszer, a Google algoritmusainak folyamatos változása a korábban jól prosperáló weblapok látogatottságát dönti rommá. Ahhoz, hogy naprakészek legyünk a SEO minden kis trükkjével, folyamatosan figyelnünk kell a nemzetközi irodalmat, valamint saját kísérleteket beállítva ellenőrizzük - vagy megdöntjük az onnan származó állításokat. A megszerzett tudást keresőoptimalizálási tanácsadásunk során alkalmazzuk ügyfeleink weboldalain.