Scraping
A scraping definíciója
A scraping szó magyarul kaparást vagy lekaparást jelent, azonban a szó online közegben általában egy webes tulajdon lemásolását és egy másik oldalon történő megjelenítését jelenti. Mondhatjuk úgy is, hogy scraping, vagy web scraping egy webhely adatainak kinyerése. A scraping, mint technológia használható tiszta, szabályos célokra, vagy akár lopásra is.
A scraping során összegyűjtött adatokat később általában táblázatként vagy más formátumként exportálják, hogy átláthatóbbak és könnyedén felhasználhatók legyenek. Ezek az adatok rögtön átvihetők egy alkalmazásba is, a megfelelő API használatával.
A web scraping elvégezhető manuálisan, de az esetek többségében automatizált eszközökkel (robotokkal) végzik, amelyek sokkal gyorsabban képesek kinyerni egy webhely adatait, mint egy valódi személy.
A scraping nem egy egyszerű feladat – a webhelyek többsége egyedi, és ha egy scraper bot (egy ilyen adatkinyerésre használt szoftver) jól működik az egyiken, még nem biztos, hogy a másikon is hatékony munkát végez majd.
A scraping működése
Az automata scraping botok működése meglehetősen változatos, hiszen olyan webhelyek értelmezésére kell elkészíteni őket, mik eredetileg embereknek szólnak, nem pedig robotoknak.
A scraper botnak először is egy, vagy több URL címet adnak meg, mielőtt megkezdené a scrapinget. A bot ezt követően betölti az URL-hez tartozó oldal HTML kódját. A fejlettebb scraperek a JavaScript és CSS kódokat is képesek értelmezni, így a teljes tartalom látható számukra.
A bot ez után kinyeri az oldalon található összes adatot, vagy csak azon adatmezők tartalmait, amelyekre beállították. Például egy árakat összehasonlító webhely oldalairól szeretnéd kinyerni a termékek nevét és árát, de nem vagy kíváncsi a termékek értékeléseire, stb.
A scraper bot végül egy átláthatóbb formátumban (pl. táblázatfájlként) exportálja a kinyert adatokat.
A scraperek fajtái
A webhelyek sokfélesége miatt a scraperek listája is változatos. Az egyszerűség kedvéért soroljuk most őket 4 kategóriába, de ennél persze részletesebben is megkülönböztethetők egymástól.
Saját készítésű és előre elkészített scraperek
Akárcsak egy webhelyet, egy webhelyeket lemásoló scrapert is bárki el tud készíteni magának, ha van hozzá elég szaktudása. Értelemszerűen, minél több funkciót szeretnél hozzáadni scraperedhez, annál több háttértudásra lesz szükséged hozzá.
Léteznek letölthető scraperek is, amiket mások készítettek, de közkinccsé tették őket.
Böngészőbővítmények és különálló szoftveres scraperek
A böngészőbővítmények olyan kisméretű programok, amik a Chrome, a Firefox, és más, bővítményeket támogató böngészőkbe telepíthetők fel (ha elkészítik őket az adott böngészőhöz is). Ezeket egyszerűbb lefuttatni, hiszen kényelmesen kézre állnak a böngészőn belül.
Azonban ez akár hátrány is lehet, hiszen a korszerűbb funkciókat nem feltétlenül támogatják a böngészőprogramok, így az ilyen a scraperek használata korlátozott lehet.
A különálló scraping szoftverek ezzel szemben kevésbé kényelmesek ugyan, de nem korlátozza őket a böngészők keretrendszere.
Felhasználói felület
Két scraper felhasználói felülete olyan élesen eltérhet egymástól, hogy meg sem mondanád róluk, hogy azonos jellegű programokról van szó.
Egyes web scraperek például csak egy nagyon minimális kezelőfelülettel rendelkeznek, és a funkciók nagy részét parancssoron keresztül lehet csak használni. Ez kevés felhasználónak kedvez.
Más scrapereknek teljesen kidolgozott felhasználói felületük van, ami a kérdéses webhelyet is betölti, a felhasználónak pedig csak rá kell kattintania azokra az elemekre, amiket szeretne kinyerni. Ezek használata lényegesen egyszerűbb, habár elkészítésük is bonyolultabb lehet.
Helyi és felhőben megosztott scraperek
Manapság egyre több szolgáltatás érhető el valamilyen felhőből, és ez alól a scraperek egy része sem kivétel.
A felhőalapú scraperek egy másik szerverről futnak, amit általában az a cég üzemeltet, amely a scrapert is fejleszti és kínálja. Felhőalapú scraperek használatakor a scraping folyamata nem a te számítógéped erőforrásait terheli, hanem a szerverét. Te végül csak a kinyert adatokat kapod meg, amikre szükséged van. A felhőalapú scraperek hátránya lehet, hogy kevesebb beállítást kínálnak, mint egy olyan helyi alternatíva, aminek esetleg a forráskódjához is hozzáférsz.
A helyileg működő scraperek ezzel szemben a saját rendszeredről működnek, így a saját erőforrásaidat is használják fel. Ez nagyobb webhelyek elemzése, és sok adat kinyerése során nagyon leterhelheti a számítógépet, amit talán nem is tudsz minden másra használni, míg a folyamat be nem fejeződik. Na persze, a helyileg használt scrapereknél előfordulhat, hogy hozzáférsz a forráskódjukhoz, ami korlátlan mennyiségű testreszabást tesz lehetővé.
Scraping a gyakorlatban
Jogosan merül fel a kérdés, hogy mi mindenre használhatók a scraperek. Fontos megjegyezni, hogy az adatok ilyesfajta kinyerése és tárolása önmagában általában nem minősül szabálysértésnek, hiszen egy scraper csak olyan adatokat képes megszerezni, amik nyilvánosan is elérhetők a weboldalak HTML-kódjából. Azonban az már egészen más kérdés, hogy mi a célod velük.
Természetesen semmilyen körülmények között nem javasoljuk, vagy támogatjuk az illegális célú adatkinyerést, illetve –felhasználást.
Íme egy rövid lista arról, hogy mi mindenre jó a scraping a gyakorlatban:
- Részvényárak kinyerése, majd megjelenítése egy alkalmazásban
- Email címek kinyerése egy webhelyről (csak hogy a nem éppen tiszta taktikákra is legyen egy példa)
- Címek kinyerése egy üzletkeresőből, egy üzlet-adatbázis összeállításához
- Korábbi meccsek eredményeinek és egyéb statisztikáinak kinyerése egy jövendőbeli mérkőzés kimenetelének előrejelzése céljából
- Egy saját webhely adatainak lemásolása a webhely költöztetése előtt
- Termékadatok kinyerése a termékek egyszerűbb összehasonlítása végett
Gyakori kérdések
Mi az a scraper?
A scraper, vagy web scraper egy olyan szoftver, ami képes kinyerni egy webhely adatait, saját célú felhasználásra.
Hogy működnek a scraperek?
A scraperek a weboldalak HTML tartalmát (vagy akár a CSS-t és JS-t is) vizsgálják meg, és ez alapján nyerik ki belőlük a beállított adatokat (vagy akár az egész oldalt is lemásolhatják).
Mire jók a scraperek?
A scrapereket bármilyen adat kinyerésére és összegyűjtésére lehet alkalmazni, az azonban már más kérdés hogy mihez kezdesz ezekkel az adatokkal. Az árak összehasonlítása például gyakori taktika (és szabályos is), azonban a tartalmak ellopása/lemásolása már értelemszerűen szabályellenesnek számít.
Online marketing tanácsadó 1998-óta
Diplomáim megszerzése után nem tudtam eldönteni, hogy a tudományos pályán maradjak, vagy helyezzem marketing iránti érdeklődésemet üzleti alapokra. Legyen hát a kettő együtt, gondoltam. Levelezőn kezdtem neki a marketing doktori elvégzésének, oktattam az egyetemen, közben megalapítottam a Marketing Professzorok online marketing ügynökséget. Az eltelt időszakban több, mint 500 KKV és több tucat nagyvállalat marketing kommunikációjában játszottam szerepet, mint online marketing tanácsadó. A kutatást sem adtam fel, csapatommal egy olyan marketing kommunikációs stratégiát építettünk fel, mely keresőoptimalizálás (SEO), Social Media Marketing és tartalommarketing (publishing) alapokon szinte minden iparágban eredményesen és költséghatékonyan bevethető. Amennyiben eljutottál már oda, hogy tudod, a Ti cégeteknél is egy ilyen hatékony marketing kommunikációs stratégiára van szükséged, kérd ajánlatunkat! Ha még nem érzed az Internet elsöprő erejét, olvasgasd cikkeinket - de tudom, egyszer így is eljön a Te időd!
Online marketing tanácsadás
Az online marketing nem egyezik meg az offline marketinggel. Egészen másak a reakcióidők, a reakciók, az eszközök. Legyen szó kisvállalkozásról vagy egy gyógyszergyár több brandjéről, az eddig bevált sales és marketing nem adaptálható az online világra. Nem elég egy cégbemutatkozó, sőt nem elég egy jól megírt marketing szöveg sem. Az Interneten nem csak a potenciális vevőknek írunk, a keresőmotorokat és az Internetezők szokásait is figyelembe kell vennünk. Ha viszont ezeket eltaláljuk, elkapunk egy fonalat mely akár olyan ingyenes reklámot hozhat cégünknek, amely annyi emberhez jut el, amennyit a hagyományos eszközök segítségével nem is remélhetünk. Mi kell ehhez? Keresőoptimalizálás? Közösségi média marketing? Tartalommarketing? Egy kreatív ötlet és sok-sok tapasztalat, na és mindenek előtt egy jól kidolgozott marketing stratégia!
Online PR és Publishing
Az online marketing mellett a Publishing és az online PR is része egy komplex marketing stratégiának. Gyógyszergyáraknál dolgozva megtanultam, mi az, ha az embert nem csak a kőkemény és tőkeerős konkurencia akarja megfektetni, feljelenteni, elgáncsolni, hanem a hatóságokkal és a média ellenszelével is harcolni kell. Sok olyan projektben vettem rész, ahol még csak látszódnia sem szabadott annak, hogy mit akarunk eladni, mégis konkrét eladási számokat vártak a multinacionális vállalat központjában az online PR vagy a Publishing hatására. Hibázni nem lehet, mert a konkurencia és a hatóságok szeme ránk szegeződik, a legkisebb félrelépésre is milliós büntetéseket várhatunk. Mégis rekordokat döntöttek az eladás-növekedési számok!
Online marketing előadások, oktatás és kutatás
A Gödöllői Szent István Egyetem Marketing Intézetének oktatójaként nem csak a diákok képzésében, de az elméleti kutatásokban is részt veszek. Doktori (PHD) munkám is online marketing témában készül. Az egyetemi kutató munka és a Marketing Professzorok Kft. mindennapi éles gyakorlati munkája során olyan tapasztalatokat szerezhetek, amelyet kevesen ma Magyarországon. Az élvonalbeli, EU-s forrásokból is támogatott elméleti egyetemi kutatás és az üzleti élet könyörtelen kihívásainak kombinációja hatékony és a konkurencia előtt járó tudást ad. Ezeket nem csak diákjaimnak, hanem nemzetközi marketing konferenciákon kutató társaimnak is igyekszem átadni, de ügyfeleimnél a mindennapi gyakorlatban is sikerrel alkalmazom. Keresőoptimalizálás, Facebook marketing, AdWords kampányok, LinkedIn és sorolhatnám azokat a vállalati tanfolyamokat, amelyeket tartottam az elmúlt években, kihelyezve vállalatoknál.
SEO tanácsadás, saját kutatás alapján
A SEO a komplex online marketing leghatékonyabb eszköze. A keresőoptimalizálás megítélése egy kis időre megrendült a közösségi média marketing felületek kialakulásával, amióta azonban azokon egyre inkább csak fizetett hirdetésekkel lehet nagy eléréseket produkálni, a SEO ismét vezeti a költséghatékony online marketing eszközök listáját. A keresőoptimalizálás azonban nem egy állandó rendszer, a Google algoritmusainak folyamatos változása a korábban jól prosperáló weblapok látogatottságát dönti rommá. Ahhoz, hogy naprakészek legyünk a SEO minden kis trükkjével, folyamatosan figyelnünk kell a nemzetközi irodalmat, valamint saját kísérleteket beállítva ellenőrizzük - vagy megdöntjük az onnan származó állításokat. A megszerzett tudást keresőoptimalizálási tanácsadásunk során alkalmazzuk ügyfeleink weboldalain.