A hasznos tartalmak frissítésről szólna a Google újonnan publikált tanulmánya?

2023. március 21.

A Google egy új és igazán érdekes tanulmányt hozott nyilvánosságra az oldalminőség mesterséges intelligenciával való azonosításáról. A dokumentum alapján az algoritmus működése sokban hasonlít a korábban bevezetett „hasznos tartalmak” frissítéshez.

A google nem jelentette ki, hogy a kutatás valóban a hasznos tartalmak frissítésről szól-e. A keresőóriás általában nem szokta nyilvánosságra hozni a nagyobb frissítések mögött álló algoritmusok részletes működését.

Mindezt figyelembe véve nézzük meg, hogy mi derül ki a tanulmányból, és hogy miért gondolják sokan, hogy kísértetiesen hasonlít a hasznos tartalmak frissítésre.

A hasznos tartalmak jel

1. Javítja egy osztályozó működését

A Google több mindent is elárult a hasznos tartalmak frissítésről, de még mindig nem teljesen tiszta, hogy pontosan mit is csinál az algoritmus.
Az első információfoszlányok 2022 december 6-án jelentek meg. A tweetben a következő olvasható:

„Javítja az osztályozónkat és globálisan minden nyelven működik.”

A gépi tanulásban az osztályozó az, ami az adatok kategorizálását végzi.

2. Nem kézi művelet vagy spam művelet

A Google magyarázata szerint a frissítés sem kézi művelet, sem pedig spam művelet:
„Ez az osztályozó folyamat teljesen automatikus, és egy gépi tanulási modellt használ.

Nem kézi művelet vagy spam művelet.”

3. Egy rangsorolással kapcsolatos jel

Szintén a fent említett magyarázatban olvasható, hogy a hasznos tartalmak frissítés egy olyan jel, amelyet a google a tartalmak rangsorolásához is felhasznál:

„…ez csupán egy új jel és egyike azon számos jelnek, amelyeket a Google kiértékel a tartalmak rangsorolásához.”

4. Ellenőrzi, hogy a tartalmakat emberek készítették-e

Külön érdekesség, hogy a Google szerint a frissítés azt is segít megállapítani, hogy egy tartalmat emberek készítettek-e, és hogy más embereknek szánták-e azt:
„…egy javítássorozatot vezetünk be a Keresőben, hogy az emberek könnyebben találjanak rá azokra a hasznos tartalmakra, amelyeket emberek készítettek más embereknek.

…Már várjuk, hogy a következő hónapokban tovább tökéletesítsük [ezt a technológiát], hogy még egyszerűbbé tegyük az emberek számára az olyan eredeti tartalmak meglelését, amelyeket valódi emberek valódi embereknek készítettek.”

Az augusztusi bejelentés többször is említi az emberek által készített tartalmakat, így bátran feltételezhető, hogy a hasznos tartalmak jel erre is odafigyel. A nem emberek által készített tartalmak azok a tartalmak, amelyeket egy számítógép állított elő.

5. Több elemből állhat össze

Szintén a nyári bejelentés tartalma alapján következtethetünk arra, hogy a hasznos tartalmak frissítés nem egy konkrét dolog, mint például egy algoritmus.
Danny Sullivan, a cikk szerzője szerint egy javítássorozatról van szó, ami arra utalhat, hogy több algoritmusról vagy rendszerről lehet szó, ami a haszontalan tartalmak kiszűrését célozza meg.

A szövegalkotó gépi modellek képesek előjelezni az oldal minőségét

A bevezetőben említett tanulmányra visszatérve, a dokumentum szerint a nagy nyelvi modellek (LLM-ek), mint a GPT-2 képesek pontosan azonosítani az alacsony minőségű tartalmakat.

A szerzők olyan osztályozókat használtak, amelyeket arra tanítottak be, hogy felismerjék a gépek által alkotott szövegeket. Mint kiderült, ezek az osztályozók képesek voltak azonosítani az alacsony minőségű szöveges tartalmakat, annak ellenére, hogy nem erre tanították be őket.
A nagy nyelvi modellek képesek olyan új dolgokat is megtanulni, amiket nem tanítottak meg nekik.

A Stanford Egyetem egyik GPT-3-ról szóló cikkében arról írtak, hogy hogyan tanult meg a modell saját magától angol nyelvről franciára fordítani csupán azért, mert több adatot kapott a tanuláshoz. Ez a GPT-2-nél nem fordult elő, amely kevesebb tanulóadattal is rendelkezett.
A cikk megemlíti, hogy a további hozzáadott adatok új viselkedések kialakulásához vezetnek, amelyet „felügyelet nélküli tanulásnak” hívnak. A felügyelet nélküli tanulás tehát azt jelenti, hogy egy gép megtanul elvégezni egy olyan feladatot, amire nem tanították meg.
A „kialakulás” szó itt fontos, mert arra utal, amikor egy gép olyasmit tanul meg, amire nem tanították.

Az egyetem cikkében a következő olvasható:
„A workshop résztvevői állításuk szerint meglepetten tapasztalták, hogy ilyen viselkedés jelenik meg az adatok számítógépes erőforrások egyszerű méretezéséből, és kíváncsiságukat fejezték ki azt illetően, hogy milyen további adottságok alakulhatnak ki további méretezéssel.”

A Google tanulmánya is egy ilyen új adottság kialakulását írja le – megfigyelték, hogy egy számítógépek által generált szövegek felismerésére használt eszköz az alacsony minőségű szöveges tartalmakat is képes előjelezni.

A kutatók szerint:
„Munkánk kétrétű: először is, emberi kiértékeléssel demonstráljuk, hogy az emberi és gépi eredetű szövegek megkülönböztetésére tanított osztályozók az „oldalminőség” felügyelet nélküli előjelzőiként jelennek meg, és minden tanítás nélkül képesek az alacsony minőségű oldalak azonosítására.

Ez a minőségjelzők gyors beindítását teszi lehetővé egy alacsony erőforrásokkal rendelkező környezetben.

Másodszor, mivel szeretnénk megismerni a vadonban fellelhető alacsony minőségű tartalmak elterjedtségét és természetét, alapos minőségi és mennyiségé elemzést hajtunk végre több, mint 500 millió webes cikken, aminek köszönhetően ez a legnagyobb méretű kutatás, amelyet valaha ebben a témában végeztek.”

Az OpenAI GPT-2 detektor

A kutatók két rendszert teszteltek, hogy kiderítsék, mennyire hatékonyak az alacsony minőségű tartalmak felismerésére.
Az egyik rendszer a RoBERTa volt, ami egy előtanítási módszer, és a BERT algoritmus továbbfejlesztett változata is egyben.

A Google kutatói az alábbi két rendszert tesztelték:
• Az OpenAI RoBERTa alapú GPT-2 detektorát
• A GLTR-t, ami a gépi rendszerekkel előállított szövegek „statisztikai kézjegyét” ismeri fel, a BERT és a GPT-2 segítségével

Mint kiderült, az OpenAI GPT-2 detektora ügyesebben ismerte fel az alacsony minőségű tartalmakat.
A teszteredmények leírása sokban hasonlít arra, amit eddig sikerült kideríteni a hasznos tartalmak jelről.

A mesterséges intelligencia minden nyelven képes felismerni a spamet

A tanulmányban továbbá az áll, hogy a minőségnek számos jelzője van, de ez a módszer csak a nyelvi minőségre koncentrál.
A dokumentumban az „oldalminőség” (page quality) és „nyelvi minőség” (language quality) kifejezések ugyan arra a dologra utalnak.
A kutatás áttörése az, hogy az OpenAI GPT-2 detektorának előrejelzését (amely azt állapítja meg, hogy valami gép által generált-e) sikerült felhasználni a nyelvi minőség megítélésére.

A kutatók így fogalmaztak:
„…a magas P (gép által írt) pontszámmal rendelkező dokumentumokra általában alacsony nyelvi minőség jellemző.
…A gép szerzés felismerése tehát egy hatékony proxy lehet a minsőégellenőrzésben.
Nincs szüksége felcímkézett példákra – csak egy szöveggyűjteményre, ami alapján önállóan tanulhat.
Ez különösen értékes olyan helyzetekben, amelyekben kevés felcímkézett adat áll rendelkezésre, vagy ahol az eloszlás túl összetett az eredményes mintavételezéshez.
Például nehéz egy olyan felcímkézett adatgyűjteményt összeállítani, amely minden rossz minőségű internetes tartalmat magába foglal.”

Mindez azt jelenti, hogy ezt a rendszert nem kell külön megtanítani mindenféle alacsony minőségű tartalom felismerésére, mert képes magától rátalálni a rossz minőségű tartalmak különböző fajtáira.

Az eredmények hasonlítanak a hasznos tartalmak frissítésre

A kutatók több, mint félmilliárd weboldalon tesztelték a rendszert, amely különböző szempontok alapján (terjedelem, kor, téma stb.) vizsgálta a tartalmakat.

A tartalom korának vizsgálata nem azt jelenti, hogy az újtartalmak automatikusan rossz minőségűnek számítanak. A kutatók azonban megfigyelték, hogy az eredmények szerint 2019-től kezdődően jelentősen megnőtt a rossz minőségű tartalmak száma, és ekkor váltak népszerűbbekké a gépek által előállított tartalmak is.

A témák elemzéséből kiderült, hogy egyes (pl. jogi és kormányzati) témákra jobb minőségű tartalmak voltak jellemzők. Érdekesmód rengeteg rossz minőségű oldalt találtak az olyan oktatási webhelyeken, amelyek esszéket kínáltak a tanulóknak.

Itt érdemes megjegyezni, hogy az oktatás egy olyan témakör, amelyet a Google külön megemlít a hasznos tartalmak frissítés kapcsán. Danny Sullivan ezt írta:
„…a tesztelésünkből kiderült, hogy [a frissítés] különösen az online oktatással kapcsolatos találatokat javítja majd…”

A nyelvi minőség három pontszáma

A Google minőségellenőröknek készült irányelvei négyféle minőségi pontszámot használ: alacsony, közepes, magas és nagyon magas.
A kutatók három minőségi pontszámot használtak az új rendszerben, illetve még egyet, amely a „meghatározatlan” nevet kapta. Azok a dokumentumok kapták a „meghatározatlan” besorolást, amelyeket valamilyen okból nem lehetett kiértékelni, így eltávolításra kerültek.

A nyelvi minőség (LQ) minősítéshez használt pontszámok 0, 1 és 2 voltak (a 2 a legjobb minőséget jelzi):
„0: Alacsony LQ.
A szöveg értelmezhetetlen vagy logikailag nem összeszedett.
1: Közepes LQ.
A szöveg érthető, de rosszul megírt (sűrű nyelvi / szintaktikai hibák).
2: Magas LQ.
A szöveg érthető és megfelelően jól megírt (ritka nyelvi / szintaktikai hibák).

De mi számít alacsony minőségűnek a Google kézikönyve szerint?
„A fő tartalom kellő erőfeszítés, eredetiség, tehetség vagy jártasság nélkül készült el ahhoz, hogy az oldal kielégítő módon érhesse el a célját.
…kevés figyelmet kaptak az olyan fontos szempontok, mint az érthetőség vagy a rendezettség.
…Egyes Alacsony minőségű tartalmak minimális erőfeszítéssel készülnek abból azért, hogy ezek a tartalmak bevételt szerezzenek a helyett, hogy eredeti vagy erőfeszítést igénylő tartalmat kínálnának, amely hasznos a felhasználók számára.
Kitöltő tartalmak is jelen lehetnek, főleg az oldal tetején, amely lejjebb görgetésre kényszeríti a felhasználókat, hogy elérhessék a fő tartalmat.
…A cikk fogalmazása szakszerűtlen és számos nyelvi, illetve központozási hibát tartalmaz.”

A minőségellenőröknek készült dokumentum részletesebben definiálja a rossz/alacsony minőséget, mint az algoritmus.
Ami igazán érdekes, az az, ahogy az algoritmus a nyelvi és szintaktikai hibákra támaszkodik. A szintaxis a szavak sorrendjére vonatkozik. Ha a szavak nem megfelelő sorrendben helyezkednek el, akkor a szöveg helytelenül hangzik majd.

Arról azonban nincs nyilvános információ, hogy a hasznos tartalom frissítés nyelvi és szintaktikai szempontokat is figyelembe venne.

Az algoritmus „nagy teljesítményű”

Érdemes elolvasni a dokumentum végét is. Számos tanulmány végződik azzal, hogy „több kutatásra van szükség” vagy hogy a javulás jelentéktelen.

A Google kutatásának szerzői azonban azt állítják, hogy az eredmények kiemelkedők. Szerintük az algoritmus nagy teljesítményre képes, és jobban teljesít, mint a viszonyítási alapok.

Ez a meg nem nevezett algoritmus azért lehetne akár a hasznos tartalmak frissítés is, mert alacsony erőforrásigénye van, és webméretű használatra is alkalmas.

Az összegzésben az alábbiak olvashatók:
„Ez a tanulmány kijelenti, hogy az emberek és gépek által írott szövegek megkülönböztetésére tanított detektorok hatékony előjelzői lehetnek a weboldalak nyelvi minőségének, és jobban teljesítenek, mint a viszonyítási alapul használt felügyeletet igénylő spam osztályozó.”

Ha a tanulmány nem is a Google hasznos tartalmak frissítéséről szól, az eredmények meglehetősen pozitívok, és könnyen lehet, hogy ez a technológia a Google rangsoroló algoritmusába is bekerül majd.

A hasznos tartalmak és a SEO