Egyre nagyobb vihart kavar az a vád, amely szerint a Perplexity AI figyelmen kívül hagyja a weboldalak tiltásait, és rejtett módszerekkel továbbra is hozzáfér tartalmaikhoz – még akkor is, ha egyértelműen meg lett neki tiltva.
Cloudflare: „A Perplexity tudatosan kerüli meg a szabályokat”
A Cloudflare, a világ egyik legismertebb felhőalapú biztonsági és hálózati szolgáltatója augusztus 5-én közzétett egy jelentést, amelyben azzal vádolja a Perplexity AI-t, hogy tudatosan és rendszerszinten megsérti a weboldalak hozzáférési szabályait.
A Cloudflare állítása szerint a Perplexity akkor is továbbra is adatokat gyűjtött (crawling) azokról az oldalakról, amelyek ezt robots.txt fájlban vagy tűzfalszabályokkal kifejezetten megtiltották. A bizonyítékokat egy ellenőrzött környezetben végzett teszt szolgáltatta, ahol csapdát állítottak az engedély nélküli botoknak.
Álcázott botok, rejtett IP-k és megtévesztő módszerek
A Cloudflare által végzett vizsgálat szerint, miután a Perplexity hivatalos botjai blokkolva lettek, a cég álcázott felhasználói ügynököket (masqueraded user agents) vetett be, amelyek úgy tettek, mintha Mac gépeken futó Chrome-böngészők lennének. Ezek a titkos botok ráadásul váltogatott IP-címekről és különböző autonóm rendszerekből (ASN-ekből) érkeztek, hogy kijátsszák a tűzfalak tiltásait.
A Cloudflare újonnan létrehozott, eddig teljesen ismeretlen domaineken végezte el a tesztet, így biztosították, hogy korábban semmilyen kereső vagy bot nem ismerhette az oldalakat. Ennek ellenére a Perplexity képes volt tartalmakat kinyerni ezekről az oldalakból — tehát valóban aktív, rejtett adatgyűjtés történhetett.
A Cloudflare szerint ez nem egy elszigetelt eset volt: napi több millió kérés irányult tízezernél is több weboldalra, ami alapján a cég szisztematikus szabálykerülést feltételez.
Érdekesség, hogy amikor ezek az álbotok végül sikeresen blokkolva lettek, a Perplexity által adott válaszok kevésbé részletesek lettek — ez bizonyítékul szolgálhat arra, hogy az AI valóban ezekből a forrásokból merítette az információkat.
Perplexity válasza: „Mi nem vagyunk hagyományos webrobotok”
A vádakra reagálva a Perplexity AI nyilatkozatot adott ki, amelyben visszautasítja a Cloudflare vádjait. A cég szerint nem folytat klasszikus értelemben vett webes adatgyűjtést (crawling), hanem az AI csak akkor látogat meg weboldalakat, ha egy felhasználó konkrét kérdést tesz fel. Az ilyenkor elért tartalmakat az AI azonnal feldolgozza, de nem tárolja és nem használja fel tréningadatként.
A Perplexity azt is állítja, hogy a Cloudflare félreértette működésüket, és helytelen forgalmi elemzésre, valamint megtévesztő vizualizációkra alapozta a jelentést. Állításuk szerint a Cloudflare összekeverte a Perplexity korlátozott mértékű, harmadik féltől származó eszközhasználatát – például a Browserbase szolgáltatását – a direkt webes adatgyűjtéssel.
Egyre élesebb vita: hol húzódik a határ adatgyűjtés és engedély között?
A vita etikai és technikai kérdéseket is felvet. Mennyire számít etikátlannak, ha egy mesterséges intelligencia szolgáltatás átmenetileg elér egy weboldalt egy felhasználói kérdés megválaszolása érdekében? És mi történik akkor, ha ezt a látogatást az adott weboldal kifejezetten megtiltotta?
A Cloudflare szerint a hozzáférési szabályok egyértelműek, és a webrobotokat fejlesztő cégeknek tiszteletben kell tartaniuk a robots.txt fájlok és tűzfalbeállítások utasításait. A Perplexity viszont arra hivatkozik, hogy működésük alapvetően különbözik a klasszikus keresőmotorok viselkedésétől.
A technológiai fejlődés új kihívásokat állít a webes etikett és az adatkezelés szabályozása elé. Ahogy az AI-alapú asszisztensek egyre intelligensebbé és „láthatatlanabbá” válnak, a szabályozási keretek és az átláthatóság kérdései is egyre égetőbbé válnak.
Szómagyarázat
- Crawling – Automatizált weboldal-böngészési folyamat, amelynek során a botok adatokat gyűjtenek az interneten.
- robots.txt – Egy weboldal gyökérkönyvtárában található fájl, amely irányelveket ad a keresőrobotok számára arról, mit látogathatnak és mit nem.
- Tűzfal (firewall) – Hálózati biztonsági rendszer, amely szabályozza a bejövő és kimenő adatforgalmat.
- Masqueraded user agent – Olyan program, amely más böngészőnek vagy eszköznek álcázza magát a hozzáférés során.
- ASN (Autonomous System Number) – Internetes hálózatok egyedi azonosítója, amely alapján az IP-címek csoportosíthatók.
- Browserbase – Egy harmadik fél által biztosított eszköz, amely lehetővé teszi webes tartalmak elérését böngésző-szimuláció útján.
- Consent (hozzájárulás) – A weboldal tulajdonosának vagy üzemeltetőjének engedélye egy adott adat vagy tartalom elérésére, használatára.
A Perplexity AI és a Cloudflare közti vita egy sokkal szélesebb kérdéskört érint: hogyan lehet egyensúlyt teremteni az AI fejlődése és a webes szabadság, illetve a tartalomtulajdonosok jogai között? A következő hónapok valószínűleg még több hasonló vitát hoznak majd – egyre sürgetőbbé téve a szabályozás újragondolását.
