Perplexity gebruikt nieuwe technieken om content te stelen

Perplexity wil het wereldrecord voor rechtszaken wegens auteursrechtschending verbreken. De startup uit San Francisco heeft al sommatiebrieven ontvangen van Condé Nast , de New York Times en de BBC . News Corp. heeft ook juridische stappen ondernomen. Cloudflare heeft ontdekt dat Perplexity verschillende technieken gebruikt om zijn scrapingactiviteiten te verbergen.
Cloudflare benadrukt dat crawlers transparant moeten zijn, wat betekent dat ze een specifiek doel dienen en vooral de voorkeuren of richtlijnen van websites respecteren. Het in San Francisco gevestigde bedrijf ontdekte dat Perplexity een van de regels overtreedt, dus de bots worden van de geverifieerde lijst verwijderd en geblokkeerd.
Cloudflare ontving verschillende meldingen van klanten die de crawlers Perplexity-Bot
en Perplexity-User
hadden geblokkeerd in hun robots.txt
bestand en via specifieke regels van de webapplicatiefirewall. Desondanks konden Perplexity-bots nog steeds toegang krijgen tot de content.
Om de scrapingactiviteit te verifiëren, werden twee domeinen aangekocht en werd een botblok toegevoegd aan het robots.txt
bestand. Toen Cloudflare om informatie over de domeinen vroeg, gaf de chatbot van Perplexity volledige details over de content. De Californische startup gebruikt verschillende trucs om de blokkade te omzeilen.
De eerste maakt gebruik van twee crawlers met verschillende user agents . De ene is zichtbaar, de andere is verborgen (stealth) en imiteert Chrome voor macOS. Beide crawlers voeren scraping uit. De onzichtbare crawler wordt geactiveerd wanneer de andere geblokkeerd is.
De stealth crawler gebruikt ook een ander IP-adresbereik dan dat gepubliceerd op de Perplexity-website. Toen Cloudflare zijn robots.txt
-bestand bijwerkte, werden de IP-adressen gewijzigd om de blokkade te omzeilen. Andere providers, waaronder OpenAI, respecteren websitevoorkeuren.
Een woordvoerder van Perplexity verklaarde dat de betreffende bot niet afkomstig is van de in Californië gevestigde startup. Cloudflare heeft onlangs nieuwe tools voor botblokkering en zijn Pay per Crawl-service aangekondigd .
Punto Informatico