Los rastreadores “fantasma” de Perplexity extraen datos de miles de webs que han prohibido expresamente el scraping de IA. Cloudflare revela la trama y avisa: la startup de Silicon Valley viola la propiedad intelectual y amenaza el modelo de negocio de editores y creadores.
Cloudflare enciende las alarmas
El 4 de agosto, el gigante de la infraestructura de red publicó un estudio forense donde acusa a Perplexity de “stealth crawling”: sus bots se disfrazan de navegadores Google Chrome en macOS y cambian de ASN para esquivar filtros y normas robots.txt. La actividad afecta a decenas de miles de dominios y genera millones de peticiones diarias.
Cómo funciona el scraping sigiloso
Cloudflare monitorizó el tráfico tras múltiples quejas de clientes y detectó que, cuando se bloquea su bot oficial, Perplexity reaparece con un “agente de usuario” genérico y direcciones IP rotativas. Resultado: el rastreo persiste aunque el editor haya expresado un “NO” rotundo al entrenamiento de IA.
Perplexity se defiende con desdén
La compañía, valorada en más de mil millones de dólares, tachó la denuncia de Cloudflare de “argumento comercial” y afirmó que el bot identificado “ni siquiera es nuestro”. Una respuesta que recuerda al manual de Big Tech: negar primero, negociar nunca.
Guerra abierta contra los rastreadores de IA
En julio, Cloudflare lanzó Pay Per Crawl, una plataforma que permite a los dueños de sitios cobrar a los bots de IA. Su CEO, Matthew Prince, advirtió: “La IA está destruyendo el negocio de Internet”. Desde entonces, Perplexity ha sido expulsada de la lista de bots verificados y Cloudflare ha desplegado nuevas barreras técnicas para frenarla.
Antecedentes de plagio y robo de contenido
No es la primera vez que Perplexity queda en evidencia: en 2024, medios como Wired denunciaron que la startup plagiaba artículos completos. Su CEO, Aravind Srinivas, fue incapaz de definir “plagio” en público. El patrón se repite: capturar valor ajeno y maquillar la autoría.
¿Y los medios españoles?
Las cabeceras nacionales podrían quedar expuestas si no actualizan sus defensas digitales. ABC, La Razón o El Mundo ya experimentan caídas de tráfico cuando respuestas generadas por IA sirven contenido “rehogado” sin citar fuente ni pagar canon. Urge un frente común que combine tecnología, legislación y presión política para proteger la propiedad intelectual y la soberanía digital de España.
El escándalo Perplexity subraya una verdad incómoda: Silicon Valley no respeta las reglas si éstas frenan su voracidad de datos. Solo los editores que exijan pago, permiso o bloqueo evitarán ser expoliados por la nueva fiebre del oro de la IA. ¿Estamos ante un paso decisivo hacia un Internet justo o ante la capitulación definitiva de los creadores?



