Cloudflare a récemment annoncé le blocage de Perplexity, un acteur majeur du crawling, suite à des pratiques qualifiées d’agressives et trompeuses : non-respect du fichier robots.txt, rotation d’IP et imitation de navigateurs légitimes. Ce dossier détaille les raisons de ce blocage inédit, les stratégies employées par Perplexity pour contourner les barrières, les règles de conformité imposées par Cloudflare et l’impact pour les créateurs de contenu et propriétaires de sites web face à la montée en puissance des bots non conformes.
Pourquoi Cloudflare a-t-il bloqué Perplexity ?
Les raisons principales du blocage
Les violations du protocole robots.txt
Perplexity a été formellement accusé par Cloudflare de ne pas respecter les instructions des fichiers robots.txt. Ce protocole est fondamental pour l’écosystème du web car il détermine quels parties d’un site peuvent être explorées par les robots. Malgré son inscription parmi les Verified Bots, Perplexity a ignoré ces directives, provoquant la colère de nombreux webmasters dont les contenus étaient analysés à leur insu.
Les comportements agressifs des robots de Perplexity
Au fil de ses enquêtes, Cloudflare a détecté des pratiques de crawling agressif : forte fréquence des requêtes, utilisation de multiples IPs pour échapper aux limitations et collecte massive de données, le tout en tentant de passer sous les radars. Ces méthodes intrusives menacent la disponibilité des sites et la confidentialité des contenus en ligne. Les risques liés au scraping intensif ne se limitent pas à une simple indisponibilité : ils favorisent aussi l’accélération de la proportion du trafic généré par des crawlers IA aujourd’hui détectés sur internet.
Les actions de Perplexity pour contourner les restrictions
Utilisation de techniques de rotation d’IP et de changement d’ASN
Pour échapper à la surveillance, Perplexity a mis en place un système sophistiqué de rotation d’adresses IP et de changement d’ASN (Autonomous System Number). Cela rend l’identification de ses robots particulièrement ardue et permet de diluer la traçabilité de ses activités malgré les contre-mesures de sécurité classiques.
Impersonation de navigateurs comme Chrome
Autre tactique avancée : l’imitation de navigateurs populaires, notamment Google Chrome sur macOS, via la modification de la chaîne User Agent, pour se faire passer pour un humain réel lors de la visite de pages web. Cette manœuvre vise à duper les mécanismes de filtrage et à rendre ses visites indétectables par les simples filtres de robots classiques.
Audit SEO gratuit par nos experts pour identifier les leviers de croissance.

Les tactiques de Perplexity pour esquiver la détection
Rotations d’IP et changement d’ASN pour éviter les blocages
Le rôle des ASN dans l’identification des robots légitimes
Un ASN correspond à un identifiant unique attribué à chaque ensemble d’adresses IP appartenant à un réseau. Perplexity exploitait plusieurs ASN pour rendre plus complexe la différenciation de ses robots vis-à-vis des autres services légitimes, sapant ainsi la capacité des défenses automatiques à les stopper efficacement.
Utilisation d’adresses IP non officielles pour tromper Cloudflare
Cloudflare a découvert que Perplexity lançait ses robots non seulement depuis ses propres IPs officielles mais aussi à partir de nouvelles adresses IP non déclarées, souvent issues d’autres ASN. Ce subterfuge multiplie les points d’accès et complique sévèrement la tâche des administrateurs souhaitant restreindre ou identifier précisément l’origine des surveillances automatiques.
Le spoofing de user agent par Perplexity
Comment Perplexity imite un navigateur légitime
Afin de passer inaperçu, Perplexity recourt systématiquement au spoofing de User Agent : ses robots adoptent l’identité d’un utilisateur humain en revendiquant être un navigateur reconnu, comme Chrome sur Mac. Ce mode opératoire permet de bypasser les filtres qui bloquent d’ordinaire les robots classiques basés uniquement sur l’analyse du user agent.
Exemple de user agent utilisé par Perplexity
Cloudflare a révélé l’une des chaînes utilisées :
- Mozilla/5.0 (Macintosh; Intel Mac OS X 10_15_7) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/124.0.0.0 Safari/537.36
Cette chaîne est quasiment identique à celle d’un navigateur Chrome standard, rendant la détection manuelle et automatique très difficile.
Les règles strictes de Cloudflare pour les bots
Le système Verified Bots de Cloudflare
Les conditions pour qu’un bot soit considéré comme fiable
Pour que Cloudflare accorde le statut de Verified Bot, le robot doit respecter strictement plusieurs critères :
- Obéissance au fichier robots.txt
- Utilisation d’IP et ASN transparents et officiels
- Transparence sur les intentions du crawl
Le manquement de Perplexity à ces règles a abouti à sa radiation immédiate de ce programme privilégié.
Obligation de respecter le protocole robots.txt
Le recueil du consentement explicite de chaque site via robots.txt est une règle immuable pour accéder à la liste des bots vérifiés. Contourner ou ignorer cette règle équivaut à une exclusion automatique. Récemment, de nouvelles discussions sur l’efficacité et la mise à jour des recommandations sur la gestion du fichier robots.txt ont été menées, comme le souligne l’analyse autour de l’actualité « suppression des conseils robots.txt pour bloquer les pages traduites automatiquement » sur Google.
Les conséquences du non-respect des règles
Le retrait de Perplexity du système Verified Bots
Face à la récidive de Perplexity, Cloudflare n’a eu d’autre choix que de supprimer son statut Vérifié. Ce retrait marque une rupture majeure et signifie que tout le trafic Perplexity est dorénavant considéré comme potentiellement hostile.
Les mesures prises pour bloquer ses activités
Cloudflare a intégré de nouveaux heuristiques et règles managées visant spécifiquement à détecter puis bloquer toute tentative de crawl issue de Perplexity ou de ses variants furtifs. Cela inclut notamment :
- Le blocage automatisé sur la base des signatures de user agents falsifiés.
- La détection des rotations d’IP suspectes propre à l’infrastructure de Perplexity.
Impacts et enjeux pour les propriétaires de sites web
Protection contre les robots agressifs
Pourquoi le respect des directives est crucial
Le fichier robots.txt est un rempart essentiel pour protéger la propriété intellectuelle, la bande passante et la confidentialité des sites. Ignorer ces directives expose les sites à une surcharge serveur, au vol de contenus ou à la compromission de données sensibles.
Les risques liés aux robots non conformes
Robots non conformes comme ceux utilisés par Perplexity multiplient les dangers :
- Augmentation soudaine du trafic non désiré
- Menaces de scraping massif
- Dégradation de l’expérience utilisateur par ralentissement ou indisponibilité
Stratégies pour sécuriser ses sites
Utilisation de règles de filtrage avancées
L’adoption de règles de filtrage personnalisées dans les pare-feux applicatifs (WAF) permet d’identifier et de bloquer efficacement les signaux suspects : IP inhabituelles, ASNs inconnus ou chaînes user agent anormales. Alors que la proportion des requêtes générées par des technologies avancées fait débat parmi les acteurs de la protection web, certains observateurs s’inquiètent également de l’arrivée massive d’offres de paiement pour les crawlers IA, susceptibles de modifier en profondeur l’économie de l’accès aux contenus.
Surveillance continue des activités des crawlers
Une veille permanente sur les logs de serveurs et l’usage d’outils de monitoring spécialisés sont essentiels pour anticiper et répondre rapidement à tout comportement anormal des bots, assurant ainsi la pérennité et la sûreté des ressources numériques.
Conclusion : L’affaire entre Cloudflare et Perplexity souligne l’importance de protocoles clairs, d’une surveillance proactive et du respect des standards du web pour garantir un Internet de confiance. Les créateurs de contenus et gestionnaires de sites doivent aujourd’hui renforcer leurs dispositifs contre les intrusions automatisées afin de préserver intégrité, performance et sécurité.
FAQ
Qu’est-ce que le fichier robots.txt et pourquoi est-il important ?
Robots.txt est un fichier situé à la racine d’un site web qui indique aux robots d’indexation quelles pages ou ressources ils sont autorisés ou non à analyser. Son respect est crucial pour préserver le contrôle sur l’accès aux contenus et limiter les risques d’exploitation abusive.
Comment Cloudflare détecte-t-il les robots non conformes ?
Cloudflare se sert d’heuristiques avancées, de l’analyse des user agents, de la vérification des adresses IP/ASN et d’outils d’intelligence artificielle pour repérer et empêcher les robots qui enfreignent les politiques établies, notamment en identifiant les comportements de rotation IP et de spoofing.
Quels sont les risques encourus par un site si un robot ignore robots.txt ?
Un site peut subir des surcharges serveur, des ralentissements, voire un scraping massif de contenus et une mise en péril de données sensibles si un robot outrepasse les directives robots.txt.
Que peuvent faire les propriétaires de sites pour se protéger ?
Ils doivent mettre à jour leurs règles de filtrage, surveiller leurs logs, utiliser les options de blocage avancé proposées par Cloudflare ou d’autres WAF, et rester vigilants face à toute anomalie provenant de robots suspects.
Perplexity peut-il redevenir un Verified Bot chez Cloudflare ?
Non, tant qu’il ne prouve pas un alignement total avec les politiques de Cloudflare : transparence, respect des fichiers robots.txt et usage exclusif des IP/ASN officiels pour ses crawlers.