Tout a commencé à 11h20 UTC lorsque Cloudflare a commencé à rencontrer des dysfonctionnements majeurs dans l’acheminement du trafic réseau. Contrairement à une attaque malveillante ou un DDoS, comme initialement suspecté, la cause de la panne était un changement de permissions sur un système de base de données interne selon les explications de l’entreprise.
Ce changement a généré un fichier de configuration destiné à la détection des bots dont la taille avait doublé par rapport à la normale. Ce fichier, crucial pour les algorithmes d’intelligence artificielle de Cloudflare, a alors été distribué sur l’ensemble de l’infrastructure mondiale de l’entreprise.
Le système de gestion des bots, incapable de traiter ce fichier surdimensionné, s’est bloqué. Résultat : des erreurs 5xx généralisées ont affecté les services clés de Cloudflare, entraînant des interruptions pour les sites utilisant leur réseau de diffusion de contenu (CDN), leur pare-feu applicatif ou encore leurs services d’authentification.
Une cascade d’effets sur les services Internet
Les conséquences de cette erreur se sont rapidement fait sentir sur de nombreux services. Le site DownDetector, lui-même hébergé via Cloudflare, n’était plus accessible au moment où les utilisateurs cherchaient justement à vérifier l’état de leurs services favoris. Sur les réseaux sociaux la panne a ravivé les inquiétudes sur la dépendance excessive d’Internet envers quelques infrastructures centrales.
Certains outils internes de Cloudflare ont également été affectés : Workers KV, Turnstile, le tableau de bord client et les services d’authentification Access ont connu des dysfonctionnements critiques. L’impossibilité d’accéder à ces services a paralysé aussi bien les internautes que les développeurs ou administrateurs système.
Un retour progressif à la normale
La résolution du problème s’est déroulée en plusieurs étapes. Après avoir identifié le fichier incriminé, les ingénieurs ont stoppé sa propagation et l’ont remplacé par une version antérieure fonctionnelle. Le trafic réseau a commencé à se stabiliser autour de 14h30 UTC. Le retour complet à la normale a été confirmé à 17h06, après le redémarrage des services encore dégradés.
Cloudflare a reconnu l’ampleur de la panne, la qualifiant de pire incident depuis 2019. L’entreprise s’est excusée publiquement, affirmant que de telles interruptions étaient « inacceptables » au vu de leur rôle central dans l’écosystème Internet. Elle s’engage désormais à renforcer la robustesse de son infrastructure, notamment en limitant la propagation de fichiers de configuration corrompus, en augmentant les garde-fous internes et en revoyant les mécanismes d’erreur critiques.

Soyez le premier à poster un commentaire
Partagez votre avis et participez à la discussion en laissant un commentaire ci-contre.