Cloudflare s’explique sur sa panne massive, son pire incident depuis 2019

Hier, une vaste panne de Cloudflare a mis en lumière la vulnérabilité d’un Internet toujours plus centralisé. Pendant plusieurs heures, des millions d’utilisateurs à travers le monde ont été confrontés à des erreurs de chargement sur de nombreux sites web, y compris des géants comme X, OpenAI, ChatGPT ou Claude AI. Une défaillance technique au sein du système de gestion des bots de Cloudflare a été identifiée comme l’origine de cette interruption d’envergure.

Cloudflare
Crédits : HaeB - Licence CC BY-SA 4.0

Tout a commencé à 11h20 UTC lorsque Cloudflare a commencé à rencontrer des dysfonctionnements majeurs dans l’acheminement du trafic réseau. Contrairement à une attaque malveillante ou un DDoS, comme initialement suspecté, la cause de la panne était un changement de permissions sur un système de base de données interne selon les explications de l’entreprise.

Ce changement a généré un fichier de configuration destiné à la détection des bots dont la taille avait doublé par rapport à la normale. Ce fichier, crucial pour les algorithmes d’intelligence artificielle de Cloudflare, a alors été distribué sur l’ensemble de l’infrastructure mondiale de l’entreprise.

Le système de gestion des bots, incapable de traiter ce fichier surdimensionné, s’est bloqué. Résultat : des erreurs 5xx généralisées ont affecté les services clés de Cloudflare, entraînant des interruptions pour les sites utilisant leur réseau de diffusion de contenu (CDN), leur pare-feu applicatif ou encore leurs services d’authentification.

Une cascade d’effets sur les services Internet

Les conséquences de cette erreur se sont rapidement fait sentir sur de nombreux services. Le site DownDetector, lui-même hébergé via Cloudflare, n’était plus accessible au moment où les utilisateurs cherchaient justement à vérifier l’état de leurs services favoris. Sur les réseaux sociaux la panne a ravivé les inquiétudes sur la dépendance excessive d’Internet envers quelques infrastructures centrales.

Certains outils internes de Cloudflare ont également été affectés : Workers KV, Turnstile, le tableau de bord client et les services d’authentification Access ont connu des dysfonctionnements critiques. L’impossibilité d’accéder à ces services a paralysé aussi bien les internautes que les développeurs ou administrateurs système.

Un retour progressif à la normale

La résolution du problème s’est déroulée en plusieurs étapes. Après avoir identifié le fichier incriminé, les ingénieurs ont stoppé sa propagation et l’ont remplacé par une version antérieure fonctionnelle. Le trafic réseau a commencé à se stabiliser autour de 14h30 UTC. Le retour complet à la normale a été confirmé à 17h06, après le redémarrage des services encore dégradés.

Cloudflare a reconnu l’ampleur de la panne, la qualifiant de pire incident depuis 2019. L’entreprise s’est excusée publiquement, affirmant que de telles interruptions étaient « inacceptables » au vu de leur rôle central dans l’écosystème Internet. Elle s’engage désormais à renforcer la robustesse de son infrastructure, notamment en limitant la propagation de fichiers de configuration corrompus, en augmentant les garde-fous internes et en revoyant les mécanismes d’erreur critiques.

Dernières actualités

Commentaires

Laisser un commentaire

Votre adresse e-mail ne sera pas publiée. Les champs obligatoires sont indiqués avec *

Soyez le premier à poster un commentaire

Partagez votre avis et participez à la discussion en laissant un commentaire ci-contre.