Alors pourquoi tout s'est-il cassé ?
Si vous étiez en ligne hier et que vos sites préférés ont soudainement cessé de se charger, vous n'étiez pas seul. D'importants services, des plateformes sociales aux outils d'IA, en passant même par les écrans de commande de McDonald's, ont connu des dysfonctionnements. Le point commun à une grande partie de ce chaos était Cloudflare, l'une des plus grandes entreprises d'infrastructure d'Internet.
Cloudflare fonctionne en arrière-plan pour des millions de sites web. Il accélère le trafic, protège les sites contre les attaques et assure leur bon fonctionnement. Lorsqu'un problème survient chez Cloudflare, c'est tout Internet qui en subit les conséquences.
L'entreprise a publié un compte rendu détaillé de l'incident. En résumé, c'est étonnamment simple, mais aussi un peu décevant. Il ne s'agissait ni d'un pirate informatique, ni d'une attaque DDoS massive, ni d'une mystérieuse opération étatique. Cloudflare s'est tout simplement auto-mis hors service par erreur.
Le PDG de Cloudflare, Matthew Prince, a commencé son message par une déclaration très claire en gras : le problème n’était pas dû, directement ou indirectement, à une cyberattaque ou à une quelconque activité malveillante. Personne ne s’est introduit dans le système. C’est le système lui-même qui a dysfonctionné.
Il a également présenté des excuses sincères. Prince a déclaré que Cloudflare regrettait les conséquences pour ses clients et pour Internet en général, et a qualifié toute interruption de ses systèmes d'inacceptable. Pour une entreprise qui gère une part aussi importante du trafic mondial, même quelques heures de dysfonctionnement du routage représentent un problème majeur, et il a admis que l'équipe était consciente d'avoir déçu les utilisateurs.
Comment un seul fichier a fait planter un réseau géant
Comment une entreprise possédant des centres de données partout dans le monde peut-elle se retrouver hors service à cause d'une seule erreur ?
Cloudflare a d'abord cru être victime d'une attaque. Les symptômes étaient ceux d'une attaque par déni de service de grande ampleur. Les erreurs HTTP 5xx ont commencé à se multiplier vers 11h20 UTC, indiquant que les serveurs étaient opérationnels mais incapables de traiter correctement les requêtes normales.
Après avoir analysé les journaux, ils ont découvert la véritable cause. Tout a commencé par une modification apportée à l'un de leurs systèmes de base de données, et plus précisément à ses permissions. Cette modification a entraîné l'écriture de plusieurs entrées dans un fichier de fonctionnalités spécifique. Ce fichier est utilisé par Cloudflare Bot Management, le système qui détermine si le trafic entrant provient d'un humain ou d'un robot.
Suite à cette modification, la taille du fichier de fonctionnalités a doublé. En soi, cela ne paraîtrait pas inquiétant. Le problème, c'est que ce fichier plus volumineux que prévu a ensuite été diffusé sur l'ensemble du réseau mondial de Cloudflare.
C’est là qu’une limitation cachée leur a joué un mauvais tour. Le logiciel de gestion des bots imposait une limite stricte à la taille du fichier de fonctionnalités. Le nouveau fichier, trop volumineux, a largement dépassé cette limite.
Une fois cela arrivé, le logiciel censé lire le fichier a tout simplement cessé de fonctionner. Cette panne système a affecté les machines chargées de gérer et d'acheminer d'énormes volumes de trafic internet. Les erreurs se sont accumulées et les utilisateurs du monde entier ont commencé à voir des sites web expirer ou afficher des messages d'erreur.
Cloudflare a indiqué avoir isolé le problème, interrompu le déploiement du fichier défectueux et rétabli le trafic principal à la normale vers 14h30 UTC. À 17h06 UTC, l'entreprise considérait l'ensemble de ses systèmes comme pleinement opérationnels. Cela a toutefois entraîné plusieurs heures de perturbations ou d'indisponibilité d'une grande partie du monde en ligne.
Selon l'entreprise, il s'agissait de leur pire panne depuis 2019. Compte tenu de la dépendance accrue d'Internet à Cloudflare par rapport à il y a quelques années, l'impact de cette panne a été encore plus important cette fois-ci.
Ce que Cloudflare change et pourquoi c'est important
Suite à un tel incident, tout le monde souhaite savoir quelles mesures seront prises pour éviter qu'il ne se reproduise. Dans sa publication, Prince détaille quelques correctifs clés que Cloudflare est déjà en train de déployer.
- Davantage de mécanismes d'arrêt d'urgence globaux pour les fonctionnalités, afin de pouvoir désactiver immédiatement un système défaillant sur l'ensemble du réseau sans attendre qu'il cause d'autres problèmes.
- Un meilleur contrôle de la gestion des rapports d'erreurs et des fichiers de vidage mémoire afin que les données de débogage ne surchargent pas les serveurs et n'aggravent pas une situation déjà difficile.
- Des contrôles plus stricts sur les modifications de configuration avant leur mise en production afin qu'une simple modification des autorisations ne puisse pas entraîner une panne généralisée du réseau.
Le principal enseignement réside dans la fragilité d'Internet, dont l'infrastructure repose en grande partie sur quelques fournisseurs. Le moindre incident chez un prestataire comme Cloudflare peut instantanément paralyser des milliers de services. Jeux, plateformes de streaming, outils d'IA, boutiques en ligne et même appareils physiques dans les restaurants et les magasins peuvent être affectés, car ils dépendent tous, discrètement, des mêmes infrastructures réseau.
Prince conclut son message en qualifiant la panne d'inacceptable et en affirmant que les échecs passés ont toujours incité Cloudflare à concevoir des systèmes plus résilients. C'est la réalité constante de la gestion de services à l'échelle d'Internet : on n'a jamais fini de renforcer la sécurité d'un système. On tire simplement les leçons de chaque expérience.
Si vous souhaitez comprendre le fonctionnement interne d'Internet, le rapport complet de Cloudflare mérite d'être lu. Il analyse chaque étape de l'incident avec une précision chirurgicale et explique comment leurs systèmes de routage, de sécurité et de filtrage des bots s'articulent.
Pour tous les autres, l'histoire est simple. Une petite erreur interne a déclenché une réaction en chaîne. Une limitation cachée dans un logiciel critique a provoqué une panne généralisée. L'équipe a reconnu publiquement son erreur, a présenté ses excuses et s'efforce désormais de corriger les failles. La prochaine fois que la moitié de vos sites préférés cesseront soudainement de se charger, il y a de fortes chances qu'un problème similaire soit en train de se produire quelque part dans l'architecture système.
Article et image originaux : https://www.pcgamer.com/hardware/cloudflare-apologises-for-the-pain-we-caused-the-internet-and-admits-a-file-size-error-brought-down-large-parts-of-the-web-yesterday-not-a-malicious-cyberattack/
