Aller au contenu

Coupure Majeure chez AWS : Une Panne DNS Paralyse une Partie du Web Mondial

Une nouvelle de Wikinews, la source d'informations que vous pouvez écrire.

Publié le 20 octobre 2025

Lundi 20 octobre 2025 — Une panne technique d'une ampleur significative a frappé Amazon Web Services (AWS), le principal fournisseur mondial d'infrastructure cloud, provoquant des perturbations en cascade qui ont affecté des millions d'utilisateurs et de services en ligne à travers le monde.

L'incident, qui a débuté tôt dans la journée, a rappelé la dépendance critique de l'écosystème numérique moderne envers une poignée d'acteurs centraux.

Les Faits : Qui, Quoi, Où, Quand ?

[modifier | modifier le wikicode]

La panne a touché principalement la région US-EAST-1 (Virginie du Nord), l'une des zones de serveurs les plus importantes et les plus utilisées par les clients d'AWS.

  • Qui ? L'incident s'est produit au sein des centres de données d'Amazon Web Services (AWS).
  • Quoi ? Il s'agit d'une panne de service majeure (outage) impactant plusieurs services AWS fondamentaux, notamment la base de données DynamoDB et des composants cruciaux de résolution DNS.
  • Où ? L'épicentre était aux États-Unis, dans la région US-EAST-1, mais les répercussions ont été mondiales en raison de la dépendance de nombreux services globaux à cette infrastructure.
  • Quand ? La panne a commencé dans la matinée du lundi 20 octobre 2025 (autour de 9h10 heure française / 3h10 HAE). AWS a indiqué que la cause sous-jacente a été maîtrisée quelques heures plus tard, mais le retour à la normale a été progressif et inégal tout au long de la journée.

Cause et Mécanisme : L'Effet Domino du DNS

[modifier | modifier le wikicode]

Selon les communications techniques d'AWS, l'origine du chaos est un problème de résolution DNS(Domain Name System) lié aux points de terminaison de l'API de DynamoDB (la base de données clé-valeur NoSQL d'AWS) dans la région US-EAST-1.

  1. Le Déclencheur : Un dysfonctionnement interne a affecté le système DNS — l'annuaire du web utilisé par les serveurs d'AWS pour communiquer entre eux.
  2. L'Effet Cascade : La dégradation de DynamoDB, un service essentiel pour l'authentification et les métadonnées de nombreux autres composants AWS (tels que EC2, Lambda et SQS), a empêché la résolution correcte des noms de domaine internes.
  3. Conséquence : Cette défaillance critique a engendré une vague d'erreurs, des latences importantes et des retards de traitement. En bout de chaîne, tous les services clients qui dépendaient de la communication interne de cette région ont été affectés.

Portée et Conséquences : Des Applications Mondiales à l'Arrêt

[modifier | modifier le wikicode]

L'incident a rappelé la centralité absolue d'AWS dans l'écosystème numérique. Des millions d'utilisateurs ont été touchés, avec des pannes signalées sur une liste impressionnante d'applications et de plateformes de premier plan :

  • E-commerce & Domotique : Les services internes d'Amazon, y compris le site de vente au détail, Prime Video, Alexa et Ring, ont connu des perturbations.
  • Réseaux Sociaux & Messageries : Des plateformes comme Snapchat, Signal et Reddit ont signalé d'importants dysfonctionnements.
  • Jeux en Ligne : Les joueurs de Fortnite (Epic Games), Roblox et d'autres services comme le PlayStation Network ont rencontré des problèmes d'accès et de connexion.
  • Outils de Productivité & Finance : Des outils du quotidien comme Canva et Duolingo, ainsi que des plateformes financières comme Coinbase, Robinhood et Venmo, ont été hors service. Même des services publics, comme le site de l'administration fiscale britannique (HMRC), ont été touchés.

Même les entreprises qui n'hébergeaient qu'une partie de leurs services sur AWS ont pu subir des dommages si elles utilisaient les fonctions AWS critiques (authentification, API) qui étaient en panne.

Bilan de la Reprise et Enseignements

[modifier | modifier le wikicode]

Bien que la cause racine technique ait été résolue en milieu de matinée, la reprise complète a été progressive. Des ralentissements persistants et des erreurs sporadiques ont été signalés le reste de la journée, le temps que les systèmes rattrapent l'énorme arriéré de requêtes accumulé durant la période d'interruption.

Cet événement met en lumière la fragilité de l'Internet moderne, où la défaillance d'un composant unique sur une infrastructure centrale peut paralyser une part significative des activités numériques mondiales. Face à cela, les experts en architecture IT insistent sur l'impératif pour les entreprises d'investir massivement dans la résilience et les Plans de Continuité d'Activité (PCA), notamment en adoptant des architectures multi-région ou multi-cloud pour garantir des bascules instantanées en cas de défaillance majeure. Le coût d'une telle redondance est désormais perçu comme une assurance essentielle contre des pertes économiques potentiellement colossales.