La panne géante d'Amazon Web Services commence à se résorber, après avoir paralysé Snapchat, Fortnite et des dizaines d'autres plateformes lundi matin. Le coupable a été identifié, il s'agirait d'un problème de DNS.

Amazon Web Services continue d'avancer sur la panne qui touche ces services ce lundi © Alexandre Boero / Clubic
Amazon Web Services continue d'avancer sur la panne qui touche ces services ce lundi © Alexandre Boero / Clubic

Amazon Web Services a identifié la source de la panne majeure qui paralyse ou a paralysé depuis ce lundi matin des dizaines de sites et applications populaires. Il fut pendant longtemps impossible de lancer une partie de Fortnite, d'envoyer un snap ou de créer un visuel sur Canva, qui était tout simplement inaccessible. En cause, un dysfonctionnement majeur dans les data centers d'Amazon en Virginie. Plusieurs heures plus tard, le géant du cloud a donné plus d'explications et commence à redresser la barre.

Un problème DNS sur DynamoDB à l'origine de la panne AWS

Les ingénieurs d'Amazon, qui ont fait preuve de transparence dès le début de l'incident, ont identifié le responsable en pleine nuit aux États-Unis, en milieu de journée pour nous Français. Il s'agit d'un souci dans ce qu'on appelle la résolution DNS. Concrètement, c'est comme si l'annuaire téléphonique d'Internet s'était soudainement effacé pour une partie des serveurs AWS. Impossible alors pour les applications de retrouver l'adresse des services dont elles ont besoin pour fonctionner.

Le problème touchait spécifiquement DynamoDB, une base de données largement utilisée par les développeurs pour stocker et récupérer des informations instantanément. Quand ce service flanche, c'est tout l'écosystème qui trinque. Amazon confirme avoir totalement corrigé cette anomalie DNS vers 3h35 (12h35 en France), mais recommande aux utilisateurs encore impactés de vider leur cache DNS système.

Ce qui frappe dans cette panne, c'est l'ampleur de la cascade. Un seul grain de sable dans la région US-EAST-1 a suffi pour mettre à genoux des dizaines de plateformes à travers le monde, comme Shutterstock, Canva, Snapchat, Fortnite, Roblox, ou encore Perplexity. De quoi rappeler que notre quotidien numérique ne repose que sur quelques infrastructures centralisées.

Le retour à la normale d'Amazon Web Services s'organise zone par zone

Ce qui est positif, c'est qu'Amazon annonce des progrès sur le redémarrage des serveurs virtuels EC2, même si le taux d'erreur reste élevé, précise l'entreprise. Ces machines dans le cloud, essentielles pour faire tourner sites web et applications, peuvent à nouveau être lancées dans certaines zones. Les équipes appliquent méthodiquement les correctifs aux secteurs encore en difficulté, zone par zone.

Deux autres services critiques reprennent également du poil de la bête. EventBridge et CloudTrail poursuivent activement le traitement de leur backlog accumulé. Ces outils, qui permettent de suivre et réagir aux événements dans le cloud, traitent désormais les nouvelles requêtes normalement. Lambda, le service qui exécute du code à la demande, a aussi récupéré sa capacité à traiter les files d'attente SQS.

Malgré ces avancées, une certaine inquiétude est toujours présente. Amazon recense 63 services impactés par l'incident, dont seulement 37 officiellement étaient rétablis à ce stade, autour de 15h30 heure française. Pour les joueurs, créatifs et utilisateurs de messageries ou autres outils toujours touchés, il faudra encore un peu patienter. Amazon multiplie les updates sur son tableau de bord, avec de nouvelles communications régulières pour tenir ses clients informés.