Internet Archive, c'est un peu l'équivalent dématérialisée de la Bibliothèque d'Alexandrie. Le projet stocke 210 pétaoctets de mémoire collective, la quasi-totalité du web qui vit ou a vécu. L'IA est en train de lui couper les vivres, un disque dur à la fois.

Internet Archive, l'organisation à but non lucratif qui fait tourner la Wayback Machine depuis 1996, n'a jamais manqué de bonnes raisons de s'inquiéter. En octobre 2024, une cyberattaque avait exposé les données de 31 millions de comptes et mis le service à genoux pendant plusieurs jours. Début 2026, The Guardian et le New York Times retiraient leurs articles de peur que les robots de l'Archive alimentent des modèles d'IA. Le nombre de pages de presse capturées a chuté de 87 % entre mai et octobre 2025. Cette fois, la menace ne vient ni des hackers ni des éditeurs. Elle vient du prix des disques durs.
Western Digital « a tout vendu pour 2026 »
Brewster Kahle, le fondateur d'Internet Archive, a confié au média 404 Media que les disques durs de 28 à 30 téraoctets (ceux dont l'organisation a besoin pour absorber les 100 téraoctets de données qu'elle ingère chaque jour) étaient « indisponibles ou à un prix prohibitif ». Le patron de Western Digital a confirmé la situation lors de sa conférence trimestrielle : l'entreprise est « pratiquement en rupture de stock pour l'année calendaire 2026 ».
L'explication tient en trois lettres. L'IA a créé une demande insatiable en stockage pour les centres de données qui entraînent et font tourner les modèles de langage. Chez Western Digital, le segment entreprise (datacenters, cloud, IA) représente désormais environ 89 % du chiffre d'affaires. Le segment grand public pèse 5 %. Le rapport de force est si déséquilibré que les fabricants n'ont plus aucune raison de produire des volumes destinés au marché secondaire. Les prix de certains modèles ont été multipliés par deux ou trois depuis septembre 2025.
En France, la tendance est la même. Un SSD Samsung 990 EVO Plus de 2 To se vendait 150 euros sur Amazon en avril 2025, il en coûtait 360 en janvier 2026. Un WD Black SN850X de 2 To est passé de 130 à plus de 300 euros sur la même période.
La Wikimedia Foundation (la maison mère de Wikipédia) subit le même phénomène. Son porte-parole a confirmé des « difficultés d'approvisionnement en mémoire et en disques durs, des délais allongés sur les livraisons de serveurs et une capacité réduite à passer de nouvelles commandes ».
210 pétaoctets et un modèle qui ne tient plus
Internet Archive, c'est 210 pétaoctets d'archives accumulés depuis près de trente ans. Pour donner une idée de l'échelle (et parce que « pétaoctet » ne dit pas grand-chose à la plupart d'entre nous), cela représente environ 210 000 disques durs de 1 To empilés les uns sur les autres, soit une colonne de plus de 5 kilomètres de haut. L'organisation ajoute 100 To de données par jour et a franchi le cap du trillion de pages archivées en octobre 2025.
Le modèle économique d'Internet Archive repose entièrement sur les dons. Contrairement à la BnF, qui assure le dépôt légal du web français depuis 2006 grâce à des crédits du ministère de la Culture (environ 45 milliards de fichiers archivés), ou à l'INA, qui gère le dépôt légal du web médias avec quelque 17,5 milliards d'URL, l'organisation américaine ne bénéficie d'aucun financement public. Quand le prix du stockage double, c'est son budget qui prend le choc, sans filet.
La double menace qui pèse aujourd'hui sur Internet Archive a quelque chose de circulaire. L'IA aspire les contenus du web (c'est ce qui a poussé les éditeurs à couper l'accès à leurs archives), et dans le même mouvement, l'IA assèche le marché des disques durs nécessaires pour archiver ce même web. L'industrie qui se nourrit de données rend plus difficile la conservation de ces données pour tout le monde.
Pour les utilisateurs européens, l'impact n'est pas abstrait. La Wayback Machine s'est intégrée à Google Search et reste un outil quotidien pour les chercheurs, les journalistes et les développeurs. Si l'organisation ne parvient plus à étendre sa capacité de stockage, ce sont les pages archivées à partir de maintenant qui manqueront. La mémoire d'Internet ne disparaîtra pas d'un coup. Elle cessera simplement de se former.
