Internet Archive se meurt : l’erreur fatale causée par la panique de l’IA

Le très célèbre The Guardian a retiré certaines pages de la Wayback Machine pour protéger son contenu. Le New York Times et Reddit ont adopté des mesures similaires pour contrôler l’accès à leurs archives. Mais pourquoi ?

Après avoir constaté que les robots d’Internet Archive visitaient régulièrement leurs pages, The Guardian a retiré ses articles des archives publiques - ©Wirestock Creators / Shutterstock

Panique dans les colonnes ! Lorsque The Guardian a analysé ses journaux de consultation, les robots de l’Internet Archive figuraient parmi les visiteurs les plus fréquents. L’éditeur a retiré ses articles du moteur interne de la bibliothèque pour éviter que des entreprises d’IA n’extraient massivement son contenu. Le New York Times lui a emboîté le pas, tandis que d’autres médias américains et internationaux réévaluaient leurs archives numériques pour restreindre l’accès aux robots. Seules les pages destinées au grand public sont restées accessibles via la Wayback Machine.

Des archives destinées au public mais réutilisées comme données d’entraînement d'outils d'IA

Après avoir constaté que les robots d’Internet Archive visitaient régulièrement leurs pages, The Guardian a retiré ses articles des archives publiques. Robert Hahn, responsable des affaires commerciales et des licences du grand titre de presse américaine, a précisé que l’éditeur voulait limiter l’accès aux contenus exploitables par des entreprises spécialisées en IA. Les pages d’accueil régionales et les sections thématiques sont restées visibles, mais les articles individuels ont été masqués.

Il n'en a pas fallu plus pour que le New York Times fasse de même et ajoute certains robots de l’Internet Archive à son fichier robots.txt, pour interdire l’accès à ses contenus payants. Le monde de la presse américaine craint que des robots structurent automatiquement des bases de données de texte et d’images pour entraîner des modèles d’IA, sans autorisation. Reddit a pris une mesure comparable pour ses forums et profils archivés.

Les robots en question collectent des URL et des contenus de façon automatisée. Les entreprises spécialisées en IA peuvent ensuite exploiter ces données pour leurs modèles de traitement du langage ou de reconnaissance d’images. Selon Mark Graham, directeur de la Wayback Machine, certaines entreprises avaient généré des dizaines de milliers de requêtes par seconde pour extraire du texte depuis les archives, provoquant des surcharges temporaires des serveurs.

Brewster Kahle, fondateur d’Internet Archive, a expliqué que l’organisation avait installé des systèmes de limitation de débit et des filtres réseau pour contrôler la collecte massive, mais qu’elle n’interdisait aucun robot précis. La restriction décidée par les éditeurs est indépendante de l’Internet Archive et n'est motiviée que par la volonté des médias de protéger leurs contenus.

Le Huffington Post et Le Monde ont également renforcé ces mesures en interdisant jusqu’à trois robots - ©T. Schneider / Shutterstock

Des archives fragilisées par des choix humains

Fin 2025, notre confrère Nieman Lab a analysé les fichiers robots.txt de 1 167 sites d’information pour évaluer l’accès des robots d’Internet Archive. Quatre robots ont été identifiés comme étant utilisés pour l’extraction automatique de contenus. Parmi ces sites, 241 interdisent au moins un de ces robots, et 226 interdisent deux d’entre eux. La majorité appartiennent à USA Today Co., anciennement Gannett, qui a bloqué l’accès pour empêcher l’extraction de contenu local par des IA.

Certaines publications, comme Le Huffington Post et Le Monde, ont renforcé ces mesures en interdisant jusqu’à trois robots. Ces décisions ont réduit la disponibilité de contenus historiques pour les utilisateurs réguliers et ont transformé l’accès à Internet Archive en un parcours hétérogène selon les éditeurs.

Les données montrent que des robots ont servi à collecter du contenu pour entraîner des modèles de Google et de Meta. Les archives publiques contiennent des textes, des images et des vidéos qui ont été utilisés dans des jeux de données comme C4, servant à l’apprentissage automatique. Les éditeurs craignent que ces pratiques légitimes pour l’archivage se transforment en collecte commerciale par des acteurs externes.

Désormais, les robots d'IA ne le savent pas, mais ils trouveront du répondant humain à leur intrusion. Et c'est plutôt une bonne nouvelle, pour ce qui reste et doit rester le 5^e pouvoir.

Source : NiemanLab