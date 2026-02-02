Après avoir constaté que les robots d’Internet Archive visitaient régulièrement leurs pages, The Guardian a retiré ses articles des archives publiques. Robert Hahn, responsable des affaires commerciales et des licences du grand titre de presse américaine, a précisé que l’éditeur voulait limiter l’accès aux contenus exploitables par des entreprises spécialisées en IA. Les pages d’accueil régionales et les sections thématiques sont restées visibles, mais les articles individuels ont été masqués.

Il n'en a pas fallu plus pour que le New York Times fasse de même et ajoute certains robots de l’Internet Archive à son fichier robots.txt, pour interdire l’accès à ses contenus payants. Le monde de la presse américaine craint que des robots structurent automatiquement des bases de données de texte et d’images pour entraîner des modèles d’IA, sans autorisation. Reddit a pris une mesure comparable pour ses forums et profils archivés.

Les robots en question collectent des URL et des contenus de façon automatisée. Les entreprises spécialisées en IA peuvent ensuite exploiter ces données pour leurs modèles de traitement du langage ou de reconnaissance d’images. Selon Mark Graham, directeur de la Wayback Machine, certaines entreprises avaient généré des dizaines de milliers de requêtes par seconde pour extraire du texte depuis les archives, provoquant des surcharges temporaires des serveurs.

Brewster Kahle, fondateur d’Internet Archive, a expliqué que l’organisation avait installé des systèmes de limitation de débit et des filtres réseau pour contrôler la collecte massive, mais qu’elle n’interdisait aucun robot précis. La restriction décidée par les éditeurs est indépendante de l’Internet Archive et n'est motiviée que par la volonté des médias de protéger leurs contenus.