Cloudflare vient de dévoiler une solution gratuite qui permet aux propriétaires de sites de définir avec précision la façon dont l'intelligence artificielle peut utiliser leur contenu et exploiter leurs données.
Le géant Cloudflare a peut-être trouvé la solution au fléau du pillage des contenus des créateurs et sites web par l'intelligence artificielle. L'entreprise a mis au point un système qui permet enfin aux propriétaires de sites web et créateurs qui le souhaitent de reprendre le pouvoir face aux géants de l'IA. L'outil, gratuit, intégré au fichier robots.txt du site, aidera à différencier l'indexation classique de l'exploitation par le robot IA. En d'autres termes, les propriétaires pourront bloquer l'entraînement IA sur leur contenu.
Cloudflare ne veut plus que les robots d'intelligence artificielle court-circuitent les créateurs
Pour comprendre ce qu'a mis au point Cloudflare et pourquoi, il faut maginer Internet comme une immense bibliothèque où des robots ultra-rapides débarquent chaque jour pour photocopier des millions de livres. Hier, ces robots se contentaient de noter les références pour orienter les lecteurs vers les bons rayons. Aujourd'hui, ils digèrent directement le contenu pour répondre aux questions sans jamais renvoyer vers l'auteur original.
Cette évolution bouleverse les fondements économiques du web. Les créateurs qui vivaient des visites sur leurs sites se retrouvent court-circuités par des « moteurs de réponse » qui synthétisent leurs informations sans compensation. Le phénomène prend une ampleur vertigineuse, puisque Cloudflare anticipe que le trafic des robots dépassera celui des humains dès la fin 2029.
Matthew Prince, le président et cofondateur de Cloudflare, estime qu'« Internet ne peut attendre qu'une solution soit trouvée pendant que le contenu original des créateurs est utilisé à des fins lucratives par d'autres entreprises. » Son constat résonne tout particulièrement chez les éditeurs de presse, comme Clubic et tous les médias qui proposent du contenu sur Internet, premiers touchés par cette révolution.
Le fichier robots.txt réinventé, avec trois signaux anti-IA
La solution imaginée par Cloudflare ressemble à un système de feux tricolores pour robots. Elle s'appuie sur robots.txt, ce fichier technique que chaque site peut utiliser pour donner des instructions aux visiteurs automatisés. Jusqu'ici, ce fichier permettait seulement de dire « tu peux entrer » ou « accès interdit », pour schématiser.
Cloudflare a eu la bonne idée d'ajouter trois nouvelles nuances dans ce langage informatique. Le signal « search » autorise l'indexation classique pour les moteurs de recherche. Le signal « ai-input » concerne l'utilisation immédiate du contenu pour générer des réponses. Et enfin, « ai-train » détermine si les données peuvent servir à entraîner de nouveaux modèles d'IA.
Concrètement, un média ou tout autre site proposant du contenu pourra désormais autoriser Google à indexer ses articles, tout en interdisant à ChatGPT de les utiliser pour son apprentissage. Cette granularité répond aux besoins nuancés des créateurs de contenu. Plus de 3,8 millions de domaines bénéficient déjà automatiquement de cette protection depuis leur service géré de Cloudflare.
Les géants du web applaudissent l'initiative des deux mains
L'accueil réservé à cette nouveauté révèle l'ampleur du problème auprès d'éminents utilisateurs de Cloudflare. Chris Slowe, directeur technique de Reddit, salue par exemple une initiative qui « protège Internet contre les abus et l'utilisation abusive du contenu ». Quora soutient ces « mesures de contrôle pour aider les éditeurs à gérer l'accès à leur contenu ». Même Stack Overflow applaudit la démarche.
Danielle Coffey, présidente de la News/Media Alliance, qui représente les éditeurs américains, ne cache pas son enthousiasme : « Nous nous réjouissons de la mise à disposition par Cloudflare d'un nouvel outil puissant conçu pour permettre aux éditeurs de déterminer la manière et l'endroit où leur contenu est utilisé », indique-t-elle.
Cloudflare joue la carte du partage en rendant sa solution entièrement gratuite et libre d'usage. L'entreprise a même créé un site dédié, ContentSignals.org, qui génère automatiquement le code technique nécessaire pour les non-spécialistes. L'Américain espère bien faire de sa méthode LA référence universelle adoptée par l'ensemble du web.