Il semblerait que Google ne joue pas vraiment franc-jeu avec les éditeurs tiers refusant que leur contenu soit utilisé pour entraîner l’intelligence artificielle.

- Google esquive en partie la volonté des éditeurs en usant de contenus pour entraîner ses IA malgré un mécanisme d’opt-out.
- Le vice-président de DeepMind confirme que Gemini permet de s'entraîner sur des données exclues par les éditeurs.
- Google suggère que les éditeurs désindexent leurs pages pour bloquer l’utilisation des contenus par l’IA.
Article mis à jour en bas de page
Qu'il s'agisse de Google, Bing, Brave ou DuckDuckGo, l'IA s'immisce toujours un peu plus au sein des moteurs de recherche. Dans le cadre de son procès pour abus de position dominante, Google a fait des révélations sur les pratiques réelles qui sont mises en place.
Une option volontairement floue
Depuis plusieurs années, Google propose aux éditeurs de sites web un mécanisme d’opt-out, censé leur permettre d’empêcher l’utilisation de leurs contenus pour l’entraînement des modèles d’IA. Mais lors de son procès qui se déroule actuellement aux États-Unis, Eli Collins, vice-président de Google DeepMind, a reconnu que cette option ne s’appliquait qu’aux modèles développés par DeepMind, la filiale IA de Google.
En pratique, cela signifie que Google contourne, en partie, la volonté des éditeurs de contenus. En effet, l’équipe en charge du moteur de recherche peut continuer d'utiliser ces mêmes contenus pour entraîner ses propres IA, notamment celles qui alimentent les "AI Overviews", ces résumés générés par IA en tête des résultats de recherche.
Bloomberg rapporte les propos de l'avocate du Département de la Justice Diana Aguilar, laquelle affirme : "Une fois que vous intégrez Gemini dans l’organisation Search, cette organisation a la capacité d’entraîner ses modèles sur les données dont les éditeurs avaient pourtant choisi d’exclure l’utilisation à des fins d’entraînement, n’est-ce pas ?".
Le vice-président de DeepMind n'a d'autre choix que d'acquiescer : "C'est exact, pour être utilisé dans la recherche".

Au total, ce sont 80 milliards de tokens (fragments de texte) du corpus d’entraînement DeepMind qui ont été retirés à la demande des éditeurs. Pour ces derniers, la question n’est pas seulement technique. Puisque Google se permet d'utiliser ces données au sein des résultats Web générés par intelligence artificielle avec AI Overviews, ces sites internet qui génèrent de l'information sont moins bien mis en avant, ils reçoivent moins de trafic et affichent donc progressivement une baisse de revenus.
Google se contente d'expliquer que pour enlever ces informations mises en avant au détriment des éditeurs, ces derniers doivent tout simplement quitter le moteur de recherche et désindexer l'intégralité de leurs pages web.
22 janvier 2025 à 12h13
Mise à jour mardi 6 mai 11h55 :
Google explique que Google-Extended est un outil que les éditeurs de sites web peuvent utiliser pour gérer si leur site contribue à l’amélioration de l’application Gemini et de l’API Vertex AI pour Gemini, y compris pour les futures générations de modèles qui alimentent ces produits. En utilisant Google-Extended pour contrôler l’accès au contenu d’un site, un administrateur de site web peut choisir de permettre ou non à ces modèles d’IA de devenir plus précis et performants au fil du temps.
Google précise que l'entreprise propose un autre moyen aux éditeurs pour gérer leur contenu dans la Recherche, via la norme web bien établie robots.txt.
Google AI Overviews est strictement corrélé au moteur de recherche. Les sites Internet ne souhaitant pas y figurer doivent ainsi demander d'être désindexés du moteur de recherche. Un porte-parole de Google explique toutefois que AI Overviews affiche davantage de liens vers les sources utilisées au sein de l'index de recherche, lesquelles seraient jugées plus qualifiées par les internautes.