Il semblerait que Google ne joue pas vraiment franc-jeu avec les éditeurs tiers refusant que leur contenu soit utilisé pour entraîner l’intelligence artificielle.

- Google esquive en partie la volonté des éditeurs en usant de contenus pour entraîner ses IA malgré un mécanisme d’opt-out.
- Le vice-président de DeepMind confirme que Gemini permet de s'entraîner sur des données exclues par les éditeurs.
- Google suggère que les éditeurs désindexent leurs pages pour bloquer l’utilisation des contenus par l’IA.
Qu'il s'agisse de Google, Bing, Brave ou DuckDuckGo, l'IA s'immisce toujours un peu plus au sein des moteurs de recherche. Dans le cadre de son procès pour abus de position dominante, Google a fait des révélations sur les pratiques réelles qui sont mises en place.
Une option volontairement floue
Depuis plusieurs années, Google propose aux éditeurs de sites web un mécanisme d’opt-out, censé leur permettre d’empêcher l’utilisation de leurs contenus pour l’entraînement des modèles d’IA. Mais lors de son procès qui se déroule actuellement aux États-Unis, Eli Collins, vice-président de Google DeepMind, a reconnu que cette option ne s’appliquait qu’aux modèles développés par DeepMind, la filiale IA de Google.
En pratique, cela signifie que Google contourne, en partie, la volonté des éditeurs de contenus. En effet, l’équipe en charge du moteur de recherche peut continuer d'utiliser ces mêmes contenus pour entraîner ses propres IA, notamment celles qui alimentent les "AI Overviews", ces résumés générés par IA en tête des résultats de recherche.
Bloomberg rapporte les propos de l'avocate du Département de la Justice Diana Aguilar, laquelle affirme : "Une fois que vous intégrez Gemini dans l’organisation Search, cette organisation a la capacité d’entraîner ses modèles sur les données dont les éditeurs avaient pourtant choisi d’exclure l’utilisation à des fins d’entraînement, n’est-ce pas ?".
Le vice-président de DeepMind n'a d'autre choix que d'acquiescer : "C'est exact, pour être utilisé dans la recherche".

Au total, ce sont 80 milliards de tokens (fragments de texte) du corpus d’entraînement DeepMind qui ont été retirés à la demande des éditeurs. Pour ces derniers, la question n’est pas seulement technique. Puisque Google se permet d'utiliser ces données au sein des résultats Web générés par intelligence artificielle avec AI Overviews, ces sites internet qui génèrent de l'information sont moins bien mis en avant, ils reçoivent moins de trafic et affichent donc progressivement une baisse de revenus.
Google se contente d'expliquer que pour enlever ces informations mises en avant au détriment des éditeurs, ces derniers doivent tout simplement quitter le moteur de recherche et désindexer l'intégralité de leurs pages web.
22 janvier 2025 à 12h13