🔴 French Days en direct 🔴 French Days en direct

Google : les sites web pourront refuser de devenir un centre d'entraînement pour IA

01 octobre 2023 à 19h00
6
© Mopic / Shutterstock
© Mopic / Shutterstock

Google vient d'officialiser une fonction qui permettra aux sites web de refuser l'absorption de leurs données à des fins d'entraînement de l'IA.

La question des données avalées en quantités gigantesques par des entreprises comme OpenAI pour leur chatbot, et ce, sans jamais demander d'autorisations, a entraîné de nombreuses polémiques, dont certaines ont fini par se terminer par des plaintes devant la justice. Alors pour éviter qu'à l'avenir, les contributeurs humains à internet voient leur travail utilisé gratuitement, et sans leur consentement, Google a décidé de proposer une fonction de blocage qui devrait faire fureur !

Rencontrez « Google-Extended »

Google est très engagé dans la question de l'intelligence artificielle, avec Bard évidemment, mais aussi avec son prochain modèle de langage Gemini. Pour autant, la firme américaine semble vouloir apporter un peu de règles dans la jungle du web où les entreprises récoltent sans vergogne les données dont elles ont besoin.

Elle vient ainsi d'officialiser son nouvel outil « Google-Extended », qui va permettre aux créateurs de contenu sur internet de laisser le moteur de recherche continuer à indexer leur site, tout en étant en mesure d'interdire l'utilisation de leurs données par les développeurs d'intelligence artificielle.

© Shutterstock
© Shutterstock

Ça se passe sur robots.txt

Comment cela va-t-il se passer ? Eh bien, Google-Extender sera utilisable à travers robots.txt, le protocole d'exclusion des robots placé à la racine des sites web qui indique quelles données peuvent être indexées ou non par les bots d'exploration. Les créateurs de site web pourront ainsi y désigner leur volonté de ne pas voir leurs données être saisies par les bots d'exploration des sociétés d'intelligence artificielle.

Il s'agit d'une manière de procéder qui avait déjà été choisie par le New York Times cet été, quand le journal américain avait explicitement interdit sur son fichier robots.txt l'indexation de ses données par le bot d'exploration d'OpenAI. Cette mise à jour importante de Google devrait ainsi arriver au même résultat, mais sans rendre impossible l'indexation sur le moteur de recherche de la firme, activité qui est vitale pour la plupart des entités sur la toile.

Google Gemini (Google Bard)
  • Un modèle de génération puissant
  • Une base de connaissances actualisée en temps réel
  • Gratuit et intégré à l'écosystème Google

Google Gemini est un chatbot IA intrinsèquement connecté au web dans lequel il puise la majorité de ses connaissances. Le service possède comme principal avantage d'être totalement gratuit et d'offrir de la reconnaissance d'image. L'intégration progressive à l'écosystème de Google devrait en faire un chatbot des plus capables pour tout une variété de tâches.

Google Gemini est un chatbot IA intrinsèquement connecté au web dans lequel il puise la majorité de ses connaissances. Le service possède comme principal avantage d'être totalement gratuit et d'offrir de la reconnaissance d'image. L'intégration progressive à l'écosystème de Google devrait en faire un chatbot des plus capables pour tout une variété de tâches.

Source : The Verge

Samir Rahmoune

Journaliste tech, spécialisé dans l'impact des hautes technologies sur les relations internationales. Je suis passionné par toutes les nouveautés dans le domaine (Blockchain, IA, quantique...), les q...

Lire d'autres articles

Journaliste tech, spécialisé dans l'impact des hautes technologies sur les relations internationales. Je suis passionné par toutes les nouveautés dans le domaine (Blockchain, IA, quantique...), les questions énergétiques, et l'astronomie. Souvent un pied en Asie, et toujours prêt à enfiler les gants.

Lire d'autres articles
Vous êtes un utilisateur de Google Actualités ou de WhatsApp ? Suivez-nous pour ne rien rater de l'actu tech !
google-news

A découvrir en vidéo

Rejoignez la communauté Clubic S'inscrire

Rejoignez la communauté des passionnés de nouvelles technologies. Venez partager votre passion et débattre de l’actualité avec nos membres qui s’entraident et partagent leur expertise quotidiennement.

S'inscrire

Commentaires (6)

Squeak
Dans un monde idéal il fallait partir sur l’inverse et demander aux sites s’ils souhaitaient participer à l’IA. Sauf que ça aurait forcément freiné l’apprentissage. Google réagit en tout cas maintenant et propose des solutions mais ce que d’autres ont fait jusqu’à présent c’est clairement une collecte massive de tout et n’importe quoi.
gothax
Je suis en parfait accord avec @squeak ! Malheureusement il est trop tard !
SPH
Je suis en parfait accord avec @gothax, qui est lui même d’accord avec @squeak !<br />
ar-s
J’ai testé la 23h2 de microsoft en activant copilot, et bien Bing (enfin bing gpt) a bien répondu concernant mon entreprise… C’était vraiment pas mal. Du coup que je veuille ou non que les IA ne scanne pas mon site c’est trop tard comme pour beaucoup de monde je suppose. (dans mon cas ça ne me dérange pas ça me fait de la pub)
K702
Je n’aurais pas pu dire mieux que @SPH, d’ailleurs lui-même complètement d’accord avec @gothax dont il est bon de rappeler qu’il est en total accord avec @squeak.
meromictique
ça en fait des emails à envoyer aux milions de sites référencés sur google
Core-ias
C’est vrai, en HTML il aurait pu simplement avoir une balise avec du code JS qui serait ou pas exécuté.<br /> C’est une façon de faire qui fonctionne dans beaucoup de domaine.<br /> Réduire le nombre d’objet d’arrière plan et même la qualité, etc… dans les moteurs graphiques pour retirer les lags non introduit par le réseau.<br /> C’est trop tard, mais rattrapable.<br /> Cela pourrait même être un choix dans les préférences du profil des utilisateurs de Clubic.
Voir tous les messages sur le forum
Haut de page

Sur le même sujet