Vous ne voulez pas que ChatGPT aspire les connaissances de votre site ? C'est désormais possible !

08 août 2023 à 08h30
5
© Wachiwit / Shutterstock
© Wachiwit / Shutterstock

Après de nombreux mois de controverse concernant la collecte de données pour entraîner les IA génératives, OpenAI ouvre la voie pour changer la donne.

L'avenir avec l'intelligence artificielle s'annonce-t-il soudainement un peu plus serein ?

Un petit fichier texte à modifier

La base de données de ChatGPT est un peu datée, puisqu'elle est limitée à 2021. C'est un problème pour son développeur, OpenAI, qui doit faire face à une concurrence croissante, notamment à celle de Google Bard, qui a un accès beaucoup plus direct à l'ensemble du Web, et donc potentiellement à ses connaissances. Pour pallier cette carence, un certain GPTBot vient de faire son apparition. Tout comme les robots des moteurs de recherche qui parcourent le Web pour référencer les pages des sites internet, il a la capacité de se balader de page en page, d'en aspirer les données et de les transmettre à ChatGPT.

Une vision d'horreur, dites-vous ? Pas tout à fait, car OpenAI a pensé à tout. En effet, les administrateurs de sites web peuvent dès à présent empêcher GPTBot d'explorer leur contenu en bloquant leur adresse IP, ou bien en modifiant un fichier qu'ils connaissent déjà très bien : robots.txt. Ce dernier agit comme un videur devant un site, autorisant ou non le passage aux robots de Google ou de Bing, pour ne citer qu'eux. Celui de ChatGPT ne fait donc pas exception, et il s'agit d'une très bonne nouvelle, qui pourrait marquer le début de changements majeurs pour le secteur dans la meilleure des directions.

© Rock'n Roll Monkey / Unsplash
© Rock'n Roll Monkey / Unsplash

Un précédent significatif pour tout un secteur ?

Entre les grèves de scénaristes, les plaintes d'artistes et le besoin immédiat de créer de nouvelles réglementations, les programmes tels que ChatGPT ou Midjourney ont provoqué un sacré remue-ménage, c'est le moins que l'on puisse dire. Ayant besoin de collecter de nombreuses connaissances pour se former, ils se sont naturellement tournés vers Internet pour en obtenir le plus possible. Cependant, la protection des données personnelles des internautes et de la propriété intellectuelle des créateurs et autres organisations est rapidement devenue un point sensible, au point de provoquer de nombreuses levées de boucliers.

Les intelligences artificielles ont le potentiel d'apporter énormément de changements dans nos habitudes, en bien ou en mal. Cependant, leur utilisation soulève des questions que nos sociétés n'ont pas encore réussi à aborder pleinement et sur lesquelles il n'existe pas de consensus. Les IA génératives développées par les géants de la tech vont donc devoir s'adapter un peu, sous peine de recevoir un énorme retour de bâton qui pourrait bien ralentir leur développement plus qu'autre chose.

C'est pourquoi le secteur travaille main dans la main avec les institutions gouvernementales pour s'adapter sereinement à nos sociétés. En témoigne un accord signé avec la Maison-Blanche par plusieurs entreprises d'IA, dans le but de développer un système permettant de savoir si quelque chose a été généré par l'intelligence artificielle ou non. Et si tout le monde ne promet pas de cesser d'utiliser les données des utilisateurs pour développer ses produits, il se pourrait que de nombreux détracteurs de ChatGPT et compagnie trouvent l'approche d'OpenAI inspirante. Cependant, cette dernière ne se retient pas de préciser que « permettre à GPTBot d'accéder à votre site peut aider les modèles d'IA à devenir plus précis et à améliorer leurs capacités générales et leur sécurité ».

ChatGPT
  • Chat dans différentes langues, dont le français
  • Générer, traduire et obtenir un résumé de texte
  • Générer, optimiser et corriger du code

Créé par OpenAI, ChatGPT est un chatbot avancé propulsé par le modèle linguistique de dernière génération GPT-4. En exploitant des technologies d'apprentissage en profondeur et d'intelligence artificielle, ce chatbot a la capacité de déchiffrer et de comprendre les demandes des utilisateurs. Grâce à son habileté à générer du texte de manière ingénieuse, ChatGPT offre des réponses adaptées et pertinentes, garantissant une interaction de chat fluide et une expérience utilisateur optimisée.

Créé par OpenAI, ChatGPT est un chatbot avancé propulsé par le modèle linguistique de dernière génération GPT-4. En exploitant des technologies d'apprentissage en profondeur et d'intelligence artificielle, ce chatbot a la capacité de déchiffrer et de comprendre les demandes des utilisateurs. Grâce à son habileté à générer du texte de manière ingénieuse, ChatGPT offre des réponses adaptées et pertinentes, garantissant une interaction de chat fluide et une expérience utilisateur optimisée.

Source : The Verge

Maxence Glineur

Geek hyper connecté et féru de podcasts, je suis toujours en train de lire ou écouter des points infos en tout genre. Entre histoire, tech, politique, musique, jeux-video et vulgarisation scientifique...

Lire d'autres articles

Geek hyper connecté et féru de podcasts, je suis toujours en train de lire ou écouter des points infos en tout genre. Entre histoire, tech, politique, musique, jeux-video et vulgarisation scientifique : toute l'actualité (ou presque) attise ma curiosité. Sinon, j'aime le rock et le lofi, les game-nights toujours trop longues, les bons films et les nanards.

Lire d'autres articles
Vous êtes un utilisateur de Google Actualités ou de WhatsApp ? Suivez-nous pour ne rien rater de l'actu tech !
google-news

A découvrir en vidéo

Rejoignez la communauté Clubic S'inscrire

Rejoignez la communauté des passionnés de nouvelles technologies. Venez partager votre passion et débattre de l’actualité avec nos membres qui s’entraident et partagent leur expertise quotidiennement.

S'inscrire

Commentaires (5)

ultrabill
(…) en modifiant un fichier qu’ils connaissent déjà très bien : robot.txt<br /> Ne renvoyez surtout pas vers la doc : OpenAI Platform<br /> Et c’est «&nbsp;robots.txt&nbsp;» au pluriel.
Caramel34
Je trouve ça ridicule, tous les moteurs de recherche «&nbsp;aspirent&nbsp;», d’où les résumés sous les liens.<br /> Si paranoman à peur de voir son ou ses sites aspirés par une IA qu’il commence à bloquer les moteurs.<br /> On diffuse des informations sur le net mais il ne faut surtout pas que ça apparaisse qqpart !
Roger_Pimpon
On produit du contenu mais on ne veut pas que ce contenu soit exploité sans consentement ou contre partie par un tiers pour son profit. Parce qu’il s’agit bien de cela strictement.
MattS32
Caramel34:<br /> On diffuse des informations sur le net mais il ne faut surtout pas que ça apparaisse qqpart !<br /> Ça peut avoir du sens quand même dans certains cas… Par exemple, si j’administrais un site de fausses nouvelles humoristiques, je demanderait à ChatGPT de ne pas utiliser mon site pour son apprentissage pour éviter de le polluer avec des fausses informations reprises hors contexte du site humoristique…
ABC
Il est surprenant qu’il n’y ait pas une simple petite ligne de code à ajouter, comme pour les sites qui ne veulent pas que leur contenu soit référencé.<br /> Le bon usage aurait exigé que les IA demandent l’autorisation aux sites plutôt que de devoir blinder chaque page. Beaucoup ne le feront pas. Les IA c’est l’ubérisation en pire. Violer la loi sans retenue tant que personne ne leur dit stop, ce qui peut prendre du temps.
Caramel34
Dans ce cas oui ça fait sens.
MattS32
ABC:<br /> Le bon usage aurait exigé que les IA demandent l’autorisation aux sites plutôt que de devoir blinder chaque page.<br /> robots.txt, c’est pas chaque page, tu peux en mettre un à la racine du site indiquant qu’il s’applique à toute l’arborescence. Et ça fait du coup bien une simple petite ligne à ajouter, comme pour les sites qui ne veulent pas que leur contenu soit référencé. C’est exactement le même système (en fait, ceux qui avaient déjà bloqué le référencement de façon globale, indépendamment du nom du robot, bloquent peut-être même déjà ChatGPT depuis qu’il prend en compte le robots.txt, car s’il fait bien les choses il prend en compte un disallow générique…).<br /> Et OpenAI donne même la plage d’IP du bot pour pouvoir faire un vrai blocage technique (parce que le robots.txt, c’est pas un blocage technique, c’est juste demander au robot de ne pas indexer, mais techniquement rien ne l’empêche de passer outre…).
Voir tous les messages sur le forum
Haut de page

Sur le même sujet