Comment empêcher ChatGPT d'exploiter le contenu de votre site web ?

31 mars 2023 à 15h00
10
© rcphotostock / Freepik / Clubic
© rcphotostock / Freepik / Clubic

Pour devenir aussi performant, ChatGPT s'est entraîné sur une quantité astronomique de ressources, et votre site web en fait peut-être partie. Sachez qu'il existe des solutions pour se prémunir de l'exploitation de vos textes par OpenAI.

Fondé sur le modèle de langage GPT-4, ChatGPT est un agent conversationnel qui a réponse à tout, ou presque. Pour assurer son bon fonctionnement, la société qui l'a développé, OpenAI, a eu recours à une gigantesque base de données de contenus publiés et disponibles en ligne. Pour alimenter les connaissances de ChatGPT, la firme a utilisé des livres, Wikipédia, des sites de presse, des publications Reddit et diverses pages web en tout genre… dont fait potentiellement partie votre propre site web.

Mais OpenAI ne vous a jamais demandé l'autorisation d'exploiter votre contenu pour améliorer ses modèles de langage, et donc, ChatGPT. L'entreprise ne vous rémunère pas non plus pour votre participation à l'évolution des capacités de son produit. Vous pouvez avoir plusieurs raisons de souhaiter que le contenu de votre site ne soit pas siphonné par ChatGPT à ses fins d'entraînement, qu'elles soient d'ordre pratique ou moral : éviter de surcharger votre site de requêtes, refuser par principe de participer à l'émergence de l'intelligence artificielle…

Comment empêcher ChatGPT d'exploiter le contenu de votre site web ?

Voilà pourquoi nous vous présentons quelques astuces qui devraient vous permettre de bloquer l'accès aux contenus de votre site à ChatGPT.

1. Bloquer Common Crawl sur tout votre site grâce au fichier robots.txt

L'une des méthodes utilisées par OpenAI pour alimenter ses modèles de langage est Common Crawl. Il s'agit d'une organisation à but non lucratif qui a mis au point un robot baptisé CCBot. Son but est d'explorer et d'analyser le Web pour fournir gratuitement des archives et des ensembles de données de contenus publiés sur Internet.

CCBot a recours au protocole robots.txt pour effectuer ses opérations de ce que l'on appelle « crawling » en anglais. Ce fichier se trouve à la racine de votre site web, et son rôle est d'indiquer aux robots d'exploration les URL auxquelles il a le droit d'accéder sur votre domaine.

Pour bloquer CCBot, auquel a recours ChatGPT, sur l'ensemble de votre site web, ajoutez les instructions suivantes à votre fichier robots.txt :

User-agent: CCBot
Disallow: /

2. Utiliser une balise nofollow dans les métadonnées de son site web

Toujours pour limiter l'accès à vos contenus par CCBot, vous disposez de la possibilité d'ajouter une balise nofollow au sein des métadonnées de votre code HTML, qui sert à structurer et mettre en page votre site web. Celle-ci va faire savoir aux robots que vous ne désirez pas que le contenu de votre site soit indexé. La balise en question est celle-ci :

<meta name="CCBot" content="nofollow">

3. Recourir à des captchas contre les robots

Les captchas sont une technique de sécurité très populaire sur Internet, et leur but principal est d'éviter la surcharge des sites web causée par des robots en leur imposant un test qu'ils ne sont pas censés réussir. Cette solution n'est à recommander que si vous craignez également que des robots malveillants s'en prennent à votre site, notamment dans le cadre d'attaques par déni de service (DDoS). En effet, ces captchas seront aussi imposés à vos visiteurs humains, ce qui peut détériorer leur expérience sur votre site web. Privilégiez donc les deux autres solutions que nous décrivons plus haut.

Captcha Test

Ces quelques méthodes devraient suffire à empêcher dorénavant ChatGPT (et toutes les plateformes ayant recours aux bases de données constituées par les robots d'exploration) d'utiliser votre site web et les contenus qu'il héberge comme terrain de jeu. Mais vous n'êtes bien sûr pas à l'abri que le chatbot ait déjà eu accès à vos ressources dans le passé. Gardez aussi à l'esprit qu'il peut dans certains cas être intéressant de laisser les robots scanner son site, tous ne vous veulent pas du mal.

ChatGPT
  • Chat dans différentes langues, dont le français
  • Générer, traduire et obtenir un résumé de texte
  • Générer, optimiser et corriger du code

Créé par OpenAI, ChatGPT est un chatbot avancé propulsé par le modèle linguistique de dernière génération GPT-4. En exploitant des technologies d'apprentissage en profondeur et d'intelligence artificielle, ce chatbot a la capacité de déchiffrer et de comprendre les demandes des utilisateurs. Grâce à son habileté à générer du texte de manière ingénieuse, ChatGPT offre des réponses adaptées et pertinentes, garantissant une interaction de chat fluide et une expérience utilisateur optimisée.

Créé par OpenAI, ChatGPT est un chatbot avancé propulsé par le modèle linguistique de dernière génération GPT-4. En exploitant des technologies d'apprentissage en profondeur et d'intelligence artificielle, ce chatbot a la capacité de déchiffrer et de comprendre les demandes des utilisateurs. Grâce à son habileté à générer du texte de manière ingénieuse, ChatGPT offre des réponses adaptées et pertinentes, garantissant une interaction de chat fluide et une expérience utilisateur optimisée.

Alexandre Schmid

Gamer et tech enthusiast, j’ai fait de mes passions mon métier. Diplômé d’un Master en RNG sur Hearthstone. Rigole aux blagues d’Alexa.

Lire d'autres articles

Gamer et tech enthusiast, j’ai fait de mes passions mon métier. Diplômé d’un Master en RNG sur Hearthstone. Rigole aux blagues d’Alexa.

Lire d'autres articles
Vous êtes un utilisateur de Google Actualités ou de WhatsApp ? Suivez-nous pour ne rien rater de l'actu tech !
google-news
Rejoignez la communauté Clubic S'inscrire

Rejoignez la communauté des passionnés de nouvelles technologies. Venez partager votre passion et débattre de l’actualité avec nos membres qui s’entraident et partagent leur expertise quotidiennement.

S'inscrire

Commentaires (10)

Bombing_Basta
Comment bloquer ChatGPT d’exploiter le contenu de votre site web ?<br /> Comment déterrer Molière pour le tuer une seconde fois…
salvia34
Et Bard, lui me copie/colle des phrases complètes de mon site web, sans aucune fois citer la source…
negima
Le fichier robots.txt ne sert strictement à rien ! Aucun robot ne respecte, y compris Google. C’est même écrit sur les pages Outils webmasters de google.<br /> Pour certains robots, cela permet même d’accéder à des pages cachées.
Valmont69
J’ai lu l’article pour comprendre le titre.
Halsh
Nous avons modifié le titre, qui était il est vrai, très maladroit dans sa première version.
Bombing_Basta
Merci. <br /> Par contre sur le forum (zone des commentaires sur les actus) la faute est toujours là.
Blackalf
J’ai pu changer le titre côté forum, par contre pour l’aperçu en tête de sujet, on ne peut rien faire. ^^
negima
Le site est mal encodé alors. Les développeurs ont du boulot.
kyosho62
Rien a voir avec le site, puisque le forum c’est https://www.discourse.org/
negima
Pourtant sur la page d’accueil du site, la correction a bien été appliquée. Il y a bien une anomalie.
kroman
negima:<br /> Aucun robot ne respecte, y compris Google. C’est même écrit sur les pages Outils webmasters de google.<br /> Source? C’est pas ce qu’on lit sur leur site How Google Interprets the robots.txt Specification | Google Search Central  |  Documentation  |  Google Developers
negima
J’ai eu le message « Indexé malgré le blocage par le fichier robots.txt » dans la search console.
Voir tous les messages sur le forum
Haut de page

Les derniers tutoriels

Tous les tutoriels