L'IA peut être utilisée pour des objectifs très politiques. C'est ce que nous montre une fois encore la découverte de cette base de données en Chine.

© Shutterstock
© Shutterstock

La question de la censure dans l'IA du côté de la Chine a été de nombreuses fois évoquée ces deux dernières années. On a ainsi pu voir que le modèle de langage R1 de DeepSeek, qui a ébloui par ses performances, esquivait les questions sensibles relatives à la Chine. Mais la tentation de la censure irait beaucoup plus loin si l'on en croit cette découverte.

1minAI1minAI
Obtenez ChatGPT-5, Gemini, Midjourney et plus encore avec 1minAI

La plateforme 1minAI propose en ce moment son offre Pro Lifetime à seulement 29,97 $ (environ 26 €) au lieu de 234 $, soit un accès à GPT-5 et aux autres IA majeures comme Gemini, Claude 3 ou Midjourney

Offre partenaire

La découverte d'une base de données montre que la Chine vodurait utiliser l'IA pour la censure

Le chercheur NetAskari a fait une découverte intéressante sur un serveur de Baidu. Il y a en effet récupéré une base de données comprenant près de 133 000 exemples de propos qui devraient être automatiquement repérés par l'IA pour être censurés.

« Contrairement aux mécanismes de censure traditionnels, qui reposent sur la main-d'œuvre humaine pour le filtrage par mot-clé et l'examen manuel, un modèle de langage formé à ces instructions améliorerait considérablement l'efficacité et la granularité du contrôle de l'information par l'État », a expliqué le chercheur à UC Berkeley, Xiao Qiang, qui a pu analyser un morceau de cette base de données pour TechCrunch.

© Pixabay

Une base de données destinée au « travail sur l'opinion publique »

Cette base de données, très mal protégée, a été mise à jour pour la dernière fois en décembre 2024. Aucune information sur les créateurs n'y a été mentionnée, mais il est indiqué qu'elle est dédiée au « travail sur l'opinion publique. » Et si de nombreux sujets peuvent être considérés comme sensibles, plusieurs grandes catégories se dégagent :

  • Les questions militaires et Taïwan sont évidemment très présents dans cette base de données. Le seul nom de Taïwan serait ainsi retrouvable près de 15 000 fois selon TechCrunch.
  • Les sujets pouvant créer un trouble social comme la corruption (d'entrepreneurs ou d'officiels), ou bien la pauvreté en milieu rural.
  • La « satire politique » est aussi explicitement nommée dans la base de données, tout comme certaines formes de dissidence plus indirectes.

Contactée par TechCrunch, l'ambassade de Chine à Washington se dit opposée « aux attaques infondées et aux calomnies contre la Chine. » Elle ajoute que Pékin accorde beaucoup d'importance au développement d'une IA éthique.

Source : TechCrunch

À découvrir
Quels sont les 5 meilleurs chatbots à intelligence artificielle ? Comparatif 2025
04 février 2025 à 14h11
Comparatifs services