Les IA ont besoin d'énormément de données pour leur entraînement. Ce qui pousse les entreprises à chercher absolument partout, et à faire des erreurs, comme chez Amazon !

Amazon banner logo

Pour s'améliorer, les intelligences artificielles ont besoin d'un volume de données incroyablement massif. Et la question est tellement cruciale que des entreprises peuvent avoir tendance à ne pas être trop regardantes, et à prendre un peu tout ce qui passe, quitte à vérifier seulement ensuite leur qualité. Et ça peut donner de mauvaises surprises, comme ça a été le cas au sein d'Amazon.

Des centaines de milliers de contenus pédopornographiques destinés à l'entraînement des IA découverts par Amazon

Aux États-Unis, il existe une institution mise en place par le Congrès, le National Center for Missing and Exploited Children (NCMEC), dédié à la récolte d'informations sur les abus sexuels sur enfants, partagées ensuite avec les forces de l'ordre. Et celle-ci s'est récemment mise à traquer ce genre de contenus du côté de l'IA.

Pour 2025, elle a enregistré une multiplication par 15 de rapports pour des contenus liés à l'IA, dont « la grande majorité », comme le rapporte Bloomberg, provient d'Amazon. La société fondée par Jeff Bezos reconnaît elle avoir détecté des centaines de milliers de contenus à caractère pédopornographiques dans les données destinées à entraîner des IA.

 © Christian Wiediger / Unsplash
© Christian Wiediger / Unsplash

Un volume très « élevé » qui pose question

Le géant américain précise par ailleurs qu'il a pu supprimer ces données avant qu'elles ne soient utilisées pour l'entraînement des IA. Petit problème, Amazon n'a pas pu fournir aux autorités les sources de ces données, ce qui rend difficile la traque des auteurs à l'origine de ces contenus délictuels.

Le NCMEC note de son côté que les autres spécialistes du domaine n'ont, collectivement, étaient à l'origine que de « quelques rapports », et ont pu fournir des détails sur les origines de ces contenus. Amazon est donc un cas assez exceptionnel, qui pourrait indiquer une situation problématique particulière. « Un volume aussi élevé tout au long de l'année soulève de nombreuses questions quant à la provenance des données et aux mesures de protection mises en place » s'émeut ainsi Fallon McNulty, la directrice exécutive de la CyberTipline du NCMEC. Le début d'une polémique ?

À découvrir
Quelles sont les meilleures IA pour générer vos contenus ? Comparatifs 2026
02 janvier 2026 à 14h39
Comparatifs services