🔴 French Days en direct 🔴 French Days en direct

Le New York Times estime que ChatGPT a été entraîné avec ses articles, le quotidien attaque OpenAI et Microsoft

27 décembre 2023 à 17h44
13
Le logo d'OpenAI sur un smartphone, avec celui de Microsoft en arrière-fond © Ascannio / Shutterstock
Le logo d'OpenAI sur un smartphone, avec celui de Microsoft en arrière-fond © Ascannio / Shutterstock

Le New York Times attaque en justice OpenAI et Microsoft pour une utilisation indue de ses articles dans l'entraînement d'IA comme ChatGPT.

La question des données introduites dans les grands modèles de langage pour les entraîner devient de plus en plus aigüe, avec de multiples entités expliquant que leur propriété intellectuelle n'aurait pas été respectée. Et si l'on a pu voir de nombreux procès être intentés pour cette raison en 2023 du côté des États-Unis, il semblerait que les choses sérieuses débutent vraiment avec la procédure qu'a lancé le New York Times ce mercredi 27 décembre.

ChatGPT, la concurrence déloyale

OpenAI et Microsoft vont devoir s'expliquer devant la justice. Le New York Times les accuse en effet de violation de droits d'auteurs, et ce, « en copiant et en utilisant des millions » d'articles pour entraîner ChatGPT et Copilot.

Le problème selon le journal de référence américaine serait d'ampleur. En effet, en plus d'avoir utilisé sans autorisation toutes ces données, leur ingestion par les IA en question leur permettrait dorénavant de « générer des résultats qui récitent mot pour mot le contenu du Times, le résument étroitement et imitent son style expressif », selon les mots de la plainte.

Résultat, les IA des deux entreprises sont devenues de fait des concurrents particulièrement déloyaux. Le problème est d'autant plus grave qu'un ChatGPT peut accéder à des informations normalement cachées derrière un paywall et les restituer gratuitement à un utilisateur, ce qui représente un manque à gagner évident pour le journal.

ChatGPT, au centre d'une nouvelle polémique © Tada Images / Shutterstock
ChatGPT, au centre d'une nouvelle polémique © Tada Images / Shutterstock

Plusieurs milliards de dollars réclamés

Résultat, le New York Times est monté au créneau. La plainte déposée à Manhattan montre que le journal avait cherché à obtenir dès le mois d'avril « une résolution à l'amiable » avec Microsoft et OpenAI, sans résultat. Depuis, le média américain a décidé de se porter devant les tribunaux du pays, et réclame dorénavant plusieurs milliards de dollars de dommages et intérêts. Il exige par ailleurs que l'utilisation de son contenu par Microsoft et OpenAI soit interdite et que ses informations soient supprimées des bases de données de ces sociétés.

Le confit entre les deux partenaires et le New York Times avait été porté devant les yeux du public cet été quand on apprenait que le robot d'exploration d'OpenAI avait été bloqué par le journal. Le conflit qui débute devrait d'autant moins être une bonne source de publicité pour Microsoft et OpenAI que, dans le même temps, Apple négocie lui pour obtenir le droit d'utiliser les données des journaux contre monnaie sonnante et trébuchante.

Source : The Verge, BBC

Samir Rahmoune

Journaliste tech, spécialisé dans l'impact des hautes technologies sur les relations internationales. Je suis passionné par toutes les nouveautés dans le domaine (Blockchain, IA, quantique...), les q...

Lire d'autres articles

Journaliste tech, spécialisé dans l'impact des hautes technologies sur les relations internationales. Je suis passionné par toutes les nouveautés dans le domaine (Blockchain, IA, quantique...), les questions énergétiques, et l'astronomie. Souvent un pied en Asie, et toujours prêt à enfiler les gants.

Lire d'autres articles
Vous êtes un utilisateur de Google Actualités ou de WhatsApp ? Suivez-nous pour ne rien rater de l'actu tech !
google-news

A découvrir en vidéo

Rejoignez la communauté Clubic S'inscrire

Rejoignez la communauté des passionnés de nouvelles technologies. Venez partager votre passion et débattre de l’actualité avec nos membres qui s’entraident et partagent leur expertise quotidiennement.

S'inscrire

Commentaires (13)

crush56
Du coup les étudiants journalistes qui s’inspirent de leurs articles pour s’entraîner et parfaire leur rédaction s’exposent aux mêmes sanctions ?
boby9999
Les étudiants ne sont pas rémunérés
cid1
Et allez, c’est parti, ils vont tous s’y mettre, je vois pas en quoi ça leur fait perdre des milliards.
Squeak
Je pense que tout le monde peut dire que ses données ont été aspirées par les IA pour entraîner leurs modèles. Et c’est bien un des gros problèmes. Ca a été soulevé dès les débuts, maintenant on commence à en voir l’ampleur.<br /> A défaut de trouver un arrangement, je pense qu’une des solutions (mais là je n’y crois pas du tout), ce serait que les IA repartent de zéro et que l’on crée des modèles véritablement respectueux en ce qui concerne le contenu original. Certes, ça limiterait fortement mais au moins, on pourrait se dire que ça partait d’une bonne base.
BlBird67
Parle-t-on de données publiques? Si oui, je ne vois pas le problème.
gothax
Cela s’appelle citer ses sources ! Tu vois l’article que tu viens de lire tire ses sources de The Verge et la BBC !<br /> J’espère qu’ils gagneront avec une très forte amende pour rappeler ce fondement
sebstein
L’IA non plus quand elle fait son travail d’apprentissage.<br /> Les étudiants aussi, quand ils ont bien pompé l’inspiration (comme pour tout corps de métier en fait), finissent par gagner de l’argent quand ils travaillent en puisant dans ce qu’il ont appris avant par empirisme.
YBoy360
Les étudiants payent leur accès et respecte le droit d’auteur ;<br /> Les sources sont connues lorsque l’article est publié (contrairement à aujourd’hui pour les LLM et les IA génératives) ;<br /> L’humain ajoute systématiquement, naturellement un biais, créatif, contrairement aux LLM ou aux IA génératives.<br /> …<br />
sebstein
Si tu devais citer les sources à chaque fois que tu t’inspires du travail d’un autre, tu n’arrêterais pas de le faire, il il y aurait un plus grand travail d’indexation que production.<br /> Quand tu allumes un feu, tu cites l’inventeur de l’allumette ou du briquet ?
sebstein
Les IA aussi paient leur accès si le contenu n’est pas en libre accès.<br /> Et concernant le biais créatif, il ne vient pas de nulle part, il est lié à notre histoire, et donc aux connaissances qu’on a emmagasinées jusque là.<br /> Il faut arrêter de croire que les humains ont une âme.<br /> D’ailleurs, les réponses données pas ChatGPT ou Bard ne sont pas les mêmes, comme pour deux humains.<br /> Même si tu lançais l’apprentissage de 2 ChatGPT identiques avec deux sources de données différentes, leurs réponses seraient différentes.<br /> Les IA génératives ne recrachent pas des phrases telles qu’elles pompées des sources. Elles créent une nouvelle réponse sur base de ce qu’elles ont appris, exactement comme pour un humain.
Squeak
«&nbsp;Les IA aussi payent leur accès si le contenu n’est pas en libre accès&nbsp;». Ça me fait bien rire.<br /> J’ai déjà vu des images générées par IA qui contiennent des éléments faisant penser à un filigrane, ou même un petit charabia en bas à droite qui ressemble à une signature. Qu’on m’explique pourquoi (déjà vu cette question sur d’autres forums et les réponses sont plutôt vagues et tendent vers «&nbsp;ah ben… peut-être que dans les données d’entraînement on a été pomper une image sur un blog perso ou autre, que peut-être on a pris un dessin qui avait été par un artiste sur son site et qui contient une signature&nbsp;»). Et ça c’est un reproche.<br /> Il y a réellement eu une collecte massive. On peut déblatérer là dessus pendant des jours, à trouver des arguments et des contre-arguments mais ça me fatigue. Ces outils peuvent être géniaux, peuvent réellement augmenter la créativité etc, mais peut-être il fallait encadrer ça. Chose par exemple qui commence à être faite avec des propositions de lois.
gothax
Quand tu rédiges un articles dans un média, scientifique ou tout autre : oui toujours<br /> Ton exemple est affligeant tu te trompes de forum !
Hep
Le problème c’est les droits d’auteurs de toutes façons. C’est une aberration!<br /> Le jour ou les maçons vont réclamer des droits d’auteur chaque fois qu’on utilise notre maison…<br /> Est-ce qu’un musicien cite a chaque fin de représentation le fabriquant de son instrument?<br /> Le savoir et la culture n’appartiennent à personne et ceux qui les revendique sont des escrocs.
sebstein
Je n’ai pas parlé de citation, de réécriture ou d’utilisation, j’ai parlé d’inspiration. Au sens large.<br /> Quoi que tu fasses, tu t’inspire forcément du travaille de (à minima) quelqu’un d’autre, qui s’était, lui-même, inspiré du travail d’un autre, etc.<br /> Je ne vois pas en quoi mon exemple est affligeant. Il est au contraire très parlant pour montrer que, quoi qu’on fasse, on repose sur des millénaires d’inventions et d’améliorations continues.<br /> Si tu veux un exemple plus proche de ce forum, quand tu utilises un smiley, tu cites son auteur ?<br /> Je donnes des exemples volontairement simplistes pour ne pas avoir des réponses à rallonges, mais soit :<br /> Imaginons que tu doives rédiger une synthèse des principes de la distillation, des différentes techniques et ses usages.<br /> Deux cas de figures :<br /> Tu es novice. Tu vas donc te renseigner auprès de différentes personnes, quelques bouquins et sur internet. Tu vas t’imprégner de tout ça, essayer de comprendre et synthétiser les différentes idées exposées par ces sources. Forcément que tu va citer ces sources.<br /> Tu es expert en la matière. Après des études de chimiste, tu travailles chez Total et responsable du craquage depuis un certain nombre d’années. Autant dire que, ce travail de synthèse, c’est rien du tout pour toi. Mais pas parce que tu as la science infuse. Parce que tu as bien écouté tous tes professeurs, parce que tu as lu énormément sur le sujet durant toute ta carrière… Tu fais quoi ? Tu cites tous les professeurs, collègues, connaissances que tu as eus, toutes les écoles et unifs dans lesquelles tu as étudié, toutes entreprises dans lesquelles tu as travaillé, tous les livres que tu as lu… ?<br /> ChatGPT (et autres) sont dans ce second cas. Alors, certes, il ne leur faut pas des années, puisqu’ils s’imprègnent beaucoup plus vite de ce qu’ils ingurgitent comme données, mais le processus est le même. Ils ne reformulent pas ce qu’ils ont lu, mais ce basent sur tout ce qu’ils ont pu lire pour produire quelque chose de nouveau.<br /> En fait, pour être dans le premier cas avec ChatGPT, et donc devoir citer les sources, il faudrait que tu lui fournisses le contenu d’articles et de bouquin et de lui demander de synthétiser sur base de ce que tu lui a donné.
Voir tous les messages sur le forum
Haut de page

Sur le même sujet