OpenAI et Microsoft auraient-elles volé nos données personnelles pour entraîner leurs IA ?

Alexandre Boero
Chargé de l'actualité de Clubic
11 septembre 2023 à 09h45
10
© Ascannio / Shutterstock
© Ascannio / Shutterstock

Le créateur de ChatGPT, OpenAI, et le géant Microsoft sont accusés d'avoir violé la vie privée des utilisateurs, faisant désormais face à un recours collectif outre-Atlantique.

OpenAI et Microsoft, leaders mondiaux de l'intelligence artificielle, sont une fois de plus poursuivies aux États-Unis. Deux ingénieurs logiciels accusent les sociétés d'avoir utilisé des informations personnelles volées à des centaines de millions d'internautes. Selon les plaignants, qui ont souhaité conserver leur anonymat, le but était simple : se servir de ces données pour former ChatGPT, DALL-E et d'autres systèmes d'IA générative.

OpenAI et Microsoft pilleraient des données un peu partout

La plainte, déposée mardi 5 septembre sur le bureau du tribunal fédéral de San Francisco par le cabinet Morgan & Morgan, accuse OpenAI et Microsoft d'avoir collecté des données personnelles à partir de sources diverses. Citons ici les réseaux sociaux, les cookies, les infos analytiques, les frappes de touches, et d'autres sites ou applications.

Cette pratique enfreindrait d'emblée plusieurs lois sur le respect de la confidentialité. Ryan Clarkson, associé directeur du cabinet du même nom, s'est en tout cas félicité du travail mené par ses homologues de Morgan & Morgan. Il fait aussi la chasse à ce qu'il appelle les « BigAI », accusées de vol massif d'informations privées, à la manière de Google.

© T. Schneider / Shutterstock
© T. Schneider / Shutterstock

Les plaintes se suivent… et se ressemblent

Les deux ingénieurs réclament auprès du tribunal des dommages et intérêts dont le montant n'a pas été précisé. Ils souhaitent que les entreprises concernées fassent état de garanties qui permettront de mettre fin à cette utilisation abusive des données personnelles.

Cette plainte ressemble étrangement à celle justement déposée en juin dernier par le cabinet d'avocats Clarkson, cette fois orientée sur l'intérêt public. Selon nos confrères de Reuters, des dizaines de pages seraient textuellement répétées d'une affaire à l'autre.

Ce n'est donc pas la première fois que les mastodontes technologiques se font épingler pour leurs IA génératives. OpenAI, Microsoft, Google et Stability AI, on ne compte plus les firmes elles aussi poursuivies pour avoir ponctionné des données sur le Web et des informations issues de documents frappés du sceau du droit d'auteur.

ChatGPT
  • Chat dans différentes langues, dont le français
  • Générer, traduire et obtenir un résumé de texte
  • Générer, optimiser et corriger du code

Créé par OpenAI, ChatGPT est un chatbot avancé propulsé par le modèle linguistique de dernière génération GPT-4. En exploitant des technologies d'apprentissage en profondeur et d'intelligence artificielle, ce chatbot a la capacité de déchiffrer et de comprendre les demandes des utilisateurs. Grâce à son habileté à générer du texte de manière ingénieuse, ChatGPT offre des réponses adaptées et pertinentes, garantissant une interaction de chat fluide et une expérience utilisateur optimisée.

Créé par OpenAI, ChatGPT est un chatbot avancé propulsé par le modèle linguistique de dernière génération GPT-4. En exploitant des technologies d'apprentissage en profondeur et d'intelligence artificielle, ce chatbot a la capacité de déchiffrer et de comprendre les demandes des utilisateurs. Grâce à son habileté à générer du texte de manière ingénieuse, ChatGPT offre des réponses adaptées et pertinentes, garantissant une interaction de chat fluide et une expérience utilisateur optimisée.

Alexandre Boero

Chargé de l'actualité de Clubic

Chargé de l'actualité de Clubic

Journaliste, chargé de l'actualité de Clubic. Reporter, vidéaste, animateur et même imitateur-chanteur, j'ai écrit mon premier article en 6ème. J'ai fait de cette vocation mon métier (diplômé de l'EJC...

Lire d'autres articles

Journaliste, chargé de l'actualité de Clubic. Reporter, vidéaste, animateur et même imitateur-chanteur, j'ai écrit mon premier article en 6ème. J'ai fait de cette vocation mon métier (diplômé de l'EJCAM, école reconnue par la profession), pour écrire, interviewer, filmer, monter et produire du contenu écrit, audio ou vidéo au quotidien. Quelques atomes crochus avec la Tech, certes, mais aussi avec l'univers des médias, du sport et du voyage. Outre le journalisme, la production vidéo et l'animation, je possède une chaîne YouTube (à mon nom) qui devrait piquer votre curiosité si vous aimez les belles balades à travers le monde, les nouvelles technologies et la musique :)

Lire d'autres articles
Vous êtes un utilisateur de Google Actualités ou de WhatsApp ? Suivez-nous pour ne rien rater de l'actu tech !
google-news

A découvrir en vidéo

Rejoignez la communauté Clubic S'inscrire

Rejoignez la communauté des passionnés de nouvelles technologies. Venez partager votre passion et débattre de l’actualité avec nos membres qui s’entraident et partagent leur expertise quotidiennement.

S'inscrire

Commentaires (10)

Proutie66
Comment ? Mais qu’est-ce que j’ entends ? Des voleurs de données personnelles américains ?<br /> Non, je me refuse d’y croire
themancool87_1_1
non, j’y crois pas :'D
Caramel34
En tout cas on ne peut pas dire que les IA détruisent des emplois, elles en créent dans le domaine de la justice
ilyon
Pareil, je tombe des nues… Nos «&nbsp;amis&nbsp;» américains ? Je n’y crois pas une seconde. Microsoft Russie ou Microsoft Chine peut-être, ces sales communistes, mais pas eux, pas nos bienfaiteurs…
Nmut
On ne peut pas parler de pillage alors que les données sont accessibles pour tout un chacun!<br /> Par contre, il faut que les copyrights soient respectés et que les rémunérations associées soient négociées AVANT utilisation.<br /> Cependant, comment régler ce problème puisque les données ne sont utilisées que pour «&nbsp;inspiration&nbsp;» et qu’il n’y a pas techniquement de plagiat…
Prot
Malheureusement peu de journalistes a le courage d’enquêter sur ces vols et le dénoncer, ilq risquent de perdre leurs cartes et leurs avantages fiscaux.
Aegis
Pour le moment beaucoup de suppositions et d’accusations mais pas la moindre preuve.
ABC
Qu’on interdises les IA basées sur le vol. Il restera pas grand chose.<br /> Quand on voit qu’on peut demander à ces IA un résultat dans «&nbsp;le style de&nbsp;» et qu’on se retrouve avec des plagiats assez identifiables de travaux existants ou dans le style marqué d’auteurs et d’artistes très singuliers, c’est carrément attaquable. Pour le reste, le mystère de ces IA sont aussi impénétrables que ceux de la camora.<br /> Les IA peuvent être utile dans la recherche scientifique et médicale. Pour ce qui est du contenu rédactionnel ou pseudo artistique, c’est une machine à voler, à salir des styles en les singeant, à produire de la merde pour les fainéants et les gens sans talent. Les utiliser pour produire du «&nbsp;contenu&nbsp;» est un aveu de médiocrité.
ABC
Nmut : «&nbsp;il n’y a pas techniquement de plagiat…&nbsp;»<br /> Inexact. C’est pas parce qu’on vole un peu à plusieurs que ce n’est pas du plagiat. Surtout que les IA savent cibler une info, un style «&nbsp;attribué à&nbsp;», donc une source identifiable si on lui en fait la demande. Sans jamais vouloir citer les auteurs plagiés. Souvent des mixes, mais n’importe quel spécialiste dans son domaine pourra dire chez qui ils ont été se servir dans pas mal de résultats. Parfois les preuves sont irréfutables quand une info ou une patte n’a qu’une seule provenance.<br /> C’est en partie pour cette raison que certaines banques d’images ont banni les IA. Ça va apporter des tas de procès avec au final de la casse.<br /> Après, il y a des contenus plus mainstream, mais si le résultat est plus quelconque, il n’en reste pas moins issu du vol dans la majorité des cas.<br /> Que les producteurs de ces IA révèlent l’intégralité de leurs sources depuis le début s’ils n’ont rien à se reprocher… Aucun ne le fait (ou juste sur un petit fragment), car pour certains, ça signifierait la case prison.
Nmut
ABC:<br /> Qu’on interdises les IA basées sur le vol.<br /> Ce sont les bases de données d’entrainement utilisées et les copyrights associés qu’il faut revoir. Voir même la notion de protection intellectuelle.<br /> ABC:<br /> le mystère de ces IA sont aussi impénétrables que ceux de la camora.<br /> C’est le principe même de la plupart des IAs: l’entrainement génère un réseau de neurone (ou équivalent) et les données ne sont pas «&nbsp;mémorisées&nbsp;». D’ailleurs justement, c’est pourquoi dans ce cas on ne peut faire AUCUN lien entre les oeuvres utilisées pour l’entrainement et le résultat, donc les références ne sont pas identifiables. C’est vraiment de l’inspiration, et pas de la copie, la limite avec le plagiat est très complexe a déterminer.<br /> ABC:<br /> des styles en les singeant<br /> Tout à fait, mais l’imitation est différent du vol, ou alors il revoir la notion de vol/plagiat…<br /> ABC:<br /> à produire de la merde pour les fainéants et les gens sans talent<br /> Comme beaucoup d’outils! Ces outils permettent de combler un manque de technique, un manque de temps ou une complexité qui est alors automatisée / robotisée. Va donc faire un programme complexe sans IDE ni librairie, construire une voiture sans robot, concevoir un avion sans CAO, monter un film en analogique, ou même apprendre la photo en argentique, … Tout ça est tout à fait possible, mais des outils adaptés permettent un gain de temps énorme et de se passer de certaines compétences!<br /> En poussant ton raisonnement, il faudrait interdire les outils numériques pour la plupart des arts.<br /> ABC:<br /> nexact. C’est pas parce qu’on vole un peu à plusieurs que ce n’est pas du plagiat.<br /> Comme je l’ai déjà expliqué, c’est de l’inspiration dans le fonctionnement, reste à mieux définir la notion de plagiat et surveiller l’utilisation des ouvres pour l’entrainement. Mais je suis d’accord sur le fait qu’il faut protéger le travail original, tout comme il faudra protéger les prompts des utilisateurs d’IA à terme.<br /> Et un artiste ne se résume pas à une technique ou un style. Un tableau «&nbsp;à la façon de&nbsp;» ne sera probablement pas un bon tableau si la composition est mauvaise, si il n’y a pas d’idée derrière ou encore si le sujet est inintéressant (ou le détournement du sujet religieux comme souvent pour les peintres «&nbsp;classiques&nbsp;»), ce que ne fera pas une IA, ça sera l’«&nbsp;artiste&nbsp;» qui va créer un prompt qui créera vraiment l’âme de l’oeuvre.<br /> ABC:<br /> Aucun ne le fait (ou juste sur un petit fragment),<br /> L’info des bases d’entrainement est souvent disponible, et d’ailleurs c’est pour ça que les données utilisées sont en général pas à la page. Le problème est / sera plutôt sur les bases basées sur un entrainement constant en piochant sur internet, il faudra forcément un mécanisme (un tag? un copyright particulier) pour la gestion de l’autorisation de l’utilisation comme donnée d’entrainement.
ABC
Nmut:<br /> Tout à fait, mais l’imitation est différent du vol, ou alors il revoir la notion de vol/plagiat…<br /> C’est ce que disent les faussaires devant un juge quand ils se sont fait chopper. C’est juste une inspiration, ou une coïncidence… Sauf que si la similitude, même de style est trop évidente, le plagiat est bel et bien démontré. Même pas besoin de trouver des «&nbsp;copié/collé&nbsp;».<br /> Rien de nouveau.<br /> Les tribunaux voient défiler ce genre d’affaires à la pelle. Notamment dans l’édition et l’industrie. Certaines marques «&nbsp;très inspirantes&nbsp;» sont en procès permanents avec des cabinets d’avocats qui tournent non-stop. Les IA génératives grand public sont des outils à se faire «&nbsp;passer pour&nbsp;»; à «&nbsp;se prendre pour&nbsp;», mais au final, c’est due du toc qui repose sur rien.<br /> Le top de ces machines à vide, c’est quand ces IA produisent des contenus qui seront lu essentiellement par des IA. Ce n’est même plus de la pollution intellectuelle, mais de la pollution tout court.<br /> Nmut:<br /> des outils adaptés permettent un gain de temps énorme et de se passer de certaines compétences!<br /> Gagner en productivité a de l’intérêt. Par exemple en développement, en retouche, en technique. Mais ça doit rester cadré. Construire une voiture avec des IA, je te la laisse… <br /> Nmut:<br /> En poussant ton raisonnement, il faudrait interdire les outils numériques pour la plupart des arts.<br /> Se former n’est pas voler. Des thèses truffées de contenus générées par de l’IA n’ont aucune valeur. Sinon en effet, excellente idée que d’interdire les IA dans un contexte informatif, mainstream, etc. C’est complexe à légiférer,<br /> mais ça devra se faire. Sinon nos écrans seront remplis de contenus fake issu de rien du tout sauf de ces robots aussi con qu’une banane. Avec en prime des attaques contre les institutions, nos valeurs, nos talents scientifiques ou artistiques, notre démocratie.<br /> Les trolls russes et chinois sont déjà à l’œuvre. et malheureusement pour le grand public, ça risque d’être la principale utilisation de ces IA génératives quand elles sont utilisées dans des domaines où elles n’ont pas lieu d’être.<br /> Nmut:<br /> L’info des bases d’entrainement est souvent disponible<br /> Si seulement c’était vrai. Ils ne donnent comme info que ce qui les arrange. Rien sur les millions de contenus utilisés où intervient le copyright, ou à défaut une simple demande d’autorisation. Quand les choses se font de cette façon, quand c’est pourri dès la base, ça ne peut rien apporter de bon.<br /> Nmut:<br /> Comme je l’ai déjà expliqué, c’est de l’inspiration dans le fonctionnement<br /> Ce n’est ni à vous, ni à moi d’expliquer quand c’est du plagiat, mais aux juges et aux ayant droit. Aussi concernant le droit à l’image. Quand ces machines sont utilisées à mauvais escient ou pour faire illusion, ça doit être démasqué si on ne veut pas qu’internet devienne une poubelle auto-générée. Pour le reste, la justice ne se fait pas sur le web. À moins qu’une IA s’en charge… comprenez-vous ?
Nmut
ABC:<br /> Construire une voiture avec des IA, je te la laisse…<br /> Cela va peut-être t’étonner, mais les IAs sont un atout indéniable pour la R&amp;D, en effet l’esprit humain est très limité pour gérer de grande quantité d’information, il est limité par ses capacités et ces biais (même si les IAs ont aussi des biais, résultat soit des biais de sélection des bases d’entrainement, soit de leur fonctionnement proche de l’humain avec des à peu près pas toujours fiable, appelé «&nbsp;le bon sens&nbsp;»…).<br /> Mais je te rassure, les sorties des IAs passent par le même cheminement de revue, simulation et validation que n’importe quelle idée humaine!<br /> ABC:<br /> Sinon nos écrans seront remplis de contenus fake issu de rien du tout sauf de ces robots aussi con qu’une banane.<br /> La dessus je te rejoins. Des utilisateurs d’IA les utilisent pour générer du contenu bullshit sans aucune valeur ajoutée et aucune vérification, là c’est de l’arnaque pure, sauf que l’incompétence (volontaire?) ne vient pas de l’IA mais des utilisateurs de ces IA. Les IAs génératives n’ont effectivement que la compétence d’imitation, pas de création. Après, il n’y a pas que des IAs génératives…<br /> ABC:<br /> Rien sur les millions de contenus utilisés où intervient le copyright, ou à défaut une simple demande d’autorisation. Quand les choses se font de cette façon, quand c’est pourri dès la base, ça ne peut rien apporter de bon.<br /> C’est pour ça qu’il faut cadrer les entrainements, les ressources disponibles sur le net sont quelques fois libres d’accès, mais pas toujours.<br /> ABC:<br /> Ce n’est ni à vous, ni à moi d’expliquer quand c’est du plagiat, mais aux juges et aux ayant droit.<br /> C’est aussi ce que je pense. Mais il faut redéfinir légalement le cadre du plagiat en tenant compte de ce nouvel usage, les juges ne font qu’estimer la légalité que les lois définissent!
Voir tous les messages sur le forum
Haut de page

Sur le même sujet