GPT-4 : OpenAI aurait utilisé plus d'un millions d'heures de vidéo sur YouTube pour entraîner son IA

08 avril 2024 à 15h13
4
Le logo d'OpenAI affiché à côté du visage du patron de la firme, Sam Altman © Meir Chaimowitz / Shutterstock
Le logo d'OpenAI affiché à côté du visage du patron de la firme, Sam Altman © Meir Chaimowitz / Shutterstock

OpenAI cherche toujours de nouvelles données pour entraîner ses modèles de langage. Et il semble que la firme de Sam Altman se soit, dans cette idée, tournée vers YouTube, où elle se serait largement servie !

Si les systèmes d'intelligence artificielle comme ChatGPT nous semblent si exceptionnels, c'est qu'ils ont durant plusieurs années ingéré des quantités pharaoniques de données, grâce auxquelles ils sont aujourd'hui des machines pouvant générer un nombre exceptionnel de contenus, souvent de qualité. Mais le problème, c'est que le nombre de données à disposition et pouvant être utilisé est fini. Il faut alors pour les sociétés du secteur être créatives afin d'en trouver de nouvelles ailleurs. C'est semble-t-il ce qu'a fait OpenAI en se tournant vers YouTube !

OpenAI s'est tourné vers YouTube

Le New-York Times est depuis de nombreux mois en conflit ouvert avec OpenAI. Alors si le célèbre journal américain peut trouver des informations potentiellement gênantes sur la firme dirigée par Sam Altman, il ne se privera pas de les publier. Et c'est ce qu'il a fait, en dévoilant ces derniers jours qu'OpenAI aurait récupéré près d'1 million d'heures de vidéos YouTube afin de développer son modèle de langage GPT-4.

Pour ce faire, l'entreprise californienne aurait utilisé son outil Whisper, qui permet notamment de transcrire des audios et des vidéos en texte, pour récupérer les contenus sous format écrit, pouvant ensuite être ingérés par GPT-4. Il faut dire que d'après l'autre grande journal américain, le Wall Street Journal, les géants travaillant sur l'IA seraient en ce moment à court de données de qualité pour améliorer leurs systèmes.

YouTube a largement mis été à contribution
YouTube a largement mis été à contribution

Pour Google, les entreprises ne peuvent s'entraîner sur les données issues de YouTube

Le New York Times estime lui qu'OpenAI était arrivé au bout de données de qualité disponibles pour ses IA dès 2021. À cette époque, des discussions auraient déjà vu le jour sur la possibilité de se tourner ver des ressources alternatives telles que les vidéos, les audiobooks ou bien les podcasts. Ce qui finalement aurait bien été fait, en ouvrant la porte de YouTube.

Contacté par The Verge, Google, la maison mère de YouTube, a expliqué avoir eu vent de « rapports non confirmés » indiquant une activité d'OpenAI sur sa plateforme. Le porte-parole Matt Bryant a par ailleurs tenu à rappeler que « nos fichiers robots.txt et nos conditions d'utilisation interdisent le scraping ou le téléchargement non autorisé du contenu de YouTube. » Un nouveau front judiciaire bientôt sur le point de s'ouvrir pour OpenAI ?

Source : Engadget

Samir Rahmoune

Journaliste tech, spécialisé dans l'impact des hautes technologies sur les relations internationales. Je suis passionné par toutes les nouveautés dans le domaine (Blockchain, IA, quantique...), les q...

Lire d'autres articles

Journaliste tech, spécialisé dans l'impact des hautes technologies sur les relations internationales. Je suis passionné par toutes les nouveautés dans le domaine (Blockchain, IA, quantique...), les questions énergétiques, et l'astronomie. Souvent un pied en Asie, et toujours prêt à enfiler les gants.

Lire d'autres articles
Vous êtes un utilisateur de Google Actualités ou de WhatsApp ? Suivez-nous pour ne rien rater de l'actu tech !
google-news

A découvrir en vidéo

Rejoignez la communauté Clubic S'inscrire

Rejoignez la communauté des passionnés de nouvelles technologies. Venez partager votre passion et débattre de l’actualité avec nos membres qui s’entraident et partagent leur expertise quotidiennement.

S'inscrire

Commentaires (4)

tfpsly
Verra-t’on YT rejoindre les plaintes de sites journalistiques vs OpenAI ?!?
youmetooandyou
ah ça explique pourquoi chatGPT miaule autant
Ninehundred
Vu le nombre de conneries en accès libre sur Youtube, je pense pas que cela soit une bonne idée…
Winpoks
L’histoire ne dit pas que c’était pour des contre-exemples !
Voir tous les messages sur le forum
Haut de page

Sur le même sujet