Les intelligences artificielles piochent largement dans les sources internet. Mais il y en a quelques-unes qui sont particulièrement privilégiées par les grandes entreprise de l'IA.
Si les meilleures IA du marché comme ChatGPT, Gemini ou bien Grok ont pu émerger aussi rapidement, avec des performances toujours plus élevées, c'est dû au fait que leurs concepteurs ont eu droit à un vivier incroyable de données avec internet. Et si vous vous demandiez quelles sources particulières étaient privilégiées par les géants de la tech, aujourd'hui, on commence à avoir une meilleure idée.
Reddit, une source au-dessus de toutes les autres
C'est une infographie intéressante qui nous est livrée par Statista. Après analyse de réponses des IA ChatGPT, Perplexity ainsi que d'AI OverViews et du Mode IA de Google, le spécialiste des statistiques a pu établir les sources les plus utilisées en moyenne par ces intelligences artificielles.
Au sommet, on retrouve Reddit, qui a été cité dans 40% des réponses effectuées durant le test. Une première place assez étonnante, qui est par contre suivie de sources plus attendues, à savoir Wikipedia (26,3%), puis YouTube (23,5%) et Google (23,3%).
De l'information communautaire pour des intelligences artificielles privées
Ce qui est intéressant de noter, c'est que ces IA, qui permettent à leurs sociétés de dégager des revenus, utilisent en grande majorité du contenu généré gratuitement par les internautes. C'est évidemment le cas de Reddit, de Wikipedia mais aussi de Yelp, Facebook ou bien de Tripadvisor.
Difficile de se dire combien de temps encore tout ce contenu produit par des individus à travers la planète sera considéré comme des données de base à utiliser gratuitement. Mais quand on sait que les ayants droits de contenus protégés ont déjà du mal à faire respecter leurs droits, il est à craindre que tout ce qui est dans le champ public soit encore longtemps l'objet d'une récolte tranquille des concepteurs de modèles de langage.