Wikipédia est-elle en danger à cause de l'IA ?

Vincent Mannessier
Publié le 19 juillet 2023 à 18h20
© Primakov / Shutterstock
© Primakov / Shutterstock

Largement utilisée pour entraîner les modèles d'intelligence artificielle, l'existence même de Wikipédia pourrait désormais être menacée par ces derniers.

Si l'on est loin du consensus dans la communauté des éditeurs de Wikipédia quant à l'attitude à adopter face au développement de l'intelligence artificielle, celui-ci ne les laisse évidemment pas indifférents. Une conférence sur la question, tenue en mars dernier, a cependant fait émerger une position derrière laquelle la plupart peuvent se ranger : ils souhaitent que le savoir continue d'être créé par des humains.

Wikipédia, un trésor pour les LLM

Pour entraîner un modèle de langage d'IA, Wikipédia est tout simplement le meilleur terrain de jeu possible. L'encyclopédie en ligne coche en effet toutes les cases : elle compte plus de 61 millions d'articles, est disponible en 334 langues, présente des informations sourcées et vérifiées, mises à jour presque en temps réel. De plus, les articles y sont formatés et chapitrés clairement, et surtout, l'ensemble est accessible librement et gratuitement. Pour ne rien gâcher, il n'y existe pas non plus de limite quant au nombre de posts que l'on peut y consulter.

Il n'est donc pas étonnant que les chatbots qui ont vu le jour ces derniers mois se soient servis sans compter dans cette formidable base de données, au point qu'il n'est pas exagéré de dire que sans Wikipédia, l'IA générative n'existerait pas, tout du moins pas sous sa forme actuelle.

Mais désormais, plus rien ne semble empêcher un futur où l'un des élèves prend la place du maître.

© Koshiro K / Shutterstock
© Koshiro K / Shutterstock

L'encyclopédie va-t-elle se faire dépasser par l'IA ?

La menace semble suffisamment sérieuse pour qu'en mars dernier, une vidéoconférence rassemble de nombreux éditeurs de l'encyclopédie pour échanger sur les risques posés par le développement de l'IA générative. Si certains d'entre eux se sont montrés plutôt confiants quant aux possibilités offertes par l'IA pour développer l'audience, mais aussi enrichir les articles de Wikipédia, ils ne faisaient clairement pas l'unanimité.

Sans même dénaturer Wikipédia, l'IA compte déjà de sérieux avantages sur le site. Un éditeur interrogé par le New York Times explique ainsi qu'un futur dans lequel une intelligence artificielle synthétise, source et compile sur un seul site l'intégralité des articles postés sur Internet presque en temps réel ne semble plus très éloigné. Il ne lui faudrait alors probablement pas beaucoup de temps pour dépasser Wikipédia, en tout cas en matière de quantité de contenu. Il faut dire que l'IA n'a pas ces défauts bien humains que sont le temps de réflexion et l'argumentation. Pour lui, un tel site n'aurait même pas besoin d'être à la hauteur de Wikipédia, il pourrait être seulement passable.

Par ailleurs, sans aller jusque-là, les chatbots comptent déjà un avantage significatif sur l'encyclopédie : la fluidité. Il est en effet infiniment plus simple de poser une question à ChatGPT que de lire toute une page Wikipédia à la recherche d'une simple information. Mais pour les éditeurs de l'encyclopédie, se faire dépasser par l'intelligence artificielle est potentiellement catastrophique. Si les réponses des chatbots sont généralement correctes, elles continuent fréquemment d'halluciner et sont très mauvaises quand il s'agit de citer leurs sources, allant parfois jusqu'à les inventer, deux péchés capitaux dans les principes fondateurs de Wikipédia.

Pour être honnête, il est déjà invraisemblable que Wikipédia, dernier vestige d'une vision utopique d'Internet qui refuse la vision capitaliste de tous les autres sites à l'audience comparables, n'affiche pas de publicités, ne récolte pas d'informations personnelles et donne de l'importance à la vérité, ait déjà survécu aussi longtemps.

  • L'immensité du contenu proposé
  • L'accès aux fiches en mode hors ligne
  • La gratuité
Par Vincent Mannessier

Rédacteur indépendant depuis des années, j'ai rédigé plus de 1.000 articles sur Internet sur une large variété de sujets. J'aime tout particulièrement écrire sur les actualités des réseaux sociaux et des GAFAM, mais les jeux vidéos et l'innovation numérique en général me passionnent aussi.

Vous êtes un utilisateur de Google Actualités ou de WhatsApp ?
Suivez-nous pour ne rien rater de l'actu tech !
Commentaires (0)
Rejoignez la communauté Clubic
Rejoignez la communauté des passionnés de nouvelles technologies. Venez partager votre passion et débattre de l’actualité avec nos membres qui s’entraident et partagent leur expertise quotidiennement.
Commentaires (10)
Droz

" Pour être honnête, il est déjà invraisemblable que Wikipédia, dernier vestige d’une vision utopique d’Internet qui refuse la vision capitaliste de tous les autres sites à l’audience comparables, n’affiche pas de publicités, ne récolte pas d’informations personnelles et donne de l’importance à la vérité, ait déjà survécu aussi longtemps. "

C’est au contraire les raisons qui en on fait le site le plus stable et le plus durable du web.
Ensuite il y a un élément qui est très sous-estimé dans l’article et qui découle directement des faits énoncés plus haut.
À savoir la confiance. Les modèles d’IA sont au final contrôlés par le ou les quelques humains qui les possèdent. Bref, les IA sont des produits de propagande de masse et leurs objectifs sont ceux de leurs propriétaires…

Caramel34

Je n’y vois aucun problème, si les IA se servent et utilisent Wikipedia c’est que du bonus, ça montre le sérieux de ce site.

tfpsly

Par contre c’est coûteux pour Wikimedia qui paye la bande passante utilisée à chaque scraping des info d’entraînement (pas à chaque entraînement des LLM, mais à chaque mise à jour ).

Caramel34

Certe, dans ce cas il y’a sûrement moyen de trouver un terrain d’entente entre les IA et Wikipedia.

pecore

Longue vie à Wikipédia.

grossetc

ChatGPT trouve ses données où à votre avis ?
Il n’y a pas d’intelligence juste des requêtes dans des bases de données et ces données sont bien quelques part !

_J2B

Wikipedia, Wikipédia ou Wikipeéia ?
Si ce n’est que ce dernier qui est menacé, ça devrait aller.

Plus sérieusement, il est probable que Wikipedia soit menacé malheureusement. Il faudrait savoir dans quelles proportions les différentes IA conversationnelles en tirent des infos pour leurs réponses.

Wen84

Certes. Mais ça n’empeche que si Chat GPT permet directement de synthétiser le résultat d’une question, il peut rendre wikipedia caduque. Pas la source de données, mais bien wikipedia (Qui est surtout un aggrégat de différentes sources). De la meme manière que Wikipedia a dépassé en son temps les encyclopédies. Donc oui, je dis pas que c’est ce qu’il va se produire, mais c’est pas déconnant comme reflexion.

Oliveblaye

" Il faut dire que l’IA n’a pas ces défauts bien humains que sont le temps de réflexion et l’argumentation."
J’espère que cette phrase est ironique, c’est ce qui fait toute la différence avec une machine, aussi perfectionnée soit-elle!

kast_or

Wikipedia ne vit que par les dons et le mécénat.
Si les gros groupes ont besoin de wikipédia pour alimenter leurs IA ils les financeront, non ? Sa disparition n’étant bénéfique pour personne.