Wikipédia est-elle en danger à cause de l'IA ?

19 juillet 2023 à 18h20
28
© Primakov / Shutterstock
© Primakov / Shutterstock

Largement utilisée pour entraîner les modèles d'intelligence artificielle, l'existence même de Wikipédia pourrait désormais être menacée par ces derniers.

Si l'on est loin du consensus dans la communauté des éditeurs de Wikipédia quant à l'attitude à adopter face au développement de l'intelligence artificielle, celui-ci ne les laisse évidemment pas indifférents. Une conférence sur la question, tenue en mars dernier, a cependant fait émerger une position derrière laquelle la plupart peuvent se ranger : ils souhaitent que le savoir continue d'être créé par des humains.

Wikipédia, un trésor pour les LLM

Pour entraîner un modèle de langage d'IA, Wikipédia est tout simplement le meilleur terrain de jeu possible. L'encyclopédie en ligne coche en effet toutes les cases : elle compte plus de 61 millions d'articles, est disponible en 334 langues, présente des informations sourcées et vérifiées, mises à jour presque en temps réel. De plus, les articles y sont formatés et chapitrés clairement, et surtout, l'ensemble est accessible librement et gratuitement. Pour ne rien gâcher, il n'y existe pas non plus de limite quant au nombre de posts que l'on peut y consulter.

Il n'est donc pas étonnant que les chatbots qui ont vu le jour ces derniers mois se soient servis sans compter dans cette formidable base de données, au point qu'il n'est pas exagéré de dire que sans Wikipédia, l'IA générative n'existerait pas, tout du moins pas sous sa forme actuelle.

Mais désormais, plus rien ne semble empêcher un futur où l'un des élèves prend la place du maître.

© Koshiro K / Shutterstock
© Koshiro K / Shutterstock

L'encyclopédie va-t-elle se faire dépasser par l'IA ?

La menace semble suffisamment sérieuse pour qu'en mars dernier, une vidéoconférence rassemble de nombreux éditeurs de l'encyclopédie pour échanger sur les risques posés par le développement de l'IA générative. Si certains d'entre eux se sont montrés plutôt confiants quant aux possibilités offertes par l'IA pour développer l'audience, mais aussi enrichir les articles de Wikipédia, ils ne faisaient clairement pas l'unanimité.

Sans même dénaturer Wikipédia, l'IA compte déjà de sérieux avantages sur le site. Un éditeur interrogé par le New York Times explique ainsi qu'un futur dans lequel une intelligence artificielle synthétise, source et compile sur un seul site l'intégralité des articles postés sur Internet presque en temps réel ne semble plus très éloigné. Il ne lui faudrait alors probablement pas beaucoup de temps pour dépasser Wikipédia, en tout cas en matière de quantité de contenu. Il faut dire que l'IA n'a pas ces défauts bien humains que sont le temps de réflexion et l'argumentation. Pour lui, un tel site n'aurait même pas besoin d'être à la hauteur de Wikipédia, il pourrait être seulement passable.

Par ailleurs, sans aller jusque-là, les chatbots comptent déjà un avantage significatif sur l'encyclopédie : la fluidité. Il est en effet infiniment plus simple de poser une question à ChatGPT que de lire toute une page Wikipédia à la recherche d'une simple information. Mais pour les éditeurs de l'encyclopédie, se faire dépasser par l'intelligence artificielle est potentiellement catastrophique. Si les réponses des chatbots sont généralement correctes, elles continuent fréquemment d'halluciner et sont très mauvaises quand il s'agit de citer leurs sources, allant parfois jusqu'à les inventer, deux péchés capitaux dans les principes fondateurs de Wikipédia.

Pour être honnête, il est déjà invraisemblable que Wikipédia, dernier vestige d'une vision utopique d'Internet qui refuse la vision capitaliste de tous les autres sites à l'audience comparables, n'affiche pas de publicités, ne récolte pas d'informations personnelles et donne de l'importance à la vérité, ait déjà survécu aussi longtemps.

Wikipedia
  • L'immensité du contenu proposé
  • L'accès aux fiches en mode hors ligne
  • La gratuité

Wikipedia est l’encyclopédie collaborative incontournable sur le web. Mais ce que l’on sait moins, c’est qu’elle est également disponible au téléchargement. Il est ainsi possible de retrouver facilement les entrées de son choix et de consulter l’ensemble de ses contenus hors ligne, sur différents appareils. Gratuite et illimitée, l’application Wikipedia est dotée de fonctionnalités conçues pour améliorer l’expérience utilisateur. Parmi elles, on peut citer le mode lecture hors ligne, la sauvegarde d’articles et la synchronisation des favoris.

Wikipedia est l’encyclopédie collaborative incontournable sur le web. Mais ce que l’on sait moins, c’est qu’elle est également disponible au téléchargement. Il est ainsi possible de retrouver facilement les entrées de son choix et de consulter l’ensemble de ses contenus hors ligne, sur différents appareils. Gratuite et illimitée, l’application Wikipedia est dotée de fonctionnalités conçues pour améliorer l’expérience utilisateur. Parmi elles, on peut citer le mode lecture hors ligne, la sauvegarde d’articles et la synchronisation des favoris.

Source : New York Times

Vincent Mannessier

Rédacteur indépendant depuis des années, j'ai rédigé plus de 1.000 articles sur Internet sur une large variété de sujets. J'aime tout particulièrement écrire sur les actualités des réseaux sociaux et...

Lire d'autres articles

Rédacteur indépendant depuis des années, j'ai rédigé plus de 1.000 articles sur Internet sur une large variété de sujets. J'aime tout particulièrement écrire sur les actualités des réseaux sociaux et des GAFAM, mais les jeux vidéos et l'innovation numérique en général me passionnent aussi.

Lire d'autres articles
Vous êtes un utilisateur de Google Actualités ou de WhatsApp ? Suivez-nous pour ne rien rater de l'actu tech !
google-news

A découvrir en vidéo

Rejoignez la communauté Clubic S'inscrire

Rejoignez la communauté des passionnés de nouvelles technologies. Venez partager votre passion et débattre de l’actualité avec nos membres qui s’entraident et partagent leur expertise quotidiennement.

S'inscrire

Commentaires (28)

Droz
" Pour être honnête, il est déjà invraisemblable que Wikipédia, dernier vestige d’une vision utopique d’Internet qui refuse la vision capitaliste de tous les autres sites à l’audience comparables, n’affiche pas de publicités, ne récolte pas d’informations personnelles et donne de l’importance à la vérité, ait déjà survécu aussi longtemps. "<br /> C’est au contraire les raisons qui en on fait le site le plus stable et le plus durable du web.<br /> Ensuite il y a un élément qui est très sous-estimé dans l’article et qui découle directement des faits énoncés plus haut.<br /> À savoir la confiance. Les modèles d’IA sont au final contrôlés par le ou les quelques humains qui les possèdent. Bref, les IA sont des produits de propagande de masse et leurs objectifs sont ceux de leurs propriétaires…
Caramel34
Je n’y vois aucun problème, si les IA se servent et utilisent Wikipedia c’est que du bonus, ça montre le sérieux de ce site.
tfpsly
Par contre c’est coûteux pour Wikimedia qui paye la bande passante utilisée à chaque scraping des info d’entraînement (pas à chaque entraînement des LLM, mais à chaque mise à jour ).
Caramel34
Certe, dans ce cas il y’a sûrement moyen de trouver un terrain d’entente entre les IA et Wikipedia.
pecore
Longue vie à Wikipédia.
grossetc
ChatGPT trouve ses données où à votre avis ?<br /> Il n’y a pas d’intelligence juste des requêtes dans des bases de données et ces données sont bien quelques part !
_J2B
Wikipedia, Wikipédia ou Wikipeéia ?<br /> Si ce n’est que ce dernier qui est menacé, ça devrait aller.<br /> Plus sérieusement, il est probable que Wikipedia soit menacé malheureusement. Il faudrait savoir dans quelles proportions les différentes IA conversationnelles en tirent des infos pour leurs réponses.
Wen84
Certes. Mais ça n’empeche que si Chat GPT permet directement de synthétiser le résultat d’une question, il peut rendre wikipedia caduque. Pas la source de données, mais bien wikipedia (Qui est surtout un aggrégat de différentes sources). De la meme manière que Wikipedia a dépassé en son temps les encyclopédies. Donc oui, je dis pas que c’est ce qu’il va se produire, mais c’est pas déconnant comme reflexion.
Oliveblaye
" Il faut dire que l’IA n’a pas ces défauts bien humains que sont le temps de réflexion et l’argumentation."<br /> J’espère que cette phrase est ironique, c’est ce qui fait toute la différence avec une machine, aussi perfectionnée soit-elle!
kast_or
Wikipedia ne vit que par les dons et le mécénat.<br /> Si les gros groupes ont besoin de wikipédia pour alimenter leurs IA ils les financeront, non ? Sa disparition n’étant bénéfique pour personne.
Roger_Pimpon
Tout de même ce problème majeur : des entreprises projettent de se faire de l’argent par l’exploitation de données produites par des bénévoles. Si l’I.A venait à se substituer à ce site, des bénévoles travailleraient à l’enrichissement de personnes qui invariablement n’en ont pas besoin. Système totalement perverti (bon après il y a déjà chez Wikipédia des gens qui vivent sur ces données, j’espère de façon raisonnable et mesurée).<br /> On devrait logiquement imposer à ces I.A de rester des services gratuits, exempts de pub et de récupération de données.<br /> Pour le test que j’ai fait (BARD sur le sujet « Technicolor trichrome »), les résultats produits sous l’apparence de propos sérieux sont un amas d’approximations et erreurs que le produit n’a pas honte de restituer sans alerte aucune. Et lorsqu’on lui pointe ses erreurs (qu’il corrige de façon incrémentale, laborieusement), il s’excuse d’être perfectible et en phase de formation. La page Wikipédia dédiée est en revanche elle il me semble irréprochable (et bien plus complète).<br /> Hors pour des recherches croisées, sur des sujets non simplement définis (i.e sans page wikipédia dédiée), il ne me semble pas raisonnable de se tourner un jour vers ses outils.
Bombing_Basta
Il faut dire que l’IA n’a pas ces défauts bien humains que sont le temps de réflexion et l’argumentation.<br /> Et l’IA n’a pas la qualité de ces défauts, à savoir la capacité de réflexion et d’argumentation.<br /> Donc chier approximativement un amat de mots piochés dans la production d’humain ayant réfléchis et argumenté, c’est tout ce qu’elle sait faire cette « IA », peut-être en quelques nanosecondes, mais ça reste de la bouillie.
Ayetek
Avec l’emballage très réussi de Wikiwand, Wikipedia devient déjà IA compatible avec différentes options de recherche dans le contenu d’une page. Wikiwand pour lequel il existe des modules pour navigateurs web.<br /> A Wikipedia d’introduire son propre enrobage avec outil IA à base de ChatGPT et consorts pour chapeauter son moteur de recherches.<br /> Sur l’illustration : Wikiwand explorant la page Clubic de Wikipedia avec une approche IA pour simplifier l’exploration du conenu.<br />
fg03
Tout à fait d’accord !<br /> C’est semblable aux magnat de la presse que sont Murdock ou Bolloré…<br /> qui teintent leur ligne éditorial de leur conviction politique.<br /> Ca sera pareil pour les IA selon les sources des données qu’on leur aura donner en pature pour modéliser leur intelligence.
kroman
Ils pourraient avoir un accord avec les boites d’IA :<br /> Accès en masse aux articles autorisé contre une API permettant de vérifier si les articles viennent de l’IA. Par exemple en comparant les hash de nouvelles phrases dans Wiki avec une base de donnée de hash calculés et archivés à chaque bout de texte généré.<br /> contre hash des bouts de phrases générés accessibles par Wiki pour vérifier si le contenu publié n’est pas issu de leur IA.
Mel92
tfpsly:<br /> Par contre c’est coûteux pour Wikimedia qui paye la bande passante utilisée à chaque scraping des info d’entraînement (pas à chaque entraînement des LLM, mais à chaque mise à jour ).<br /> Non c’est rien du tout pour deux raisons :<br /> c’est tout petit : par exemple l’ensemble du Wikipédia anglais (le plus gros de loin) tient dans 20Go<br /> il y a dans le monde de multiples mirroirs des dumps mis à jour tous les 10 j environ. Le téléchargement ne coute donc rien à la fondation.<br /> Il n’est donc absolument pas nécessaire d’utiliser l’api de wikipédia pour aller chercher les pages une par une. Un téléchargement des dumps quand on veut refaire l‘apprentissage de l’IA et ça roule (et en plus c’est plus commode).
Peter_Vilmen
Mdr, ChatGPT et consort font preuve d’intelligence et de bon sens hein, c’est largement admis et documenté. Y’a juste des erreurs de temps à autre parce que la méthode est bourrine, mais ChatGPT est super balèze. Et c’est que le début, la version pré alpha de ce qui est à venir.
Lana
Wikipedia reste une valeur sûre, des articles bien garnis, bien renseignés, même si il y a des erreurs, par exemple, la température maximale dans la vallée de la mort, wikipedia indique 56,7°C comme record officiel, ce qui est faux, puisque ce record eqt invalidé par l’OMM, et c’est les 54,4°C qui ont été retenu.<br /> Et chatgpt reprend cette même erreur, c’est à nous humains de dire à l’IA qu’il se trompe.<br /> Chatgpt pour les renseignements sur les vitamines/minéraux/additifs est approximatif, quand je lui demande de me citer ses sources, il m’envoie des liens soit obsolètes, soit qui n’ont aucun rapport avec le sujet.<br /> Idem si je lui demande des choses techniques sur les chevaux, il fait des erreurs grossières, dire les pattes arrières au lieu des jambes, dire le train arrière au lieu de la croupe (ou croupion à la rigueur), obligée de lui dire qu’il se trompe, pour qu’il dise la bonne chose.<br /> C’est pourtant la base de l’anatomie du cheval.<br /> Et truc assez rigolo, si je lui pose 2 fois la même question en 2 jours, il va me sortir 2 réponses totalement différentes, parfois le contraire l’une de l’autre, ce qui prouve l’irrégularité.<br /> L’IA tout le monde en fait un flan, mais ça reste perceptible, et loin d’être fiable, rien ne vaut le bon vieux manuel/encyclopédie, ou même wikipedia.<br /> Je ne comprends toujours pas l’engouement !
kims
A voir si ils ne se heurtent pas aux limitations de licence utilisée par Wikimedia :.<br /> « Attribution — Vous devez créditer l’Œuvre, intégrer un lien vers la licence et indiquer si des modifications ont été effectuées à l’Oeuvre. Vous devez indiquer ces informations par tous les moyens raisonnables, sans toutefois suggérer que l’Offrant vous soutient ou soutient la façon dont vous avez utilisé son Oeuvre. »<br /> « Pas de restrictions complémentaires — Vous n’êtes pas autorisé à appliquer des conditions légales ou des mesures techniques qui restreindraient légalement autrui à utiliser l’Oeuvre dans les conditions décrites par la licence. »<br /> Car actuellement, clairement pas de sourcage…<br /> Et pour avoir demandé aux différentes IA de rédiger des articles et descriptions de produits pour une animalerie en ligne, bah je trouve vraiment pas ça folichon, c’est une bonne aide pour la structure, mais c’est loin de pouvoir être publié tel quel.
Caramel34
Peut être pas de sources avec ChatGPT mais avec Bing oui.
Nmut
Caramel34:<br /> ça montre le sérieux de ce site.<br /> Pas tout à fait. Ce sont des IAs conversationnelle, le contenu n’est pas ce qui les intéresse en premier lieu, c’est plus la forme (phraséologie) et la structure.<br /> grossetc:<br /> juste des requêtes dans des bases de données<br /> Raté. Une IA ne « stocke » rien et surtout il n’y a pas de base de données. On peut, par analogie humaine, considérer ça comme des souvenirs plus ou moins vagues, suivant la profondeur du réseau de neurone par exemple.<br /> Roger_Pimpon:<br /> les résultats produits sous l’apparence de propos sérieux sont à amas d’approximations et erreurs que le produit n’a pas honte de restituer sans alerte aucune.<br /> Encore une fois, on attend beaucoup trop des IAs conversationnelles. Elles ne font qu’aligner des mots qui paraissent cohérents, mais le fond n’a aucune importance et il n’y a pas de possibilité de valider les informations puisque la source n’est pas connue. On est exactement dans le cas de quelqu’un qui a lu quelque chose qu’il ne comprend pas et qu’il essaye d’expliquer, ça peut être correct, mais il y a de grandes chances qu’au moins les détails soient incorrects, voir toute la réponse.<br /> D’ailleurs c’est aussi le cas de Wikipédia, même si il y a des contrôles et des références obligatoires pour valider un sujet, certains sujets sont mal traités, trop partiellement ou avec des biais, souvent parce que les rédacteurs n’avaient pas les compétences suffisantes (on se surestime souvent! ).<br /> Bombing_Basta:<br /> Et l’IA n’a pas la qualité de ces défauts, à savoir la capacité de réflexion et d’argumentation.<br /> Donc chier approximativement un amat de mots piochés dans la production d’humain ayant réfléchis et argumenté, c’est tout ce qu’elle sait faire cette « IA », peut-être en quelques nanosecondes, mais ça reste de la bouillie.<br /> +1 !<br /> kroman:<br /> hash des bouts de phrases générés accessibles par Wiki pour vérifier si le contenu publié n’est pas issu de leur IA.<br /> Le hash n’est pas possible, le résultat est fluctuant, aucune chance d’avoir des hash constants… Mais je suis d’accord, Wikipedia pourrait à la fois être le fournisseur d’entraienement pour les IAs (et pas que conversationnelles) ET un producteur, mais il faut impérativement pouvoir tracer l’origine et l’auteur de chaque article.<br /> Lana:<br /> il fait des erreurs grossières<br /> Encore une fois, ChatGPT n’est qu’un beau parleur, il n’a pas de notions de logique et de compétences techniques. Et comme un être humain, il ne te sortira pas la même réponse 2 fois de suite car il aura appris d’autres questions / conversations entre temps.
promeneur001
On peut très bien imaginer<br /> Un être humain se servant de l’ia pour créer, améliorer un article de wikipedia voir faire de wikipedia le rêve de Diderot et d’Alembert, l’encyclopédie d’aujourd’hui, le rassemblement de toutes les connaissances toujours actualisé.<br /> Que wikipedia crée sa propre ia comme interface utilisateur pour interroger.<br />
Bombing_Basta
Allez, je te donne la journée pour me fournir une source, documentée, sur l’intelligence et la capacité de réflexion et d’argumentation de cet algorythme…
Lana
Qu’il y ait des changements dans ses réponses, c’est normal, je suis d’accord avec toi, mais là c’est des gros changements radicaux quand même, pour exemple, je lui demande si l’huile de nigelle est diurétique, premier jour il me dit que non pas du tout.<br /> Le lendemain je lui repose la même question, et il me dit que oui, c’est très diurétique.<br /> Le changement est édifiant tout de même
Nmut
C’est dans le principe même de l’IA conversationnelle: elle semble donner une réponse pertinente, mais il n’y a aucune garantie, et on peut la manipuler en lui faisant « croire » n’importe quoi.
Nmut
Peter_Vilmen:<br /> Mdr, ChatGPT et consort font preuve d’intelligence et de bon sens hein<br /> La probabilité d’une bonne réponse est relativement importante, mais il n’y a aucune garantie. L’intelligence est plus dans la synthèse approximative (c’est ce que fait un cerveau humain) mais les biais sont encore plus présents car au moins le cerveau humain a en partie conscience de ses limites et a des mécanismes de protection / correction (la prudence, la morale, … enfin, normalement mais pas toujours sur les réseaux sociaux! ). Et surtout, il n’y a aucun moyen d’estimer la validité de la réponse, c’est ce qui pose problème.
Roger_Pimpon
J’entends bien. Mais le problème est que coté I.A un flou bien volontaire est entretenu. Pour preuve cet invariable message d’excuse lorsqu’on remonte une erreur (encore faut il donc avoir pris le temps de faire des vérifications), spécifiant que l’I.A est en phase d’apprentissage. Ce message, parce qu’il n’est pas systématiquement affiché en début de conversation, parce qu’il mentionne cette « phase d’apprentissage », révèle clairement les ambitions commerciales de ces firmes qui est indiscutablement d’abuser l’utilisateur sur le service rendu.<br /> Et sur cette base il est inévitable que quelques (et soyons raisonnable, de nombreux) utilisateurs soient abusés et reportent/dupliquent de bonne foi ces informations erronées sur la toile. Ces I.A sont des machines à produire du faux, des « faits alternatifs » en quantité industrielle. C’est alarmant, tous les indicateurs pointant déjà que le « vrai » est une valeur déjà très largement discutée.
phoenix206
Dans le titre c’est : « et » ou « est »?
Voir tous les messages sur le forum
Haut de page

Sur le même sujet