Pour entraîner un modèle de langage d'IA, Wikipédia est tout simplement le meilleur terrain de jeu possible. L'encyclopédie en ligne coche en effet toutes les cases : elle compte plus de 61 millions d'articles, est disponible en 334 langues, présente des informations sourcées et vérifiées, mises à jour presque en temps réel. De plus, les articles y sont formatés et chapitrés clairement, et surtout, l'ensemble est accessible librement et gratuitement. Pour ne rien gâcher, il n'y existe pas non plus de limite quant au nombre de posts que l'on peut y consulter.