Envie de faire appel à l’intelligence artificielle (IA) pour que vos pronostics foot soient encore plus affinés ? C’est très probablement une mauvaise idée, d’après cette nouvelle étude.

Le Paris Saint-Germin soulevant la Ligue des Champions 2025. ©Marco Iacobucci Epp / Shutterstock
Le Paris Saint-Germin soulevant la Ligue des Champions 2025. ©Marco Iacobucci Epp / Shutterstock

L’IA a envahi notre quotidien, à tel point que les experts s’inquiètent très sérieusement de son impact sur l’emploi. Mais soyez rassuré, il existe visiblement des domaines dans lesquels l’être humain est loin d’être surpassé, notamment celui des paris sportifs.

C’est ce que révèle une étude publiée par la start-up General Reasoning, basée à Londres, et partagée par Ars Technica. Baptisée « KellyBench », elle a soumis 8 des modèles d’IA les plus performants du marché à un test aussi original qu’impitoyable : parier sur des matchs de Premier League, la première division anglaise, sur toute une saison.

Aucune IA n’a gagné de l’argent

Pour cela, la jeune pousse a recréé virtuellement la saison 2023-2024 de Premier League : les IA ont reçu des données historiques détaillées sur chaque équipe et les matchs précédents, puis ont été chargées de construire leurs propres modèles de prédiction pour maximiser leurs retours sur investissement et minimiser les risques de leurs mises.

Ensuite, elles ont placé des paris sur les résultats des rencontres et le nombre de buts, en s’adaptant au fil de la saison aux nouvelles données sur les joueurs et les équipes. Chaque modèle, qui n’avait pas accès à Internet pour ne pas tricher, a disposé d’une mise de départ normalisée de 100 000 livres sterling (environ 118 000 euros), et de trois essais au total.

Le résultat est peu reluisant : aucune IA n’a réussi à dégager un bénéfice sur l’ensemble de la saison. « Chaque modèle que nous avons évalué a perdu de l’argent, et beaucoup ont connu la ruine », concluent les auteurs, notant que l’IA « sous-performe systématiquement les humains » dans ce cas de figure.

Grok a obtenu le pire résultat. ©Primakov / Shutterstock
Grok a obtenu le pire résultat. ©Primakov / Shutterstock

Claude en tête, Grok dernier

Dans le détail, c’est Claude Opus 4.6 d’Anthropic qui s’en tire le mieux, avec une perte moyenne de 11 % et une tentative à seulement -0,2 % : il a frôlé l’équilibre. GPT-5.4 d’OpenAI lui emboîte le pas avec -13,6 % de pertes en moyenne. Gemini 3.1 Pro de Google présente le profil le plus erratique : un essai à +33,7 % de bénéfice, mais un autre qui s’est soldé par une faillite totale. Plus bas dans le classement, Grok 4.20 de xAI n’a tout simplement pas réussi à terminer deux de ses trois tentatives, finissant avec un solde de zéro.

« Si vous essayez l’IA sur des tâches du monde réel, elle s’en sort vraiment mal… Oui, le génie logiciel est très important et économiquement précieux, mais il existe beaucoup d’autres activités avec des horizons temporels plus longs qui méritent d’être étudiées », estime Ross Taylor, P.-D.G de General Reasoning et ancien chercheur chez Meta.

À noter que l’étude n’a pas encore été évaluée par des pairs, les résultats sont donc à prendre avec un léger recul. Mais ils sont tout de même bons à connaître, à seulement quelques semaines de la Coupe du Monde.

À découvrir
Quels sont les 5 meilleurs chatbots à intelligence artificielle ? Comparatif 2026
Comparatifs services
Foire aux questionsContenu généré par l’IA
Qu’est-ce qu’un benchmark comme « KellyBench » mesure vraiment quand il évalue des IA sur des paris sportifs ?

Un benchmark de ce type mesure la capacité d’un modèle à transformer des données historiques en décisions chiffrées sous contrainte (choix des paris, taille des mises, gestion du risque). Il ne teste pas seulement la “prédiction” d’un score, mais une chaîne complète : modélisation probabiliste, allocation de capital, et adaptation au fil des nouvelles informations. Le résultat final dépend aussi de la variance (séries de gains/pertes) et de la robustesse de la stratégie, pas uniquement de la qualité moyenne des prédictions. En clair, c’est un test d’optimisation financière en environnement incertain, plus proche d’un mini-trading que d’un simple concours de pronostics.

À quoi sert le « critère de Kelly » et pourquoi est-il central pour comprendre des pertes malgré de “bons” pronostics ?

Le critère de Kelly est une règle de money management qui indique quelle fraction de la bankroll miser en fonction de l’avantage estimé (probabilité) et des cotes proposées. Son objectif est de maximiser la croissance à long terme du capital, tout en tenant compte du risque de ruine quand les estimations sont imparfaites. Si une IA surestime même légèrement ses probabilités, Kelly peut conduire à miser trop gros, ce qui amplifie les pertes lors des mauvaises séries. À l’inverse, miser trop peu limite les gains même quand les prédictions sont correctes. Dans les paris, l’erreur d’estimation et la volatilité comptent autant que la “qualité” des pronostics.

Pourquoi des cotes de bookmakers rendent-elles difficile le fait de gagner de l’argent, même avec des modèles IA performants ?

Les cotes intègrent une marge du bookmaker (souvent appelée overround), ce qui crée un handicap mathématique : à probabilités “justes”, l’espérance de gain est déjà négative. Pour être rentable, il faut identifier des erreurs de prix (value bets), donc être meilleur que le marché qui agrège énormément d’informations (blessures, forme, tactiques, météo, etc.). En plus, les marchés de Premier League sont généralement très efficients : les écarts exploitables sont rares et disparaissent vite. Un modèle peut être correct “en moyenne” et perdre quand même si cet avantage n’est pas suffisant pour compenser la marge et la variance. C’est une différence clé entre prédire un événement et gagner de l’argent sur un marché de cotes.