Moins d'une chance sur cent d'obtenir deux fois la même liste de marques. Moins d'une sur mille dans le même ordre. Une étude publiée tout récemment par Rand Fishkin et Gumshoe.ai le documente après 3 000 réponses collectées sur ChatGPT, Claude et Google AI.

L'étude a rassemblé 600 volontaires, 12 requêtes différentes, trois outils d'IA, et près de 3 000 réponses collectées puis normalisées - ©PJ McDonnell / Shutterstock
L'étude a rassemblé 600 volontaires, 12 requêtes différentes, trois outils d'IA, et près de 3 000 réponses collectées puis normalisées - ©PJ McDonnell / Shutterstock

Posez la même question à ChatGPT cent fois de suite, par exemple quel casque audio pour un long voyage, par exemple. Vous n'obtiendrez presque jamais la même liste deux fois, encore moins dans le même ordre. Rand Fishkin, fondateur de SparkToro, a monté une expérience avec Patrick O'Donnell de Gumshoe.ai pour le démontrer. Avec 600 volontaires, 12 requêtes différentes, trois outils d'IA, et près de 3 000 réponses collectées puis normalisées. ChatGPT et Google Gemini donnent une liste identique moins d'une fois sur cent. Pour l'ordre des recommandations, on tombe sous une chance sur mille.

Contrairement à ce qu'on pourrait croire, ça n'est pas un bug, mais un fonctionnement normal. Ces modèles tirent parmi une distribution de candidats plausibles à chaque génération, comme la température (le niveau de diversité ou de créativité du modèle de langage), les paramètres d'échantillonnage ou les sources RAG activées en temps réel. Chaque réponse est unique par construction.

Des millions d'utilisateurs qui n'en savent rien

Pour les affirmations factuelles, telles que l'histoire, les sciences ou l'actualité, les LLM affichent des taux de fiabilité supérieurs à 90 %. Documenté, étudié, connu. Pour les recommandations de marques et de produits, Rand Fishkin est formel : avant son étude, aucune recherche sérieuse n'existait sur le sujet

Personne n'avait mesuré si ces outils étaient fiables pour ce type de réponse.
Des millions de personnes les consultent pourtant exactement comme ça, pour choisir un casque, un CRM, une mutuelle, un centre médical. Plusieurs études universitaires l'ont confirmé : les utilisateurs accordent aux listes générées par une IA le même niveau de confiance qu'aux faits vérifiés. Le chercheur prend l'exemple d'un proche atteint d'un cancer. Vous demandez à Gemini quel est le meilleur centre de cancérologie de la côte ouest américaine. Il répondra City of Hope de Los Angeles y figure dans 97 % des cas, mais en première position dans seulement 25 réponses sur 71. Rand Fishkin lui-même avoue ne pas savoir ce que ça signifie vraiment. L'utilisateur, lui, ne pose pas la question cent fois pour faire la moyenne. Il lit, fait confiance naturellement et décide.

Posez la même question à ChatGPT cent fois de suite, par exemple quel casque audio pour un long voyage, par exemple. Vous n'obtiendrez presque jamais la même liste deux fois - - Capture d'écran ©Mélina Loupia / Sparktoro pour Clubic
Posez la même question à ChatGPT cent fois de suite, par exemple quel casque audio pour un long voyage, par exemple. Vous n'obtiendrez presque jamais la même liste deux fois - - Capture d'écran ©Mélina Loupia / Sparktoro pour Clubic

100 millions de dollars par an pour mesurer du vent

Pour les marques, la note est différente mais tout aussi sévère. Plus de 100 millions de dollars par an partent déjà dans des outils de « AI rank tracking », des plateformes censées dire aux entreprises si elles apparaissent bien dans les recommandations des chatbots. Des sociétés comme Profound ou Otterly vendent des tableaux de bord, des scores de visibilité, des « classements IA ». Mais pour Rand Fiskin, attribuer un classement dans un système non-déterministe, c'est vendre quelque chose qui n'existe pas.

L'étude valide toutefois une mesure : le pourcentage de visibilité calculé sur un grand nombre de requêtes répétées, au minimum 60 à 100 fois par question. Une marque qui apparaît dans 85 réponses sur 95 sur un sujet donné dit quelque chose de réel sur sa place dans le corpus du modèle. Une mesure de présence, pas un rang et une distinction que la quasi-totalité des outils vendus aujourd'hui aux équipes marketing ne font pas.

L'étude pointe aussi la diversité des requêtes humaines réelles : parmi 142 questions posées par des volontaires sur le même sujet, à peine deux se ressemblaient. Score de similarité sémantique moyen : 0,081. Les gens ne cherchent pas en mots-clés, ils formulent une demande en la précisant et la contextualisant. Les IA saisissent l'intention et produisent des marques cohérentes en fréquence dans un ordre chaque fois différent, pour des raisons que personne ne maîtrise encore.

Source : WepProNews