Confier une décennie de battements cardiaques à une IA semblait être l'étape logique du « Quantified Self ». Mais quand l'assistant d'OpenAI transforme des approximations techniques en diagnostic alarmiste, le rêve de la médecine prédictive vire à la farce hypocondriaque.

ChatGPT en docteur © Shutterstock/OpenAI
ChatGPT en docteur © Shutterstock/OpenAI

Nous y sommes. Après des mois de teasing, OpenAI a ouvert les vannes de son module « ChatGPT Santé » en ce début d'année 2026. L'ambition affichée est claire : faire trier vos constantes vitales par l'IA pour déceler ce que votre médecin aurait raté. Sur le papier, la promesse est séduisante. Mais la réalité technique vient de se prendre un mur. Un journaliste du Washington Post a tenté l'expérience avec dix ans d'archives Apple Health. Le résultat est aussi fascinant qu'inquiétant.

Un diagnostic fantôme basé sur du vent

L'expérience menée par Geoffrey A. Fowler est un cas d'école de ce qu'il ne faut pas faire avec une IA générative. L'homme a nourri la machine avec un corpus massif : 29 millions de pas et 6 millions de mesures cardiaques collectés méticuleusement via son Apple Watch depuis une décennie. La réponse de ChatGPT a été sans appel, attribuant à son utilisateur une note de « F » pour sa santé cardiaque, suggérant un risque élevé d'incident. Paniqué, l'utilisateur a couru chez son cardiologue. Le verdict médical réel ? Tout va bien. L'IA avait tout simplement halluciné une pathologie.

ChatGPT (GPT-5.2)
  • Chat dans différentes langues, dont le français
  • Générer, traduire et obtenir un résumé de texte
  • Générer, optimiser et corriger du code
9 / 10

L'analyse de cet échec révèle les limites structurelles du système. ChatGPT n'a pas « vu » une maladie, il a mal interprété des métadonnées. L'IA s'est focalisée sur une chute apparente de la VO2 max, ignorant que cette métrique sur l'Apple Watch n'est qu'une estimation algorithmique et non une mesure clinique absolue. Pire encore, le chatbot a interprété un changement dans la fréquence cardiaque au repos comme une dégradation physique. En réalité, cette variation correspondait exactement au moment où l'utilisateur a acheté un nouveau modèle d'Apple Watch, équipé de capteurs différents et plus précis. L'algorithme a confondu une mise à jour matérielle avec une insuffisance cardiaque.

Quand la data brute ne fait pas le médecin

Ce fiasco illustre parfaitement la confusion actuelle entre données de bien-être et données médicales. Comme nous l'expliquions lors du déploiement de ChatGPT Santé, OpenAI tente de fusionner deux mondes qui ne parlent pas la même langue. Une montre connectée capture des tendances, du « bruit » statistique, là où un médecin cherche des signes cliniques. En traitant ces données brutes sans le filtre du contexte matériel — comme le changement de capteur ou les marges d'erreur logicielles — l'IA tombe dans le panneau du faux positif avec une assurance déconcertante.

L'autre point noir soulevé par cette affaire concerne la « mémoire » de l'outil. Au fil de la conversation, ChatGPT a oublié des paramètres cruciaux comme l'âge ou le sexe du patient, tout en ignorant des analyses sanguines récentes pourtant fournies dans le même jeu de données. C'est ici que le bât blesse pour OpenAI. Si l'entreprise veut positionner son outil comme un assistant fiable, elle ne peut pas se permettre ces amnésies sélectives. Pour l'heure, l'outil s'apparente davantage à un stagiaire en médecine trop zélé qu'à un véritable assistant de santé.

Ce n'est pas parce que vous avez de la donnée qu'il faut la faire parler à tout prix, surtout quand l'interlocuteur a tendance à inventer des problèmes pour justifier son existence.