On devine mieux sa maladie avec un simple moteur de recherche plutôt qu’avec un agent conversationnel, comme celui d’OpenAI.

Les failles de ChatGPT pour l’autodiagnostic médical révélées par une étude

Selon une étude britannique, les particuliers parviennent mieux à deviner leur maladie avec un simple moteur de recherche qu’avec un agent conversationnel, comme celui d’OpenAI. 

Par Nicolas SixPublié le 09 février 2026 à 17h00, modifié le 09 février 2026 à 21h47

Temps de Lecture 2 min.

Chaque jour, 40 millions d’utilisateurs réguliers de l’agent conversationnel ChatGPT l’interrogent sur des questions de santé, affirmait OpenAI, son éditeur, en janvier. Mais peut-on faire confiance à l’outil pour autodiagnostiquer une pathologie ? Probablement pas, répond une étude scientifique portée par Andrew M. Bean, chercheur en évaluation des systèmes intelligents à l’université d’Oxford, publiée le 9 février dans Nature Medicine et intitulée « Reliability of LLMs as Medical Assistants for the General Public » (« fiabilité des grands modèles de langage en tant qu’assistants médicaux grand public »).

Aidés par trois médecins, les chercheurs ont bâti dix scénarios de pathologie qu’ils ont communiqués à un échantillon représentatif de la population britannique composé de presque 1 300 participants. Ceux-ci devaient interroger ChatGPT comme s’ils souffraient de ces symptômes. Après un échange aussi long qu’ils le souhaitaient avec le chatbot, ces malades imaginaires n’aboutissaient au bon diagnostic que dans 37 % des cas environ.

Ce chiffre passait la barre des 45 % lorsqu’ils avaient recours aux méthodes de recherche en ligne auxquelles ils étaient habitués, sans intelligence artificielle (IA). La plupart « utilisaient un moteur de recherche », précise l’étude, « ou consultaient directement des sites de confiance, comme celui du NHS » (le National Health Service, le système de santé public du Royaume-Uni). A l’inverse, selon l’étude, l’IA s’approchait du bon diagnostic uniquement quand on lui soumettait directement la liste des symptômes cliniques rédigés par les médecins, sans passer par l’intermédiaire d’un patient fictif. Dans ces cas, l’agent conversationnel devinait la maladie dans environ 95 % des cas pour ChatGPT. Les performances des autres IA testées étaient proches : 99 % pour LLama 3, de Meta, et 91 % pour Command R+, de Cohere.

Petite faiblesse dans le protocole

En somme, le maillon faible était l’humain. Comment l’expliquer ? Les auteurs de l’étude avancent le fait que beaucoup de participants ne donnaient pas au robot conversationnel toutes les informations disponibles. Et quand le chatbot leur suggérait plusieurs maladies, ils ne choisissaient pas nécessairement la bonne. Les chercheurs pointent encore la tendance des participants à interroger l’IA d’une manière fermée – par exemple : « Cela pourrait-il avoir un lien avec le stress ? » –, ce qui a tendance à restreindre le champ des réponses de l’IA.

|  Quand l’IA apprend à diagnostiquer en dialoguant comme un médecin

« Ces tests font partie des plus rigoureux que j’ai pu voir », juge Philipp Kellmeyer, professeur spécialiste en IA responsable et santé numérique à l’université de Mannheim (Allemagne), « parce qu’ils impliquent de vrais participants humains ». Les chercheurs démontrent que « les problèmes d’interaction des humains avec l’IA sont cruciaux », poursuit-il.

L’étude publiée lundi comporte une limite : un patient qui simule une maladie décrit-il ses symptômes aussi précisément qu’une personne souffrant réellement de cette maladie ? Interrogé par Le Monde, Andrew M. Bean admet cette petite faiblesse dans son protocole mais, selon lui, elle ne remet pas en cause la tendance observée, tant les performances de diagnostic chutent massivement lorsque c’est un patient qui interroge l’IA.

Autre limite de l’étude : les chercheurs ont opté pour des IA grand public et généralistes, « non pour des IA entraînées spécifiquement pour établir des diagnostics, comme Infermedica », explique Philipp Kellmeyer, pour qui « l’étude ne prouve pas que l’aide aux patients par IA est impossible. Elle montre qu’un chatbot sans garde-fous, sans questionnement structuré, sans une conception centrée autour de l’utilisateur, n’est pas encore prêt pour l’autodiagnostic ».

Lire l’enquête |   Comment l’intelligence artificielle modifie les pratiques médicales

Nicolas Six

Publié par jscheffer81

Cardiologue ancien chef de service au CH d'Albi et ancien administrateur Ancien membre de Conseil de Faculté Toulouse-Purpan et du bureau de la fédération des internes de région sanitaire Cofondateur de syndicats de praticiens hospitaliers et d'associations sur l'hôpital public et l'accès au soins - Comité de Défense de l'Hopital et de la Santé d'Albi Auteur du pacte écologique pour l'Albigeois en 2007 Candidat aux municipales sur les listes des verts et d'EELV avant 2020 Membre du Collectif Citoyen Albi

Laisser un commentaire