L’apport potentiel des IA en matière d’information médicale sur la sellette !Rudzhan Nagiev / iStock / Getty Images Plus / via Getty Images
Les outils conversationnels utilisant les grands modèles de langage (LLM) ne sont pas plus performants que d'autres sources d'information, notamment un moteur de recherche sur internet, pour aider les patients à identifier un problème de santé et à savoir quelle est la conduite à tenir, montre une étude britannique publiée dans Nature Medicine.
Avec le développement des LLM, le grand public interroge de plus en plus l'intelligence artificielle (IA) de type conversationnel sur ses problèmes de santé pour avoir des conseils personnalisés. Des patients rapportent avoir été diagnostiqués correctement par une IA, notent Andrew Bean de l'université d'Oxford et ses collègues dans Nature Medicine.
Les LLM présentent aujourd'hui des performances élevées dans la réalisation de certaines tâches médicales, mais plusieurs études ont montré que leur usage en pratique clinique pour assister les médecines se heurte à des difficultés.
Par rapport au grand public, il a été suggéré que les LLM pourraient faciliter l'accès à l'expertise médicale dans le contexte d'un système de santé saturé et des sociétés privées développent des services dans la santé, avec notamment des IA spécialisées.
Les chercheurs britanniques ont évalué la capacité des LLM à aider des patients à identifier un problème de santé et à choisir une ligne de conduite parmi 10 scénarios écrits par trois médecins, par exemple se soigner par automédication, consulter son médecin généraliste, appeler les pompiers, se rendre à l'hôpital, etc., face à un rhume, une anémie, une embolie pulmonaire, une hémorragie cérébrale, des calculs biliaires…
Au total, 1.298 participants adultes ont été inclus puis randomisés entre trois LLM (GPT-4o d'OpenAI, Llama 3 de Meta ou Command R+ de Cohere) et la source de leur choix, par exemple un moteur de recherche sur internet.
Les chercheurs ont d'abord testé eux-mêmes les 10 scénarios avec les trois IA. GPT-4o a donné au moins un diagnostic pertinent dans 94,7% des cas, Llama 3 dans 99,2% et Command R+ dans 90,8% des cas. Les performances pour recommander la conduite à tenir appropriée étaient moins bonnes, de respectivement 64,7%, 48,4% et 55,5%.
En revanche, lorsque les LLM ont été mis à disposition des participants, ces derniers ont identifié correctement les problèmes médicaux dans moins de 35% des cas et choisi la conduite à tenir adéquate dans moins de 44% des cas.
Les participants utilisant la source de leur choix présentaient des chances d'identifier une affection pertinente multipliées par 1,8 par rapport à l'ensemble des participants utilisant des LLM. Leurs performances dans le choix de la conduite à tenir étaient similaires à celles des participants utilisant les LLM.
Les chercheurs ont ensuite examiné les interactions des participants avec l'IA car les moins bonnes performances des LLM par rapport au test initial suggèrent que les informations dans les scénarios nécessaires au diagnostic ne sont pas systématiquement communiquées aux LLM par les participants.
L'analyse de 30 échanges en particulier montre notamment que des participants n'ont pas suivi totalement les consignes données et ont apporté des informations incomplètes. Par exemple, sur la base des scénarios, les LLM ont proposé 2,2 diagnostics par échange en moyenne et lorsqu'il a été demandé ensuite aux participants de les lister pour demander la conduite à tenir, ils en ont donné 1,33 en moyenne, et pas nécessairement celui qui était considéré comme le plus pertinent par les LLM.
Les chercheurs observent dans certains cas que des participants ont ajouté des symptômes qui ne figuraient pas dans les informations à donner aux LLM initialement.
Enfin, les LLM peuvent générer des informations erronées. Dans deux cas, ils ont initialement donné des réponses correctes mais ajouté de fausses informations lorsque les participants ont ajouté des détails. Dans deux autres, ils se sont focalisés sur des termes qui n'étaient pas essentiels dans le scénario. Ils ont également fait des erreurs de compréhension contextuelle, par exemple en proposant d'appeler un numéro d'urgence dans un autre pays.
"L'IA n'est tout simplement pas prête à remplacer le médecin"
Dans l'ensemble, les participants se débrouillent pour échanger avec les LLM, mais plusieurs stratégies apparaissent, certains posant des questions plutôt fermées (par exemple, tel symptôme peut-il être dû au stress?), ce qui limite les réponses, d'autres semblent avoir délibérément choisi de dissimuler des informations pour vérifier la validité des réponses proposées.
La complexité des interactions humaines représente une réelle difficulté au déploiement des LLM dans le conseil médical direct au grand public, concluent les chercheurs, estimant l'expertise proposée insuffisante pour une prise en charge efficace.
Ils recommandent aux développeurs, mais aussi aux législateurs et aux régulateurs, d'envisager des tests cliniques comme base à une meilleure évaluation des capacités d'interaction avant tout déploiement.
"Malgré tout le battage médiatique, l'IA n'est tout simplement pas prête à remplacer le médecin. Les patients doivent être conscients que poser des questions à un modèle de langage complexe sur leurs symptômes peut s'avérer dangereux, car cela peut conduire à des diagnostics erronés et à une incapacité à reconnaître les situations d'urgence", commente l'un des auteurs, la Dr Rebecca Payne, dans un communiqué de l'université d'Oxford.
Il s'agit de la plus vaste étude utilisateur sur les LLM destinés à aider le grand public à prendre des décisions médicales et les résultats montrent un écart énorme entre leurs promesses et leur utilité réelle, observe l'établissement.
D'après une dépêche publiée dans APMnews le 10 février 2026.
4 minutes
Ajouter un commentaire




Commentaires
Cliquez ici pour revenir à l'accueil.