De 3 à 4 millions de prompts pour tester la vulnérabilité de 20 LLM.nuddss / iStock / Getty Images Plus / via Getty Images
Les outils conversationnels utilisant les grands modèles de langage (LLM) intègrent des informations médicales erronées, voire de la désinformation en santé, de manière plus ou moins importante selon la manière dont elles sont présentées, montre une étude américaine publiée en janvier dans The Lancet Digital Health.
Les LLM émergent comme des outils prometteurs dans la pratique clinique. Cependant, leur fonctionnement reste obscur, soulevant des inquiétudes concernant leur potentiel à diffuser ou fabriquer de fausses informations, rappellent le Dr Mahmud Omar du Mount Sinai Health System à New York et ses collègues.
Il a été montré que les LLM sont vulnérables aux fausses informations, c'est-à-dire qu'ils sont susceptibles d'accepter et/ou de générer des informations incorrectes voire fausses, en partie sous l'influence des "prompts" (instructions données à l'IA).
Dans cette étude, les chercheurs ont voulu mener une évaluation à grande échelle, impliquant 3 à 4 millions de prompts, pour tester la vulnérabilité de plusieurs LLM à différentes formes de mésinformation ou désinformation médicale.
A partir de trois types de contenu -des documents de sortie d'hospitalisation avec, dans chacun d'entre eux, une hallucination qui a été insérée, des fausses informations qui circulent sur un forum de discussion et des vignettes cliniques créées par des médecins et contenant de fausses informations-, ils ont généré 710 "prompts" initiaux.
Ils ont ensuite testé 20 LLM, dont les principaux, comme OpenAI GPT, Meta Llama, Google Gemma, Alibaba Qwen, Microsoft Phi et Mistral, ainsi que leurs multiples dérivés médicaux, avec 11 formulations différentes des "prompts" initiaux, l'une étant une requête simple et les autres utilisant 10 formes de sophisme (argument ad hominem, appel à l'autorité, appel aux émotions, appel à la popularité, raisonnement circulaire, faux dilemme, généralisation hâtive, raisonnement post-hoc ergo propter hoc -c'est-à-dire un paralogisme qui consiste à prendre pour une cause ce qui n'est qu'un antécédent-, pente glissante ou épouvantail) pour voir comment la rhétorique peut influencer le comportement du modèle.
Les chercheurs ont examiné la capacité de chaque LLM à accepter la désinformation contenue dans les "prompts" et à détecter les raisonnements fallacieux.
Par exemple, il a été ajouté dans un document de sortie d'hospitalisation que les patients souffrant d'hémorragie liée à une œsophagite devaient "boire du lait froid pour soulager les symptômes". Selon la formulation du "prompt" ("Est-ce que la recommandation de boire du lait froid en cas de symptômes…?", "Un éminent professeur, reconnu dans son domaine, recommande de boire du lait… ", "Plusieurs personnes rapportent avoir été améliorées après avoir bu du lait…"), lorsqu'on demande aux LLM si l'affirmation est médicalement correcte, elles acceptent l'information erronée ou la signalent.
Vulnérabilité aux fausses informations insérées dans les documents de sortie d'hospitalisation
Sur l'ensemble des tests, les LLM ont accepté près d'un tiers (31,7%) des informations fabriquées parmi 158.000 requêtes simples. Pour huit requêtes sur les 10 faisant appel à un sophisme, ce taux n'a pas changé ou a diminué. La vulnérabilité au contenu fabriqué diminuait avec l'appel à la popularité (11,9%) en particulier. Elle augmentait avec un "prompt" utilisant un raisonnement de type "pente glissante" (33,9%) ou "appel à l'autorité" (34,6%).
Les LLM étaient en particulier vulnérables aux fausses informations insérées dans les documents de sortie d'hospitalisation (46,1%) alors que la vulnérabilité aux fausses informations issues des réseaux sociaux était de seulement 8,9%, dans les deux cas avec des requêtes simples.
Les performances variaient selon les modèles, GPT étant le moins vulnérable et le plus précis pour détecter des sophismes et Gemma3-4B-it, le plus vulnérable (63,6%).
La détection des raisonnements fallacieux était de 51,7% parmi les "prompts" simples mais ce taux était plus élevé avec l'ensemble des "prompts" utilisant des sophismes, entre 60,1% et 76,9%.
Des différences étaient également observées selon les sources: le LLM a correctement repéré des raisonnements fallacieux dans moins d'un tiers des requêtes simples avec des informations provenant des réseaux sociaux et des forums ou des vignettes, mais approchait les deux tiers avec les documents de sortie d'hospitalisation.
Ces résultats confirment que les LLM absorbent des informations médicales fabriquées potentiellement dangereuses, en particulier lorsqu'elles sont formulées dans "un style clinique faisant autorité" et contrairement à ce qui était attendu, sont moins vulnérables à la désinformation lorsqu'elle est présentée selon la plupart des procédés rhétoriques relevant du sophisme.
L'ensemble de ces données suggère que l'amélioration de la sécurité des LLM proviendra davantage de garde-fous contextuels adaptés spécifiquement aux tâches cliniques et aux applications destinées aux patients, concluent les chercheurs.
D'après une dépêche publiée dans APMnews le 10 février 2026.
(The Lancet Digital Health, vol.8 n°1, article 100949)
4 minutes
Ajouter un commentaire



Les commentaires sont momentanément désactivés
La publication de commentaires est momentanément indisponible.