Une IA supérieure aux médecins en diagnostic et raisonnement clinique

Le raisonnement clinique inclut de nombreux aspects encore non étudiés sur l’IA.fizkes/ iStock / Getty Images Plus / via Getty Images

Une intelligence artificielle récente, o1 d'OpenAI, s'est montrée supérieure à des médecins en termes de diagnostic et de raisonnement clinique sur la meilleure prise en charge devant un grand nombre de cas cliniques différents, dans une étude publiée par Science.

Tout en soulignant qu'il y a encore des limites et qu'on n'en est pas au remplacement des médecins par une IA, les auteurs de cette étude estiment "urgent" de conduire "des essais cliniques prospectifs pour évaluer rigoureusement le potentiel des IA pour améliorer la pratique clinique et l'évolution des patients".

Peter Brodeur du Beth Israel Deaconess Medical Center à Boston et ses collègues rappellent que jusqu'à présent les IA qui avaient été développées dans un but médical étaient évaluées sur des exemples de cas cliniques proposés il y a déjà 65 ans par le New England Journal of Medicine (NEJM), qui étaient volontairement des cas complexes. On manquait de comparaisons avec des cas cliniques de routine.

Ils ont étudié les performances d'Open AI o1 sur différents types de cas, le comparant d'une part à des IA de générations antérieures, notamment GPT-4 (également d'OpenAI), et d'autre part à des médecins.

Tout d'abord, face aux cas classiques du NEJM, le bon diagnostic était donné par l'IA dans 84% des cas. De plus, au-delà du diagnostic, dans une étude de la capacité de raisonnement de l'IA sur le cas présenté, le résultat était bon dans pratiquement 100% des cas, et meilleur à des médecins auxquels étaient présentés les mêmes cas.

C'était également le cas avec non plus les exemples de référence proposés par le NEJM il y a 65 ans mais avec des cas réels, où là aussi l'IA était meilleure que le modèle d'IA antérieur et meilleure que les médecins en diagnostic comme en raisonnement sur la prise en charge.

En particulier, une expérience basée sur 76 cas de patients arrivés aux urgences du Beth Israel Deaconess Medical Center, dans une situation où les médecins ont un niveau limité d'informations sur le cas, le diagnostic était "bon ou très proche" dans 67,1% avec l'IA, comparé à 55,3% pour un des deux médecins qui se comparaient à l'IA et 50% pour l'autre médecin. Puis avec un nombre graduellement plus important d'informations disponibles, on montait à 72,4% de diagnostics bons ou très proches avec l'IA contre 61,8% ou 52,6% selon le médecin, puis 81,6% contre 78,9% ou 69,7%.

Les chercheurs notent en particulier que la supériorité de diagnostic avec le nombre minimal d'informations suggère que cette IA aurait un intérêt pour le triage des patients à l'arrivée aux urgences.

Ils estiment qu'à l'opposé des inquiétudes sur l'utilisation de l'IA comme assistant des médecins pour aider à la prise de décision, son utilisation pourrait "diminuer les coûts humains et financiers des erreurs de diagnostic, des délais et du manque d'accès" aux soins.

Mais ils soulignent une limite actuelle dans les capacités de l'IA: elles n'ont à ce jour accès qu'à du texte. Or, "la médecine clinique a de multiples facettes, incluant des données non textuelles comme des informations auditives (par exemple, le niveau de stress du patient) et visuelles (l'interprétation des résultats d'imagerie) que les cliniciens utilisent en routine".

Ils notent aussi que dans leur étude, l'IA a principalement été utilisée seule alors qu'on s'orientera certainement vers une utilisation comme aide du médecin et non pour le remplacer.

Dans tous les cas cela nécessitera des études plus amples car, bien que l'IA ait été évaluée sur plusieurs dizaines de cas, la fiabilité pourrait varier de façon importante selon les types de pathologies. De même, le raisonnement clinique inclut de nombreux aspects qui n'ont pas encore tous été étudiés sur l'IA.

D'après une dépêche publiée dans APMnews le 30 avril 2026.

Pour en savoir plus

Science, publication en ligne du 30 avril

Sources