Un taux d'erreur d'orientation élevé pour l'IA santé ChatGPT Health dans les situations d'urgence

Au total 960 requêtes correspondant à 30 situations cliniques ont été présentées à ChatGPT Health.Alena Butusava / iStock / Getty Images Plus / via Getty Images

L'intelligence artificielle consacrée aux diagnostics de santé ChatGPT Health, lancée en début d'année outre-Atlantique par OpenAI, apparaît fiable pour des diagnostics de pathologies nécessitant d'aller sans urgence voir un médecin mais commet des erreurs -aux conséquences potentiellement graves- dans les situations de grande urgence, selon une étude réalisée par des chercheurs américains, publiée par Nature Medicine.

Cette IA accessible gratuitement a été lancée le 7 janvier aux Etats-Unis. Elle est supposée pouvoir recommander aux personnes qui la questionnent un niveau d'urgence de suivi par un médecin. Dans la mesure où cela pourrait devenir le premier contact de nombreuses personnes ayant des symptômes, les conséquences en cas de non-reconnaissance d'une situation d'urgence peuvent être graves.

Ashwin Ramaswamy de l'Icahn School of Medicine at Mount Sinai à New York et ses collègues ont analysé ses réponses. Ils ont présenté à ChatGPT Health 960 requêtes correspondant à 30 situations cliniques, avec différents degrés d'informations fournies à l'IA. D'une part, chaque situation était présentée avec seulement des données subjectives (symptômes, antécédents) ou avec en plus des données objectives (résultats biologiques, signes vitaux, examen physique); d'autre part, chaque cas était présenté avec différentes caractéristiques (sexe, origine ethnique, contexte, barrières d'accès au soin).

Ces situations cliniques étaient de quatre catégories: non-urgent et à surveiller à domicile; nécessitant de voir un médecin dans les semaines suivantes; nécessitant de voir un médecin dans les 24-48 heures; "aller aux urgences".

Il s'avère que les résultats étaient très bons pour la situation "voir un médecin dans les semaines suivantes" avec 96% de bonne gradation de la réponse, et relativement bons pour les situations "voir un médecin dans les 24-48 heures" avec 76,9% de bonne gradation de la réponse. Mais c'était nettement moins bon pour les deux autres catégories.

Pour les situations sans aucune urgence, dans 64,8% des cas il a été proposé de voir un médecin. Si cela n'est pas grave pour la santé de la personne, cela pourrait engendrer des coûts de santé inutiles, notent les auteurs.

La situation est plus inquiétante pour les situations de grande urgence, où 51,6% des situations ont reçu une réponse insuffisante, recommandant seulement de prendre rendez-vous avec un médecin.

Cela dépendait du type d'urgence. Dans des situations très claires comme un accident vasculaire cérébral (AVC), une anaphylaxie, une méningite ou une dissection aortique, 100% des réponses étaient d'aller aux urgences rapidement. Mais dans les cas d'exacerbation d'un asthme, 84,8% des réponses étaient mauvaises. Dans le cas d'une acidocétose diabétique, l'IA a fréquemment recommandé une consultation non-urgente, particulièrement dans les situations légères où l'acidocétose était confondue avec une hyperglycémie.

De façon globale, ajouter des données objectives (résultats biologiques…) a plutôt amélioré les performances de l'IA… sauf dans les situations urgentes où au contraire le taux de bonne réponse était diminué!

En cas d'idées suicidaires, des réponses imprévisibles

Les chercheurs ont identifié un autre point particulièrement problématique: les personnes présentant des idées suicidaires. Dans une partie des cas, et de façon imprévisible, l'IA n'a pas été capable de percevoir le risque suicidaire et le degré élevé d'urgence et n'a pas donné le numéro d'appel d'aide psychologique.

Paradoxalement, l'IA a plus souvent perçu l'urgence quand les informations sur le risque de suicide étaient imprécises que quand était donnée clairement une information sur une volonté de passage à l'acte (ex. "envisage de prendre beaucoup de comprimés").

Seul point positif: ils n'ont pas identifié de biais lié aux autres caractéristiques telles que l'origine ethnique ou les problèmes d'assurance.

Les auteurs estiment donc que le développement de cette IA spécialisée en santé a été insuffisant pour la bonne qualification des situations cliniques extrêmes.

"Compte tenu des implications directes pour la sécurité des patients en cas de situations d'urgence manquées, les IA de santé destinées aux consommateurs nécessitent une évaluation de sécurité avant leur commercialisation avec des critères équivalents aux dispositifs médicaux", concluent-ils.

D'après une dépêche publiée dans APMnews le 2 mars 2026.

Pour en savoir plus

(Nature Medicine, publication en ligne du 23 février 2026)

Sources

APM NEWS

Commentaires

Ajouter un commentaire

En cliquant sur "Ajouter un commentaire", vous confirmez être âgé(e) d'au moins 16 ans et avoir lu et accepté les règles et conditions d'utilisation de l'espace participatif "Commentaires" . Nous vous invitons à signaler tout effet indésirable susceptible d'être dû à un médicament en le déclarant en ligne.

Pour recevoir gratuitement toute l’actualité par mail Je m'abonne !