Les chercheurs ont comparé leur outil d'IA de longue date pour les systèmes d'aide à la décision en matière de diagnostic, DXplain, avec de grands modèles de langage modernes comme ChatGPT et Gemini, et ont constaté que DXplain fonctionnait légèrement mieux. Ils disent que leurs résultats suggèrent que la combinaison de DXplain avec les LLM pourrait améliorer le diagnostic clinique et améliorer les deux technologies.
Les professionnels de la santé utilisent l'intelligence artificielle (IA) pour rationaliser les diagnostics depuis des décennies, en utilisant ce que l'on appelle les systèmes d'aide à la décision diagnostique (DDSS). Les informaticiens du Massachusetts General Hospital (MGH), membre fondateur du système de santé Mass General Brigham, ont développé pour la première fois le propre DDSS du MGH appelé DXplain en 1984, qui s'appuie sur des milliers de profils de maladies, de résultats cliniques et de points de données pour générer et classer des diagnostics potentiels destinés à être utilisés par les cliniciens. Avec la popularisation et l'accessibilité accrue de l'IA générative et des grands modèles de langage (LLM) en médecine, les chercheurs du laboratoire d'informatique (LCS) de MGH ont cherché à comparer les capacités diagnostiques de DXplain, qui ont évolué au cours des quatre dernières décennies, aux LLM populaires.
Leur nouvelle recherche compare ChatGPT, Gemini et DXplain pour diagnostiquer les cas de patients, révélant que DXplain a donné de meilleurs résultats, mais que les LLM ont également bien fonctionné. Les enquêteurs envisagent d'associer DXplain à un LLM comme la voie à suivre optimale, car cela améliorerait les deux systèmes et renforcerait leur efficacité clinique. Les résultats sont publiés dans JAMA Network Open.
« Au milieu de tout l'intérêt suscité par les grands modèles de langage, il est facile d'oublier que les premiers systèmes d'IA utilisés avec succès en médecine étaient des systèmes experts comme DXplain », a-t-il déclaré. a déclaré le co-auteur Edward Hoffer, MD, du LCS au MGH.
« Ces systèmes peuvent améliorer et élargir les diagnostics des cliniciens, en rappelant des informations que les médecins peuvent oublier dans le feu de l'action et qui ne sont pas biaisées par des défauts courants du raisonnement humain. Et maintenant, nous pensons que la combinaison des puissantes capacités explicatives des systèmes de diagnostic existants avec les capacités linguistiques de grands modèles de langage permettra une meilleure aide automatisée à la décision diagnostique et aux résultats pour les patients », a déclaré l'auteur correspondant Mitchell Feldman, MD, également du LCS de MGH.
Les enquêteurs ont testé les capacités de diagnostic de DXplain, ChatGPT et Gemini en utilisant 36 cas de patients couvrant des catégories raciales, ethniques, d'âge et de sexe. Pour chaque cas, les systèmes avaient la possibilité de suggérer des diagnostics potentiels avec et sans données de laboratoire. Avec les données de laboratoire, les trois systèmes indiquaient le bon diagnostic la plupart du temps : 72 % pour DXplain, 64 % pour ChatGPT et 58 % pour Gemini. Sans données de laboratoire, DXplain a répertorié le bon diagnostic dans 56 % des cas, surpassant ChatGPT (42 %) et Gemini (39 %), bien que les résultats ne soient pas statistiquement significatifs.
Les chercheurs ont observé que le DDSS et les LLM ont détecté certaines maladies que les autres ont manquées, ce qui suggère que la combinaison des approches pourrait être prometteuse. Les travaux préliminaires s'appuyant sur ces résultats révèlent que les LLM pourraient être utilisés pour extraire des résultats cliniques d'un texte narratif, qui pourrait ensuite être connecté aux DDSS, améliorant ainsi de manière synergique les deux systèmes et leurs conclusions diagnostiques.
Matériel fourni par Mass General Brigham. Remarque : Le contenu peut être modifié en termes de style et de longueur.