研究人员将他们长期使用的诊断决策支持系统人工智能工具 DXplain 与 ChatGPT 和 Gemini 等现代大型语言模型进行了比较,发现 DXplain 的表现稍好一些。他们表示,他们的研究结果表明,将 DXplain 与法学硕士相结合可以增强临床诊断并改进这两种技术。
几十年来,医疗专业人员一直在使用人工智能 (AI) 来简化诊断,即使用所谓的诊断决策支持系统 (DDSS)。马萨诸塞州总医院 (MGH) 是麻省总医院 (Mass General Brigham) 医疗保健系统的创始成员之一,其计算机科学家于 1984 年首次开发了 MGH 自己的 DDSS,称为 DXplain,它依赖于数千个疾病概况、临床发现和数据点来生成和排序潜在的诊断,供临床医生使用。随着生成式人工智能和大语言模型 (LLM) 在医学领域的普及和可及性的提高,麻省总医院计算机科学实验室 (LCS) 的研究人员试图将过去 40 年来不断发展的 DXplain 与流行的 LLM 的诊断能力进行比较。
他们的新研究比较了 ChatGPT、Gemini 和 DXplain 在诊断患者病例方面的表现,结果表明 DXplain 的表现稍好一些,但法学硕士也表现良好。研究人员设想将 DXplain 与法学硕士配对作为最佳的前进方向,因为这将改善这两个系统并提高其临床疗效。结果发表在 JAMA Network Open 上。
“尽管人们对大型语言模型很感兴趣,但人们很容易忘记,第一个成功应用于医学的人工智能系统是像 DXplain 这样的专家系统,”麻省总医院 LCS 的合著者、医学博士爱德华·霍弗 (Edward Hoffer) 说道。
“这些系统可以增强和扩大临床医生的诊断,回忆医生可能一时忘记的信息,并且不会因人类推理中的常见缺陷而产生偏见。现在,我们认为将现有诊断系统的强大解释能力与大型语言模型的语言能力相结合将能够实现更好的自动化诊断决策支持和患者结果。”通讯作者、麻省总医院 LCS 医学博士米切尔·费尔德曼 (Mitchell Feldman) 说道。
研究人员使用跨越种族、民族、年龄和性别类别的 36 名患者病例测试了 DXplain、ChatGPT 和 Gemini 的诊断能力。对于每个病例,系统都有机会在有或没有实验室数据的情况下建议潜在的病例诊断。根据实验室数据,所有三个系统在大多数情况下都列出了正确的诊断:DXplain 为 72%,ChatGPT 为 64%,Gemini 为 58%。在没有实验室数据的情况下,DXplain 列出了 56% 的正确诊断率,优于 ChatGPT (42%) 和 Gemini (39%),尽管结果在统计上并不显着。
研究人员观察到,DDSS 和法学硕士发现了其他人错过的某些疾病,这表明将这些方法结合起来可能会有希望。基于这些发现的初步工作表明,法学硕士可用于从叙述文本中提取临床发现,然后将其插入 DDSS 中,进而协同改进两个系统及其诊断结论。
材料由麻省布里格姆将军提供。注意:内容的风格和长度可能会被编辑。