人工智能聊天机器人在医疗诊断上的表现远超医生,这一发现引发了医学界的震动。在一项实验中,即使医生使用ChatGPT进行诊断辅助,其表现也仅比未使用AI的医生稍好。而更令人意外的是,单独依靠ChatGPT,诊断准确率竟然胜过所有医生。
波士顿贝斯以色列女执事医疗中心的内科专家Adam Rodman博士原本认为,AI聊天机器人可以帮助医生更好地诊断疾病。然而,研究结果令他大为震惊。在这项实验中,ChatGPT在诊断病例时的平均得分为90%,而使用ChatGPT的医生得分仅为76%,没有使用AI的医生得分为74%。
Rodman博士表示,这项研究不仅展示了AI的优越性能,还揭示了医生在面对更优诊断建议时,常常对自己的判断过于自信而不愿接受AI的意见。
研究背后的实验细节
这项研究招募了50名医生,涵盖住院医师和主治医生,由多个美国大型医院系统参与。实验中,研究人员为医生提供了六个病例,要求他们列出可能的诊断并说明支持或反对这些诊断的理由,最终还需提交一个明确的诊断结果以及额外的诊断步骤。
所有病例基于真实患者病史,选自自上世纪90年代以来用于研究的105个经典病例。这些病例从未公开,以确保测试者无法提前获取相关信息,同时也排除ChatGPT曾被训练过这些病例的可能性。
一个测试案例涉及一名76岁的男性患者,在接受冠状动脉血管成形术后几天内出现下背部和腿部剧烈疼痛,同时伴随疲劳和发热。实验提供了详细的体检和化验数据,正确诊断为胆固醇栓塞。然而,无论是否使用AI,医生在这些复杂但并非极罕见的病例上普遍表现不佳。
AI诊断为何胜过医生?
研究发现,问题的核心在于医生如何诊断病情以及他们如何使用AI工具。
Brigham妇女医院的医学史学者Andrew Lea博士指出,医生的诊断过程往往很模糊,许多人依赖直觉或经验,这种不明确的思维方式使得模拟医生诊断逻辑的AI系统难以设计。
然而,与早期的诊断程序不同,基于大语言模型的AI(如ChatGPT)并未试图模仿人类的思维方式,而是通过对语言的预测能力来实现诊断功能。这种聊天界面使AI能够快速处理整个病例历史并给出全面的诊断建议,突破了传统系统的限制。
尽管如此,研究还揭示了一个重要问题:很多医生并未充分利用AI的能力。数据显示,医生通常只是将ChatGPT当作搜索引擎,通过提出直接的问题来获取答案,而很少有人意识到可以将整个病例历史复制粘贴给AI,要求其给出完整的诊断分析。这导致医生错过了AI提供的全面、智能的答案。
人为偏见与AI潜力
研究还发现,即使AI指出了与医生诊断不一致的细节,许多医生仍坚持自己的结论,不愿采纳AI的建议。Erasmus医学中心的诊断学专家Laura Zwaan表示,这种现象背后是人类的过度自信,“人们通常在自认为正确时对自己的判断过于确信”。
与此同时,信任问题也成为AI在医疗领域广泛应用的主要障碍之一。Stanford大学的医生兼计算机科学家Jonathan H. Chen表示,AI的潜力巨大,但要让医生学会正确使用这些工具,还有很长的路要走。
这项研究的意义不仅在于展示AI的能力,更在于推动医生学习如何与AI协作,使其成为诊断过程中的有力助手。AI未来或许无法完全取代医生,但它有望成为诊断中的“第二意见”,帮助医生提升效率并降低误诊率。