AI完败于人类医生?研究发现:大模型临床决策草率且不安全
来源:学术头条 人类医生,会因为 ChatGPT 等大模型纷纷下岗吗? 这种担心,并非空穴来风。毕竟,谷歌的大模型(Med-PaLM 2)已经轻松拿下了美国医学执照考试,达到了医学专家的水平。 然而,一项最新研究表明:在临床方面,人类医生完胜目前的人工智能(AI)模型,无需过于担心个人“失业问题”。 相关研究论文以“Evaluation and mitigation of the limitations of large language models in clinical decision-making”为题,已于近日发表在科学期刊 Nature Medicine 上。 该研究发现,即使是目前最先进的大语言模型(LLM)也无法为所有患者做出准确诊断,且表现明显差于人类医生:医生的诊断正确率为 89%,而 LLM 的诊断正确率仅为 73%。在一个极端情况(胆囊炎诊断)下,LLM 正确率仅为 13%。 更令人惊讶的是,随着对病例信息的了解增多,LLM 的诊断准确度反而会降低,有时甚至会要求进行一些可能对患者有严重健康风险的检查。 化身急诊科医生,LLM 表现如何? 尽管 LLM 可以轻松拿下美国医学执照考试,但医学执照考试和临床案例挑战适合只测试考生的一般医学知识,难度远不如日常复杂的临床决策任务。 临床决策是一个多步骤的过程,需要从不同来源收集和整合数据,并不断评估事实以达成基于证据的患者诊断和治疗决策。 为了进一步研究 LLM 在临床诊断中的潜力,来自慕尼黑工业大学的研究团队及其合作者基于医疗信息市场重症监护数据库(MIMIC-IV)制作了一个涵盖 2400 个真实患者案例和 4 种常见腹部疾病(阑尾炎、胰腺炎、胆囊炎和憩室炎)的数据集,模拟现实的临床环境,重现从急诊到治疗的过程,从而评估其作为临床决策者的适用性。 图|数据集来源及评估框架。该数据集来源于...