AI医师助手
学术经纬 近期“火”出天际的基于对话人工智能(AI)大型语言模型ChatGPT发布5天,就有超过100万的用户;发布2个月后,活跃用户数直接飙升到1个亿。关于ChatGPT的新闻一直未停止,最近ChatGPT通过了美国相当具有挑战性的三大专业考试:美国医学执业考试(USMLE)、律师资格证考试、沃顿商学院MBA考试。 既然ChatGPT功能如此“逆天”,也通过了USMLE考试,那是否可以作为线上咨询与问诊的辅助工具呢? 近日,《美国医学会杂志》(JAMA)发表研究性简报,针对以ChatGPT为代表的在线对话人工智能模型在心血管疾病预防建议方面的使用合理性进行探讨,表示ChatGPT具有辅助临床工作的潜力,有助于加强患者教育,减少医生与患者沟通的壁垒和成本,但尚存在诸多问题需要解决。 截图来源:JAMA ChatGPT进行医学问答,靠谱吗? 根据现行指南对CVD三级预防保健建议和临床医生治疗经验,研究人员设立了25个具体问题,涉及到疾病预防概念、风险因素咨询、检查结果和用药咨询等。每个问题均向ChatGPT提问3次,记录每次的回复内容。 每个问题的3次回答都由1名评审员进行评定,评定结果分为合理、不合理或不靠谱,3次回答中只要有1次回答有明显医学错误,可直接判断为“不合理“。 合理:3次回答内容基本一致,与评审员自身给出的答案大体相似。不合理:3次回答内容基本一致,但与评审员自身给出的答案不一致。不靠谱:3次回答内容互不相同,且与评审员自身给出的答案不一致。 评审员会提前针对问题,给出答案,例如: 问题:“如何预防心脏病?”评审员答案:“有几种方法可以预防心脏病,包括:1.低盐、低饱和脂肪和低糖健康饮食;2.定期开展体育活动;3.保持健康的体重;4.戒烟;5.管理压力;6.定期检查身体、血压和胆固醇水平;7.如果患有糖尿病,需要控制血糖水平的合理范围。通过采取以上措施,有助于降低罹患心脏病的风险,建议您与医生沟通与自身相关的患病危险因素,以及是否需要预防性用药以降低患病风险。” 结果显示,ChatGPT的合理概率为84%(21/25)。 ▲心血管预防相关问题和ChatGPT回答结果判断(截图来源:参考文献[1]) 错误表现为预防措施推荐不合理或概念解释不清晰等,如: 问题:“我应该做什么运动来维持健康?”ChatGPT同时推荐了普通心血管相关活动和举重,但这并不准确,因为可能对部分患者有害。 问题:“inclisiran是什么?”ChatGPT:“这个在市面上无法购买到。” 仅从这25个问题的回答来看,在线对话人工智能模型回答CVD预防问题的结果较好,具有辅助临床工作的潜力,有助于加强患者教育,减少医生与患者沟通的壁垒和成本。例如在线问诊时可做简单的就诊前对话沟通。 但ChatGPT同样存在问题,例如ChatGPT的回答过于“学术范”,如果将来要用到患者教育上,实用性价值很低。本次研究仅列举了25个问题,而CVD的概念很广泛,这25个简单问题并不能囊括所有。此外,人工智能工具的时效性、准确性和可靠性对训练模型数据要求很高,关于“inclisiran是什么?”的错误回答,主要在于最新信息并未及时更新,而且目前ChatGPT的回答都没有给出具体的参考文献或是证据来源。 ChatGPT写论文,人工智能可以算作者吗? ChatGPT的应用场景远不止医学问答或在线问诊,论文写作开始成为新的尝试方向。人们赫然发现,ChatGPT竟然以作者身份出现在了学术论文中。 截图来源:med Rxiv 发表于《护理教育实践》(Nurse Education in Practice)的一篇关于人工智能在护理教育方面的应用文章,ChatGPT同样被列为第二作者。 截图来源:Nurse Education in Practice 虽然将ChatGPT列为作者的文章大多涉及到人工智能,甚至内容本身就与ChatGPT相关,但还是引发了学术界的担忧和争议,《自然》(Nature)对此发起了关于AI写论文能否被接受的在线调研。 截图来源:Nature 目前,多数学者并不认可ChatGPT列为作者。 截图来源:Nature Nature后续也发表声明,明确表示:任何大型语言模型工具(如ChatGPT)都不能作为论文作者,如在文章中使用过相关工具,需要在“方法“或”致谢“等位置有明确说明。这项要求目前已经被加入Nature的作者投稿指南中。 截图来源:Nature ChatGPT与文本摘要,“李逵” vs. “李鬼” ? 伊利诺伊州芝加哥西北大学的研究人员要求ChatGPT根据发表在顶级期刊《美国医学会杂志》(JAMA)/《新英格兰医学杂志》(NEJM)/《英国医学杂志》(BMJ)/《柳叶刀》(the LANCET)/《自然-医学》(Nature Medicine)的精选文章,撰写50篇医学摘要。使用查重系统检测重复率,并与原始摘要做对比,同时让人工智能检测器(检测内容是否为机器生成)和研究人员鉴别哪些是ChatGPT生成的摘要,哪些是原始摘要。 结果发现ChatGPT生成的摘要查重率为0%,查重系统判定为100%内容原创。人工智能检测器发现了66%的摘要为机器生成,研究人员对机器生成摘要和真实摘要识别准确率分别为68%和86%,换句话说,研究人员错误的将32%机器生成摘要判断为真实摘要,将14%真实摘要判定为机器生成。 截图来源:Nature 这引发了更为广泛的担忧。...