药明康德 2023-05-11 07:43发表于美国

随着全球互联网医疗加速发展,线上问诊成为了患者的新选择。一项纳入美国近千名临床医生的观察性研究显示,近几年临床医生收到患者的电子信息数量增加了1.6倍,而每条信息增加了医生约2.3分钟的工作量。在医生非常忙的情况下,患者的需求有可能得不到有效解答或得到无益的回答。此外,针对安排预约、查看检查结果等需求,临床医生所需要的回答技巧更高、所花费的时间也比回复一般信息要更长。

人工智能(AI)助手有望为医生减轻这方面的信息负担,但是目前大量的AI公共工具尚不能识别最基本的健康问题,那么ChatGPT是否能改变这一现状呢?近日,JAMA Internal Medicine发表重要横断面研究,通过随机抽取公共医疗健康问题数据库的医疗问题,开展了一场ChatGPT与临床医生之间的“人机大赛”!令人意外的是,AI聊天机器人在回答问题的专业性和人性化两个方面,似乎都完胜临床医生。

“人机大赛”,ChatGPT能胜过临床医生吗?

截图来源:JAMA Internal Medicine

大型自然语言处理模型ChatGPT的面世,是AI技术领域最重磅的进展之一。自2022年11月30日发布后,ChatGPT在64天内拥有了超1亿用户。ChatGPT能够在不同类型话题中编写近乎人类质量的文本,目前已经得到广泛认可。

论文指出,虽然ChatGPT系统并非开发用于提供医疗保健,但其帮助患者解决问题方面的能力值得我们探索。当前这项研究比较了聊天机器人与医生针对公共社交媒体论坛上发布的问题的不同回答,并评估了ChatGPT对患者医疗保健问题高质量与共情回答的能力。

这项横断面研究收集的公共/患者问题、医生回复来自公共社交媒体论坛(Reddit的r/AskDocs在线论坛)上的一个公共医疗健康问题数据库。具体而言,当前研究共随机抽取了2022年10月期间的195个医疗健康问题(包含临床医生的回复)。

“人机大赛”,ChatGPT能胜过临床医生吗?

图片来源:123RF

在2022年12月22日和23日,研究人员将问题的原始全文放入新建(之前没有任何对话)的聊天机器人会话(version GPT-3.5)中,并保存聊天机器人的回复答案。随后,由医疗保健专家小组对原始问题、医生回答、聊天机器人回答进行盲法评估。

研究结果显示:医生回答的平均字数显著少于聊天机器人的回答(52个单词[17-62] vs. 211个单词[168-245];t=25.4;P<0.001)。此外,在195个问题的回答中,专家组在585次评估中有78.6%(95%CI=75.0%~81.8%)更欣赏聊天机器人的回答,而不是医生的回答。

评估结果还显示,聊天机器人的问题回答质量要显著高于医生的问题回答质量(t=13.3;P<0.001)。例如,聊天机器人被评为“良好”或“非常好”的回答比例达到78.5%(95%CI=72.3%~84.1%),而医生被评为“良好”或“非常好”的回答比例仅为22.1%(95%CI=16.4%~28.2%),聊天机器人“良好”或“非常好”的回答数量要比医生高出3.6倍

“人机大赛”,ChatGPT能胜过临床医生吗?

▲针对同一问题,医生与聊天机器人的回答实例(图片来源:参考资料1)

论文强调,聊天机器人的回答也比医生的回答显著更有同情心(t=18.9;P<0.001)。聊天机器人“善解人意”或“非常善解人意”的回答比例明显要高出医生,分别为45.1%(95%CI=38.5%~51.8%)和4.6%(95%CI=2.1%~7.7%)。这相当于聊天机器人的善解人意或非常善解人意的回答比例要高出医生9.8倍之多。

总体而言,当前这项研究通过公共医疗健康问题证实,聊天机器人的回答不仅比医生的回答更长,且聊天机器人的回答在质量和同理心上都被评定为显著更高。医疗保健专业评估者通常更喜欢聊天机器人生成的回答而不是医生的回答。

论文强调,ChatGPT有望成为临床医生起草医疗健康咨询回答的助手,帮助繁忙的临床医生减轻工作负担,并更好地为患者提供服务,从而改善患者结局。

参考资料

[1] Ayers JW, Poliak A, Dredze M, et al. Comparing Physician and Artificial Intelligence Chatbot Responses to Patient Questions Posted to a Public Social Media Forum. JAMA Intern Med. Published online April 28, 2023. doi:10.1001/jamainternmed.2023.1838