学术经纬

近期“火”出天际的基于对话人工智能(AI)大型语言模型ChatGPT发布5天,就有超过100万的用户;发布2个月后,活跃用户数直接飙升到1个亿。关于ChatGPT的新闻一直未停止,最近ChatGPT通过了美国相当具有挑战性的三大专业考试:美国医学执业考试(USMLE)、律师资格证考试、沃顿商学院MBA考试。

既然ChatGPT功能如此“逆天”,也通过了USMLE考试,那是否可以作为线上咨询与问诊的辅助工具呢?

近日,《美国医学会杂志》(JAMA)发表研究性简报,针对以ChatGPT为代表的在线对话人工智能模型在心血管疾病预防建议方面的使用合理性进行探讨,表示ChatGPT具有辅助临床工作的潜力,有助于加强患者教育,减少医生与患者沟通的壁垒和成本,但尚存在诸多问题需要解决。

截图来源:JAMA

ChatGPT进行医学问答,靠谱吗?

根据现行指南对CVD三级预防保健建议和临床医生治疗经验,研究人员设立了25个具体问题,涉及到疾病预防概念、风险因素咨询、检查结果和用药咨询等。每个问题均向ChatGPT提问3次,记录每次的回复内容。

每个问题的3次回答都由1名评审员进行评定,评定结果分为合理、不合理或不靠谱,3次回答中只要有1次回答有明显医学错误,可直接判断为“不合理“。

合理:3次回答内容基本一致,与评审员自身给出的答案大体相似。不合理:3次回答内容基本一致,但与评审员自身给出的答案不一致。不靠谱:3次回答内容互不相同,且与评审员自身给出的答案不一致。

评审员会提前针对问题,给出答案,例如:

问题:“如何预防心脏病?”评审员答案:“有几种方法可以预防心脏病,包括:1.低盐、低饱和脂肪和低糖健康饮食;2.定期开展体育活动;3.保持健康的体重;4.戒烟;5.管理压力;6.定期检查身体、血压和胆固醇水平;7.如果患有糖尿病,需要控制血糖水平的合理范围。通过采取以上措施,有助于降低罹患心脏病的风险,建议您与医生沟通与自身相关的患病危险因素,以及是否需要预防性用药以降低患病风险。”

结果显示,ChatGPT的合理概率为84%(21/25)。

▲心血管预防相关问题和ChatGPT回答结果判断(截图来源:参考文献[1])

错误表现为预防措施推荐不合理或概念解释不清晰等,如:

问题:“我应该做什么运动来维持健康?”ChatGPT同时推荐了普通心血管相关活动和举重,但这并不准确,因为可能对部分患者有害。

问题:“inclisiran是什么?”ChatGPT:“这个在市面上无法购买到。”

仅从这25个问题的回答来看,在线对话人工智能模型回答CVD预防问题的结果较好,具有辅助临床工作的潜力,有助于加强患者教育,减少医生与患者沟通的壁垒和成本。例如在线问诊时可做简单的就诊前对话沟通。

但ChatGPT同样存在问题,例如ChatGPT的回答过于“学术范”,如果将来要用到患者教育上,实用性价值很低。本次研究仅列举了25个问题,而CVD的概念很广泛,这25个简单问题并不能囊括所有。此外,人工智能工具的时效性、准确性和可靠性对训练模型数据要求很高,关于“inclisiran是什么?”的错误回答,主要在于最新信息并未及时更新,而且目前ChatGPT的回答都没有给出具体的参考文献或是证据来源。

ChatGPT写论文,人工智能可以算作者吗?

ChatGPT的应用场景远不止医学问答或在线问诊,论文写作开始成为新的尝试方向。人们赫然发现,ChatGPT竟然以作者身份出现在了学术论文中。

截图来源:med Rxiv

发表于《护理教育实践》(Nurse Education in Practice)的一篇关于人工智能在护理教育方面的应用文章,ChatGPT同样被列为第二作者。

ChatGPT爆火,AI会替代医生吗?Nature/JAMA等顶刊纷纷“下场”

截图来源:Nurse Education in Practice

虽然将ChatGPT列为作者的文章大多涉及到人工智能,甚至内容本身就与ChatGPT相关,但还是引发了学术界的担忧和争议,《自然》(Nature)对此发起了关于AI写论文能否被接受的在线调研。

截图来源:Nature

目前,多数学者并不认可ChatGPT列为作者。

截图来源:Nature

Nature后续也发表声明,明确表示:任何大型语言模型工具(如ChatGPT)都不能作为论文作者,如在文章中使用过相关工具,需要在“方法“或”致谢“等位置有明确说明。这项要求目前已经被加入Nature的作者投稿指南中。

截图来源:Nature

ChatGPT与文本摘要,“李逵” vs. “李鬼” ?

伊利诺伊州芝加哥西北大学的研究人员要求ChatGPT根据发表在顶级期刊《美国医学会杂志》(JAMA)/《新英格兰医学杂志》(NEJM)/《英国医学杂志》(BMJ)/《柳叶刀》(the LANCET)/《自然-医学》(Nature Medicine)的精选文章,撰写50篇医学摘要。使用查重系统检测重复率,并与原始摘要做对比,同时让人工智能检测器(检测内容是否为机器生成)和研究人员鉴别哪些是ChatGPT生成的摘要,哪些是原始摘要。

结果发现ChatGPT生成的摘要查重率为0%,查重系统判定为100%内容原创。人工智能检测器发现了66%的摘要为机器生成,研究人员对机器生成摘要和真实摘要识别准确率分别为68%和86%,换句话说,研究人员错误的将32%机器生成摘要判断为真实摘要,将14%真实摘要判定为机器生成。

截图来源:Nature

这引发了更为广泛的担忧。

如果专业的学者都无法判断出哪些内容信息属实,这产生的不良后果将是无法估量的。来自普林斯顿大学的计算机专家Arvind Narayanan更是表示:“任何严肃的科学都不太可能使用ChatGPT来自动生成摘要”。第四十届国际机器学会会议直接宣布:禁止使用ChatGPT和其他AI语言工具撰写的论文。

ChatGPT在医学领域的机遇和挑战

时至今日,人类仍然在探索神秘的医学领域。作为一门高壁垒的学科,ChatGPT在医学领域的适用场景仍然具有很大的想象力,医学科普、在线问诊、医学笔记速记等等。但诚如前面诸多学者和出版商提出的挑战和担忧,人工智能在医学领域的实际落地和造福人类,还有很长的路要走。

如何评估ChatGPT内容的准确性?ChatGPT生产的内容是否受到版权保护?ChatGPT生成错误的内容,甚至歪曲科学事实对患者造成身体伤害,责任要如何界定?ChatGPT真的比人类做的更好?……

近日,Nature发表社论,针对ChatGPT等大型语言模型产品在科学研究中的应用,提出5大重点事项。

截图来源:Nature

1、坚持人工验证

对话式的人工智能回答专业问题,可能带来不准确、抄袭等问题。社论作者要求ChatGPT总结自己发表在JAMA Psychiatry的综述《关于认知行为疗法对焦虑障碍的作用》,发现ChatGPT捏造了一个看起来正确的答案,而且夸大了认知行为疗法作用,这类问题可能是因为训练使用的数据集样本不足所致。

因此,对于研究中使用到ChatGPT,人工核验步骤必不可少,甚至必要时可能需要禁用相关程序。因为,人类需要对科学实践负责。

2、制定问责制度

科学论文撰写过程中,如果使用了ChatGPT,需要在作者贡献说明和致谢部分明确结实,在论文选题、数据分析等步骤和内容是否使用了ChatGPT,以及使用的比例有多大等,这些都需要公开透明。

此外,ChatGPT的爆火,也推动了人们对专利法的新思考,特别是对于内容作者的定义将会更加明确。

3、真正开放式的大型语言模型

据悉,BigScience建立了开源语言模型“BLOOM”,开源部分模型和语料库,这意味着将有更多机构参与到大型语言模型训练中,有利于开发更为开源和透明的人工智能技术。

4、拥抱人工智能

人工智能的应用有优有劣,需要正确认识人工智能的作用,开展研究创新。

5、扩大对ChatGPT的讨论

ChatGPT还尚属于早期应用阶段,更多探讨和研究可以让人们更为全面的认识大型语言模型产品,这无疑是有利且合理的。