文章主题:大型语言模型, ChatGPT, 放射学, 性能评估
两篇最新的研究成果在北美放射学会(RSNA)的《放射学》期刊上发表,它们展示了ChatGPT的最新版本在通过放射学委员会式考试方面取得了重大突破,这不仅突显了大型语言模型的巨大潜力,同时也揭示了其可靠性的限制。
ChatGPT是一款由OpenAI研发的AI聊天机器人,它运用深度学习技术在其丰富的训练数据中挖掘词汇间的模式与联系,从而生成类似于人类的反响。然而,由于该工具的训练数据缺乏真实性,因此可能会产生实际上不准确的回应。
著名文章作家兼研究人员Rajesh Bhayana表示,大型语言模型如ChatGPT的使用正在呈爆炸式增长,且这种趋势预计将持续下去。作为加拿大多伦多大学医学影像综合医院的腹部放射科医生及技术负责人,Bhayana博士深入探讨了ChatGPT在放射学领域的表现,并强调了大型语言模型所具有的令人难以置信的潜力。同时,他也指出了当前在使用大型语言模型过程中所面临的不确定性 limitations。
Bhayana博士强调,近期,ChatGPT荣膺历史增长最快的消费级应用程序荣誉。与此同时,越来越多的聊天机器人正被纳入谷歌、必应等知名搜索引擎,为医生与患者提供便捷的医疗信息检索服务。
为评估ChatGPT在放射学委员会考试中的性能以及其优缺点,Bhayana博士及其团队首先采用了GPT-3.5对其进行了测试。在此过程中,研究人员针对ChatGPT的150道选择题进行了分析,这些题目旨在模仿加拿大皇家学院和美国放射委员会考试的格式、内容和难度。
在本篇文章中,我们将重点关注那些不涉及图像的问题,并根据其类型进行分类,以便更深入地探讨低阶(包括知识回顾和基本理解)以及高阶(如应用、分析和综合)思维的表现。针对高阶思维问题,我们将继续按照不同类型进行详细划分,包括影像学表现描述、临床管理、计算与分类以及疾病关联等方面的内容。
对ChatGPT的性能进行了全面评估,并按问题类型和主题进行了评估。还评估了语言对答复的信心。
研究人员发现,基于GPT-3.5的ChatGPT答对了69%的问题(150题中的104题),接近加拿大皇家学院使用的70%的及格分数。该模型在需要低阶思维的问题上表现相对较好(84%,61个中的51个),但在涉及高级思维的问题中表现不佳(60%,89个中的53个)。更具体地说,它在涉及成像结果描述(61%,46个中的28个)、计算和分类(25%,8个中的2个)以及概念应用(30%,10个中的3个)的高阶问题上遇到了困难。它在高阶思维问题上的糟糕表现并不令人惊讶,因为它缺乏放射学特定的预训练。
GPT-4于2023年3月以有限的形式发布给付费用户,特别声称它比GPT-3.5提高了高级推理能力。
在一项后续研究中,GPT-4正确回答了81%(150个中的121个)的相同问题,表现优于GPT-3.5,超过了70%的通过门槛。GPT-4在高阶思维问题(81%)上的表现远好于GPT-3.5,更具体地说,在涉及成像发现描述(85%)和概念应用(90%)的问题上。
研究结果表明,GPT-4声称的改进的高级推理能力转化为在放射学环境中增强的性能。他们还建议改善对放射学特定术语的上下文理解,包括成像描述,这对实现未来的下游应用至关重要。
Bhayana博士说:“我们的研究表明,在短时间内,ChatGPT在放射学中的性能有了令人印象深刻的改善,突出了大型语言模型在这方面日益增长的潜力。”
GPT-4在低阶思维问题上没有改善(80%对84%),回答了12个错误的问题,而GPT-3.5回答了正确的问题,这引发了与其信息收集可靠性相关的问题。
Bhayana博士说:“我们最初对ChatGPT对一些具有挑战性的放射学问题的准确而自信的回答感到惊讶,但后来同样对一些非常不合逻辑和不准确的断言感到惊讶。当然,考虑到这些模型是如何运作的,不准确的反应应该不会特别令人惊讶。”
ChatGPT产生不准确反应的危险倾向在GPT-4中不太常见,但这一点目前仍限制了其在医学教育和实践中的可用性。
这两项研究都表明,即使在不正确的情况下,ChatGPT也会始终如一地使用自信的语言回答用户。Bhayana博士指出,如果仅仅依靠信息来指导医疗,这尤其危险,尤其是对于新手来说,他们可能不会意识到自信的错误回答是不准确的。
AI时代,拥有个人微信机器人AI助手!AI时代不落人后!
免费ChatGPT问答,办公、写作、生活好得力助手!
搜索微信号aigc666aigc999或上边扫码,即可拥有个人AI助手!