探索与分析：人工智能在金融领域的应用与挑战

文章主题：论文, 地址, 研究

5月17日，北美放射学会（RSNA）在权威放射学期刊Radiology公布了一项研究，ChatGPT通过了放射学考试，展示了大语言模型在医学领域的巨大应用潜力。（

论文地址：

https://pubs.rsna.org/doi/full/10.1148/radiol.230582 ）

本次考试，RSNA模仿了加拿大皇家学院和美国放射学委员会考试的风格和难度。一共150道选择题，ChatGPT回答对了104个，正确率69%达到及格。

GPT-4（ChatGPT plus）基于同样考试题目，回答对了121个，正确率81%高于及格线，这说明在高级推理方面GPT-4性能更好。

RSNA表示，ChatGPT在没有经过专业放射学数据训练的情况下，依然通过了难度较高的放射学考试，给人留下了深刻的印象。ChatGPT出色的信息总结能力、推理能力、分析能力，在医学领域有着巨大的应用潜力。例如，放射学教学、诊断分析、查询医学资料、疾病分类、简化复杂医学概念等。

但是，由于ChatGPT的很多原始预训练数据是 “黑盒数据”，很容易让其输出虚假、非法、歧视信息。例如，在本次考试中，ChatGPT在回答错误的考题中，依然自信满满地说“自己的回答是100%正确的”。

所以，医学领域如果想应用ChatGPT等大语言模型，需要专业的医学数据进行预训练和微调，才能获得更好的应用效果。

主要发现

在150 个没有图像的放射学选择题考试中，ChatGPT正确回答了其中的69%（104）。在需要低阶推理和理解的问题 (84%) 上，比在需要高阶思维 (60%) 的问题上表现更好。ChatGP与临床管理 (89%) 相关的高阶问题上表现良好，在涉及影像学发现描述 (61%)、计算和分类 (25%) 以及概念应用 (30%) 的问题上表现不佳。在150 个没有图像的放射学选择题考试中，GPT-4正确回答了其中的81%（121）。在影像学发现描述（85%）、和概念的应用（90%）的表现有着巨大提升。即便是回答错误了，ChatGPT也会100%地说“自己回答正确了”。

本次研究是在2023年2月25日—3月3进行，一共150道多选题，分为理解、应用、分析、物理、临床管理、计算和分类、疾病关联等，考题内容不涉及病人隐私数据。

为了评估ChatGPT的推理、拟人化能力，考题风格和难度匹配了，美国放射学委员会核心认证考试和加拿大皇家学院放射学考试，整体接近真实考试难度。