人工智能对医疗领域的冲击：ChatGPT的表现如何？

文章主题：ChatGPT, 人工智能, 医疗领域, USMLE

近期，ChatGPT的问世引发了医疗行业的深度探讨，人们开始关注人工智能技术将在医疗领域产生何种影响，以及未来的医生是否会失业？据悉，OpenAI公司的程序员已经利用高版本的ChatGPT开展日常疾病的问诊工作，并根据ChatGPT的建议提供康复治疗，收到了良好的效果。此外，一篇尚未发表的论文显示，ChatGPT在美国医师执照考试（USMLE）中的表现已达到平均水平，准确率约为60%。

在我国，成为一名执业医师是一份极高的荣誉。那么，如果让ChatGPT参加这样的考试，它会取得怎样的成绩呢？最近，浙江大学医学院附属第一医院精神卫生科的研究人员正参与一项创新性的医学研究，他们希望通过引入人工智能技术，以更精确、高效地辅助临床医生的诊断。为了测试ChatGPT的技能，研究人员们设计了一套模拟执业医师考试的试卷。经过严格的评估，ChatGPT在这份百分制考试中取得了令人瞩目的成绩：57分。其中，基础知识的掌握程度获得了56分的分数，而临床技能的展现则得到了58分的评价。这个结果不禁让人惊叹于ChatGPT的学习能力和应用潜力。它不仅能够快速处理大量的信息，而且还能通过不断的学习和优化，提高自己的表现。然而，这并不意味着ChatGPT已经达到了人类医师的水平。相反，它的表现只是一个起点，一个向更高目标迈进的开始。在未来，我们期待看到更多类似的研究和应用，借助人工智能的力量，让医疗行业更加高效、精准。同时，我们也期待ChatGPT以及其他人工智能工具能够在未来的考试中取得更好的成绩，为我国的医学教育和发展做出更大的贡献。

考卷设置：十大科目涵盖基础题和专业实践题

因为ChatGPT是根据2021年之前的数据进行训练的，所以选用的题目来自于2020年的临床执业医师资格考试真题库，均为单选题。其中，浙大一院精神卫生科的研究团队成员吕海龙医生向我们透露，他们的题目主要由两部分组成，一是基础综合，主要考察的是基础的医学知识，二是专业综合和实践综合，这部分需要考生进行逻辑推理。

作为一篇具有高度专业性的文章，本文将详细探讨考试试卷中所涵盖的各个学科领域及其具体内容。根据相关资料，这份试卷共涉及十大科目，分别是生理学、医学微生物学、病理学、药理学、卫生法规、内科、外科、妇产科、儿科以及心理学-精神科。在具体的设计上，每个学科领域均包含10道题目，总计100道题目。值得注意的是，选择题目的方式尽量保持随机性，以保证考试结果的公平性和可靠性。通过这种方式，考生可以在测试自己知识掌握程度的同时，也能有效锻炼自己的应试能力。综上所述，这份考试试卷充分体现了全面的知识覆盖和严谨的考试设计原则，无论是对于医学专业的学子，还是对于其他领域的考生来说，都是一份极具参考价值的模拟测试工具。

成绩分析：掌握基本诊断推理但不擅长修正和推测

在猜想中，ChatGPT应该更擅长可背诵的医学知识，逻辑推理能力则较弱，但实践结果并非如此。

在实际操作中，我们观察到ChatGPT在面对一些显然是考试题目的问题时，有时会出现直接提供错误答案的情况，这可能是因为系统从中文网站上获取了错误的答案。然而，对于那些条件明确、逻辑严密的推理问题，ChatGPT的表现则相对稳定，能够准确地回答。这表明，ChatGPT在处理复杂问题时，其表现并不逊色于人类专家。

然而，在信息不完全或症状不够明显的情况下，AI的诊断可能出现偏差。其调整诊断的能力不足，难以根据具体情况做出合理推断。例如，仅凭部分模糊的主诉或症状，AI很难找到确切的病因。因此，如果ChatGPT在获取到足够的信息之前，可能会陷入困境，无法为患者提供有效的诊疗建议，这表明AI在实际操作中可能“猜测”能力不足。

ChatGPT对精神病学的知识也比较了解，能根据症状诊断抑郁症、焦虑症等，但是对于精神药物知识掌握不佳，例如，会推荐精神分裂症的患者服用抗抑郁药，来治疗主要症状。

“如果有两种同类型的药可以选择时（例如，该用利培酮还是氯丙嗪来治疗精神分裂症），它不会帮你做选择，而是严谨地提议根据医生的建议选择，可能自愧不如人类。而关于这两个药的选择，现在已有超多的研究证据证明利培酮的安全性优于氯丙嗪。ChatGPT给其他疾病选择药物时也常常选错，它的药理学考试也没有及格。”

ChatGPT喜欢做妇产科医生，它会给出很多理由来支持它的选择，虽然有时候选择是错的。另外，ChatGPT对于中国的医疗相关法律法规不够了解，这可能会给它在实践中招来一些麻烦。

考试结果：差点及格，儿科和心理科最好，内科最差

在提问过程中，针对不同题目，ChatGPT的回答速度不同。有些题是秒回，有些题需要更长时间“思考”，平均每题要花半分钟左右。ChatGPT对中文的理解完全没问题，有时会直接给出答案，有时给出一串相关知识，或者推理分析的过程。

提问进行到1小时时，系统提示“1小时内的问题太多了，请稍后再试”。看来，人工智能也是会累的嘛！（当然，也可能是这段时间访问量实在太大，系统无法承载）

最后经过统计，ChatGPT的正确率分别为：生理学40%、医学微生物学70%、病理学70%、药理学50%、卫生法规50%、内科30%、外科60%、妇产科60%、儿科70%，心理学-精神科70%，总分57分，差3分达到及格。

未来期待：辅助医生工作，引导前沿医学研究

对ChatGPT交出的答卷，吕海龙表示既有惊喜，也有很大不足。就现阶段技术水平来说，他希望医疗方向的AI产品能变成医学知识库，起码在识记类的题目上不能出错，必须100%正确，给出答案时最好标记出处，是引自某个教科书，还是引自网络信息。

而对于医疗方向AI产品的未来，精神卫生科主任胡少华教授则有着更为积极的展望：“医生把自己的知识经验传给它，医生不在病房时，病人可以直接去问这个机器，输出声音变成人的声音，并且最好它还能向患者提问。同时，AI在医学研究领域也可以大有作为，做研究的前沿导向者，随时给出新的医学诊断技术、治疗方法的发现。”

胡少华说，有关人工智能的对话，还在不断地完善当中。如今 AI 在识别、记忆、计算、逻辑思维、推理判断等方面已经可以达到甚至超越人脑，但还没有触及到智力的起点，即认知。只要AI还无法模拟人类的认知，它就不会全面超越人类，也就无法取代包括医生在内的诸多岗位，但在针对患者提供个性化的诊疗上，它却能够扮演重要角色——成为医生们最得力的智能助手。