AI大战10位华西医生的背后

AI时代到来，人工智能医生可以给我们多少想象空间？

近日，在成都某医院，举行了一场“AI医生”与真人医生的一致性评测。

简单来说，就是直接让GPT医生和人类主治级别以上的医生直接现场诊断直播PK，现场有120多位真实患者及10位来自四川大学华西医院的心内科、消化内科、呼吸内科、内分泌科、肾脏内科、骨科、泌尿外科的主治及以上医师，然后跟GPT医生同时现场开展对患者问诊。

AI医生vs真人问诊

差距在哪里？

据悉，活动当天，现场有7个科室、8个问诊台，包括两个心内科、泌尿科、骨科等。每个问诊台都配备有一名医生助理，负责将患者的病症以文字形式传递给“AI医生”MedGPT，同时真人医生在问诊系统内也会同步得到患者信息。

此次AI医生义诊活动主办方医联的工作人员表示，为了保证MedGPT评测结果的真实性，真人医生并没有与患者面对面进行问诊。“这次评测绝不是一次AI与真人的PK，开发MedGPT的目的，是希望通过不断优化，将来可以将这款‘AI医生’应用到辅助真人医生问诊中。”

该名工作人员表示，MedGPT主要是解决病患的首诊问题，比如常见病中的头疼脑热等，帮助真人医生了解并判断病患可能得病的范围。同时，MedGPT可以让患者更了解自己的病症及如何在治疗期间搭配饮食等。

此次评测的同一病例，有MedGPT与真人医生分左右两屏进行实时对比。

▲“AI医生”（右）与真人医生问诊对比，图源红星新闻

观察后发现，MedGPT在问诊时，过程详细，将所有可能性一次给出，同时将多项问题显示在对话中，通过患者不断回答提问，不断排除无关项，得到相对小范围的可能结果。而真人医生的问诊过程，直观感受是简洁、明了。

比如，一名58岁的女性患者表示自己经常有腹胀、打嗝的问题。

不久，MedGPT首先明确该患者症状与消化系统相关，并引导患者对症状进行描述，比如“腹胀和打嗝是慢慢出现还是突然出现的”“持续了多久”“有没有其他症状”等。该患者回答，一年前开始有腹痛伴随腹胀、打嗝、口干口苦等症状。

而真人医生面对该症状，首先提问的是患者的身高、体重、精神状态等基础问题。在得到患者答复后，开始提问是否有反酸、烧心等感受，同时还问到患者的睡眠、饮食等问题。在得到患者回答睡眠差但饮食尚可后，真人医生继续询问是否有高血压、糖尿病等。该患者均否认。

而MedGPT的回应则是进一步告知患者，症状可能与胃肠道功能紊乱有关，并抓住之前并未掌握的“腹痛”问题追问“您的腹痛是持续存在还是阵发性的”“痛感在哪个位置”“有无腹泻、便秘等症状”。患者回复：“没有很痛，主要是腹胀。”接着MedGPT也问到是否有反酸、烧心的感受。

得到回答后，MedGPT开始询问家族病史与患者本人既往病史、过敏史，还问了患者是否曾做过手术。患者回复曾做过子宫肌瘤手术，无过敏史。同样，真人医生也问了类似问题。

通过对比发现，真人医生相较于MedGPT，多了关于饮食习惯的问题。该患者回复喜欢吃辛辣食物，烧心的感受在吃辛辣食物后出现。MedGPT和真人医生的检查建议都包括腹部彩超、胃肠功能检查、胃镜检查。经过查看检查结果，真人医生判定是脂肪肝，开出莫沙必利片并建议患者多运动。

MedGPT在得到脂肪肝的信息后，没有直接给出建议，而是继续询问患者身高体重。在算出体重指数属正常范围但接近“过重”后，建议患者做慢跑、瑜伽等运动。紧接着又追问患者的饮食是否规律、作息是否规律。在得到肯定回答后，又建议患者多吃水果蔬菜并多喝水；最终，MedGPT并未给出服药建议。

AI与真人问诊结果一致性达96%

最终，经过来自北大人民医院、中日友好医院、阜外医院和友谊医院的7位专家教授，针对GPT医生和人类医生现场诊断所形成的91份有效病例进行审核，重点针对AI医生的问诊准确性、诊断准确性、治疗建议准确性、辅助检查方案准确性、数据分析准确性、提供可解释信息、自然语言问诊与交互这7个评价维度的打分之后。

最终，真人医生综合得分为 7.5分，AI 医生综合得分为 7.2分。AI医生与三甲主治医生在比分结果上的一致性达到了96%。

这就意味着GPT医生在我们常规的一些科室的疾病方面的诊断准确率，跟真人的主治医生及以上专家的诊断水平齐平。并且在患者提供的检查治疗与病情描述清晰的情况下，GPT医生出现的误诊、漏诊的概率就非常小。专家评审团认为，GPT医生的知识覆盖面是超过一些经验并不是很充足的真人医生的。

在当晚的线上直播点评中，北大人民医院骨科主任医师薛峰表示，自己对“AI医生”问诊结果整体感觉还不错。“我感觉AI医生的语言内容翔实，真人医生看病时与病人对话少，给病人的信息少。比如对于女性患者，AI医生会问经期、孕期等，真人骨科医生则很少问。”

同时，薛峰也提出，骨科医生在问诊时最重要的是“查体”，实际是检查患者的骨骼问题，但AI医生MedGPT无法做到，还是需要借助真人完成。

中日友好医院呼吸科主任医师刘国梁表示，“AI医生能想到所有的患病可能性和诱因，在药物过敏等各个维度都会考虑到，这一点有利于帮助真人医生自身的知识结构完善和拓展。但AI医生容易出现重复推荐检查项目，有一些检查项目是没有必要的。”

主办方工作人员表示，目前，MedGPT已经可问诊3000多种常见病症，今年年底将完成第一阶段的测试，届时它的可问诊病症数量将有更大幅度提升。

关于AI医生的想象

当前，在需求、政策、资本和技术的共同驱动下，智慧医疗产业正进入高速发展期，而AI医生也为我们的就医带来了更多的想象！

据人民网报道，2018年，美国食品和药物监管局（FDA）首次批准了一种人工智能诊断设备IDx-DR，该设备可以通过观察视网膜的照片来检测一种眼科疾病，并且不需要专家医生的参与。也就是说，IDx-DR有了上岗证，成为了一名真正的“医生”。

在医疗AI方面，国内发展并不比国外慢，2017年5月5日，中山大学眼科中心开了全球首个“AI眼科医生门诊”;2018年2月，广州市妇女儿童医疗中心研发的能同时诊断眼病和肺炎的人工智能系统登上了世界顶级期刊Cell封面;2018年5月8日，国家神经系统疾病临床医学研究中心启动全球首场围绕神经系统疾病影像诊断的“人机大赛”备战……

在2021年，同样也有一场类似的“比赛”，全球首届糖尿病综合管理国际人机大赛上，就有来自中外的6名人类医生与平安AskBob AI医生进行了比赛，6名人类医生被分为了3组，每组2人，分别独立回答3个病例，而AI医生需要完成全部9个病例的诊疗方案的比赛中，最终AI医生以92.4分vs人类医生团队89.5分的优势，成为最后的赢家，而这也是AskBob AI医生的第三次胜利。

▲ 参赛医生分别来自北京大学人民医院、北京大学国际医院、新加坡中央医院和巴西圣保罗大学里贝朗普雷图医院。图源每日人物

从前文MedGPT与华西医生的比赛中，我们能够感受到，在使用AI进行辅助医疗决策时，提供内容更翔实，而这更符合患者在就诊的期待，得到更多关于病情的信息。

清华大学新闻学院新媒体研究中心主任、AI专家沈阳在接受人民日报健康客户端采访时表示，在发展程度相对较低地区，不是所有医生的水平都达到了极高水平，所以AI将会先超过一部分医生的水平，在这种情况下“AI医生”将在某些地区扮演较为重要的角色，而就顶级医院而言，当AI超过优秀医生能力时，AI将慢慢演变为医生学习及模仿的对象，从而更好的辅助医生的工作。

据知识分子报道，中国工程院院士、清华大学临床医学院院长董家鸿曾在一次论坛中表达过类似观点，“全国只有360万医生，但中国老龄人口已经达到2.48亿，确诊为慢病患者的人数超过3亿，相对于整个社会的健康医疗服务需求，中国的医疗资源供应不足，基层和边远地区更是十分匮乏，而且资源配置严重不均衡、结构严重不合理的问题十分突出。智慧医疗有望成为解决医疗供需矛盾，提高成本效益的新的策略。”