一项研究表明,将30位患者的医疗信息输入ChatGPT后,系统给出了高于医生的正确诊断率。
撰文 | 凌骏
在三年拜访了17位医生无果后,一位走投无路的母亲决定求助于人工智能。她花了一整夜时间,将孩子历次的病历和检查报告逐行输入了ChatGPT。
“无论我们看了多少医生,他们只会解决各自专业领域的问题。”根据海外媒体《今日网》9月14日报道,母亲科特妮表示,多年来孩子反复遭遇慢性疼痛、睡眠障碍、走路不稳等症状。寻医之路历经坎坷,直到那晚人工智能给出了“脊髓栓系综合征”的诊断,并在随后被医生证实。
“这种病的发病率大约在千分之二,不属于罕见病范畴,但因为临床表现多样、大量患者的定性诊断指标又不明显,误诊漏诊屡见不鲜。”浙江大学医学院附属儿童医院神经外科副主任沈志鹏告诉“医学界”,他碰到过大量已跑遍了国内多家医院的患儿家庭。
人工智能以海量、深度的信息训练而著称。9月9日发布于《急诊医学年鉴》的一项研究同样显示,将30位“复杂”患者的医疗信息输入ChatGPT后,系统给出了97%的正确诊断率,同一条件下急诊科医生的正确率则为87%。
未来,人工智能会成为医生的得力助手,还是会取代部分医生的工作岗位?
三年看了17位医生
根据《今日网》报道,患儿亚历克斯在4岁时突然开始牙痛。“我们必须每日给他服用布洛芬,否则疼痛会让他无法正常生活。”母亲科特妮称。
那是在2020年新冠疫情期间,科特妮首先带着孩子来到口腔诊所做了全面检查,在排除臼齿疼痛,蛀牙等一系列可能后,医生认为症状或是由于磨牙引起,并将其介绍给了另一位主攻牙齿正畸的专家。
在第二家牙科诊所,主治医师认为亚历克斯存在“气道阻塞”,他的上颚形态对于嘴和牙齿来说过小,使得睡眠期间会发生呼吸困难,影响睡眠质量并加剧痛感。医生为他安装了上颚扩张器。
这次治疗后,亚历克斯睡眠、呼吸和疼痛等症状得到了暂时缓解,但一家人又察觉到孩子的生长发育似乎总是慢同龄人半截,又带他去看了儿科。在儿科门诊,医生认为是牙科方面的问题影响了孩子发育,并选择保守治疗观察。但到了2021年,亚历克斯的症状恶化,他开始出现坡脚,行走时身体失衡。
再次前往儿科复诊,医生同样没能给出确切病因,只是建议采取康复治疗。同一时期,亚历克斯又发作了反复的剧烈头疼,神经科医生诊断为偏头痛,开具了相应的止痛药物。睡眠障碍和精力不足的问题也再次出现,在耳鼻喉科,医生认为或是由鼻窦方面的问题导致。
在康复治疗的过程中,一位康复医生还判断,亚历克斯可能患有“小脑扁桃体下疝畸形(chiari畸形)”,这是一种先天性的疾病,由后颅窝内发育异常导致脑干和延髓功能受到影响。“其临床表现确实和部分脊髓栓系综合征病人有些相似。”沈志鹏告诉“医学界”。
科特妮找到了一线生机。随后,她带着孩子又拜访了相关科室的专家,儿科、内科、骨科……直到chiari畸形的可能性被再次排除。
三年时间里,每当出现一个新的疾病症状,科特妮都会带着亚历克斯奔波在相应科室间,前后共看了17位医生,“没有人能解决本专业外的问题”,科特妮表示,没有任何关于确切诊断的线索。
直到某天失眠夜,科特妮突发奇想,她打开电脑注册了ChatGPT的账号,整理并上传了孩子多年来的典型症状和检查结果,包括核磁共振数据等。系统给出回复:脊髓栓系综合征,这是她从来没听过的疾病。
借助ChatGPT 提供的信息,科特妮又找到了一个针对脊髓栓系综合征患儿家庭的病友群,并联系到相应的神经外科医生。结合亚历克斯的症状与核磁共振结果,医生证实了ChatGPT的猜想,并很快为其完成了手术治疗。
技术层面诊断不难,但ChatGPT“想”到了
亚历克斯患的是“隐匿性脊髓栓系综合征”。
脊髓栓系综合征,是指由于各种先天和后天原因引起脊髓或圆锥受牵拉,产生一系列神经功能障碍和畸形的综合征,发病率大约在1/1000~1/5000。通常情况下,诊断标准是核磁共振中,患儿脊髓圆锥低于腰2椎体下缘、终丝脂肪浸润或直径>2mm。“新生儿体检也能排查出大量患儿,特征是骶尾部尾骨尖上存在先天皮肤凹陷。”沈志鹏说。
但“隐匿性”则意味着单凭客观检验检查指标,并不能断定是否患病。据沈志鹏介绍,约有超50%的患儿磁共振检查一系列指标均为阴性。随着疾病进展,常见的临床症状是排尿、排便功能障碍。“不少患者会先前往泌尿系统的科室就诊。”沈志鹏说,此外患者还可能出现头疼、肌肉疼痛,下肢麻木、畸形等一系列症状。个体间也具有差异性。
治疗则是通过手术。沈志鹏所在的浙儿神经外科每年要为超800位患者提供治疗,而随着微创技术发展,治疗方案目前十分成熟,创口小、效果也好。“最大的痛点还是前期诊断难。”
患儿年纪小,对自身症状主诉不清,同时脊髓栓系综合征的临床表现又多样,与常见疾病有诸多相似。“哪怕是在大型医院,随着亚专科越分越细,专科医生能否根据不同领域的综合知识给出疾病线索?目前看来总体做得也并不好。我们碰到过不少患者因延误诊断,治疗不及时导致并发神经源性膀胱,这往往是不可逆的。”
在沈志鹏看来,本次ChatGPT的成功诊断,正好反映了一位神经外科医生诊断隐拟性脊髓栓系综合征的典型过程。
“隐匿性患者虽然磁共振表现不典型,但影像检查也会反映出一些介于‘异常’与‘正常’间的蛛丝马迹。”沈志鹏说,“同时我们会综合患儿的症状。比如,单纯排尿有些许异常并不能说明问题,但若同时出现了大便异常、肢体麻木、疼痛等诸多症状,或者在治疗后改善不佳,我们会根据结合临床经验,给予确诊和治疗。”
神经外科医生的诊断依赖于对病例的综合思考,背后是长期的临床经验、医学文献阅读,以及学术会议授课等给予的指导。但ChatGPT可以迅速完成这所有的步骤。
“通过被海量的‘喂’医学信息和深度学习,ChatGPT的综合知识掌握远超常人,同时还具有较强的关联不同数据的能力,能够注意到一些容易被医生忽略,不明显的指标。”北京某高校计算机系教授黄为告诉“医学界”,“经过计算,它能迅速给出最有可能的答案排序。”
根据本月9日发表在《急诊医学年鉴》的研究,来自荷兰的学者提供了30位复杂病例的诊断信息,包括体征、血液和尿液分析等指标,平均诊断正确率上ChatGPT略胜于该院急诊科医生。在一个案例中,患者出现反复关节疼痛、肿胀、发烧、喉咙痛等症状,依照体检和实验室检查结果,医生认为最有可能的病因是风湿热,但ChatGPT给出的则是血管炎——这是正确的。
而涉及到诊断、治疗方式和处方的全流程,今年8月美国哈佛大学附属麻省总医院的另一项类似研究则显示,ChatGPT的综合正确率为72%,相当于住院医师的水平,但远低于资深医师。研究人员表示,ChatGPT可以让初级医疗保健更容易获得,并减少患者就诊时的等待时间。
沈志鹏认为,在疾病初筛方面,尤其对于基层医疗系统,类似ChatGPT的AI工具能帮助患者少走很多弯路。
近年来,沈志鹏和团队频繁参加各类学术活动,普及脊髓栓系综合征的正确诊断和治疗。“在技术上,这个疾病的诊断并不复杂。即便基层医院无法进行相应手术,和ChatGPT一样,但凡医生能想到这个点,再建议患者前往大医院神经外科排查,多数人都能得到及时的诊治。”
AI医疗未来可期
作为一种基于深度学习的大语言模型,今年开始,ChatGPT正在以惊人的自然语言处理能力引起广泛关注。“可以简单把它理解成一个比传统搜索引擎更高效、准确的系统,还剔除了商业植入对结果排序的影响。”黄为对“医学界”表示,他参与过医院人工智能的合作开发项目。
事实上,早在ChatGPT出现前,人工智能诊断系统就已在医院内有广泛布局,多数集中在医学影像诊断领域,如骨折、肺结节的风险筛查等。根据建银国际发布的研报,预计到2030年底,中国的AI医疗诊断成像市场销售额将从2020年的5亿元人民币上涨至769亿元。
“相比传统的智能诊断系统,ChatGPT类似的新一代系统具有多模态的信息处理模式,可以综合文本、影像、检测数值等数据,完全仿照临床医生决策时的信息处理方式。”黄为说。同时经过了对话方式的交互训练,加州大学圣地亚哥分校的一项研究还发现,ChatGPT提供的回答比医生更有同理心。
尽管具有诸多优势,但黄为表示,ChatGPT依旧不可能取代医生的工作,“多用于分割成不同任务,在某个具体的诊疗环节提供辅助支持。”
这是由医学的特殊性和复杂性所导致,黄为举例道,比如发烧、咳嗽、白细胞增多血象异常,ChatGPT能给出“细菌感染”或其他正确的判断。但一旦决策链过长,人工智能就难以判断不同指标和症状间的关系是“并行”“排除”还是“互为因果”等。
“前述案例很好地体现了ChatGPT的优势和劣势。”黄为说,“它结合历次的病史资料和数据库迅速计算出最佳答案。但‘3年看了17位医生’,ChatGPT的成功离不开医生的前期检查和判断。哪怕是‘误诊’,也是在帮它做排除法,进一步明确了信息间的关联方式。”
另一方面,不仅是ChatGPT,生成式AI在完善可解释性、确定性、信息更新的及时性方面都存在着诸多技术难点。“它无法给医生展示‘为什么给出这个诊断’的证据链,可信度大大降低。”黄为说。另根据《自然医学》9月8日发表的一篇评论,由于全球大量医学期刊采取付费制,并未提供开放获取,人工智能也难以及时更新医学知识。
正因如此,去年9月美国FDA发布了一篇26页的指南,其中提到只有当医生完全掌控AI诊断工具时,设备才能避开额外的审查。换而言之,当下无论是否使用AI辅助诊断,卫生从业者都必须根据自身判断给予建议,并对此负责。
“目前你绝不会把生命健康交给一个机器人来做决策。辅助用于诊断提示或者交叉确认,我认为这是ChatGPT看得见的一个发展方向。”黄为说,“随着技术发展,伦理、法律法规相应更新,未来是否会出现重大变革,AI在某些领域彻底取代医生,也不是没有可能。”
但站在临床医生的角度,沈志鹏对此并不多虑。“哪怕是明确的专家共识,临床上也只是提供一个参考依据。医生还需要根据患者具体情况,结合推荐证据的等级,才能给出个体化的诊疗方案。”他说,“基层医生有可能面临挑战。这就要求他们得不断学习,提升自身医学素养,实现和人工智能的协作,而不是被抢走主导权。”
他更多担忧的是,这类“AI问诊系统”会进一步影响患者与医生间的信任关系。“这方面在儿科尤其突出,不少家长会做很多前期搜索工作。一旦医生最后给出的诊断有所偏差,不少人会表现出‘不信任’,即便他们信息搜索的来源并不可靠。”
沈志鹏表示,需要理性认识“技术的局限性”和“医学的复杂性”。
“ChatGPT类似的新系统对公众开放获取,口碑也更好。但如果患者都自认为成‘专家’了,也会影响医生开展工作,最终影响患者的诊治。”沈志鹏说。
来源:医学界 O10