AI医生,靠谱吗?
AI医师助手

AI医生,靠谱吗?

不是帮忙写病历,不是辅助看报告,不是手术导航定位,更不是智能导诊,真正能看病的“AI医生”可能要来了。 中国的医疗科技公司正在训练基于大语言模型开发、应用于医疗领域的生成式AI产品“MedGPT”。而这款产品的首次“出圈”,是因为一场上百人规模的真实世界试验。 这场6月30日在成都进行的“大型公开测评”,参与者包括120多位真实患者和10名四川大学华西医院的主治医师,还有7位全国各地三甲医院专家作为陪审。毕竟大模型能不能用来看病这件事,最有发言权的,还是专家医生。 最终,“AI医生”与三甲主治医生在比分结果上的一致性达到了96%。 8月10日,其研发企业医联Medlinker对外公布了该产品的最近进展。据介绍,医联MedGPT又完成了1052例医生临床测试,不断通过数据刷新AI医生临床有效性记录,并持续验证医疗安全。 围绕这款横空出世的“AI医生”产品和其实际效果,本文试图讨论几个核心问题: 1.MedGPT看病靠谱吗?评价是否靠谱的标准是什么? 2.MedGPT能在哪些环节帮助提升就医体验、诊疗效率和质量? 3.MedGPT走向成熟和普及之时,地域资源不平衡、看病难的医疗痼疾能否被推动解决? MedGPT看病,靠谱吗? 鉴于患者和医生之间存在巨大的信息鸿沟,判断MedGPT可靠性的标准和结果,都来自经验丰富的医生专家。 其实施过程是,邀请120位真实患者使用“AI医生”问诊,过程中实习医生辅助将信息同步传达给10位四川大学华西医院的真人医生(职级主治及以上),双方在互不影响的情况下分别给出独立判断。 评估结果时,将上述过程切分为问询、诊断、给出治疗建议、开具辅助检查方案、分析检查结果、提供可信解释等6个环节,由来自北京阜外医院、中日友好医院、北大人民医院等三甲医院的7位主任专家,针对每个环节分别给AI和真人按照准确性、专业性等统一标准进行打分。 最终,真人医生的综合得分为7.5,而AI医生得分为7.2,二者一致性为96%。评测疾病涵盖消化科、心内科、老年呼吸科、骨科、泌尿外科、肾内科等多个领域。 一位专家在打分时,甚至对AI给出了高于真人医生的分数,理由是在专业水平接近的情况下,MedGPT更加细致,不易误诊漏诊,甚至对患者表现出更大的人文关怀。 据医联对外公布的数据,MedGPT目前的参数规模为100B规模,预训练阶段使用了超过20亿的医学文本数据,微调训练阶段使用了800万条的高质量结构化临床诊疗数据,并投入超过1000名医生参与人工反馈监督微调训练。 在短短40天左右的时间里,MedGPT的患者测试案例实现从百到千的十倍量级增长,不难看出医联对这一产品的投入程度。据了解,在过去的几个月内,其医疗专家和技术专家团队“以小时为单位”进行着迭代和调优。在这个过程中,已有超过1000名三甲医院医生参与到产品的研发、测试、优化过程中。 值得一提的是,在全球范围内,这种“AI医生”与人类医生同时面对真实患者的“双盲实验”还是首次完成,这也为检验医疗GPT的有效性和准确性等开拓了标准范式。任何产品或业务,涉及到医疗领域都是一件严肃的事情,但在当前,各国相关监管部门还尚未提出对医疗大模型产品的注册审查标准,则更需要最早的产品研发者对自身提出要求,需要市场的行业自律。如今临床测试的数量已经达到了1052例,而在以往创新药物或医疗器械的临床试验项目中,千人量级均属于超大型规模水平。 数字医疗的全新引擎 在此之前,医疗领域已经诞生了不少应用AI技术开发的产品,比如电子病历、智能导诊分诊系统、医学影像辅助诊断产品以及手术机器人(或称手术导航定位系统)等,这些产品都是“碎片化”地聚焦分布在诊疗流程的某一个具体环节,帮助优化就医体验、提升就医效率和质量。 但大语言模型的技术突破,让AI技术在医疗场景下的应用,有了更进一步参与或跟踪整个诊疗流程的可能。 理论上,除了需要动手术、拍片子和取药等必须在线下实体进行的环节,其他步骤如咨询、诊断、开具检查、报告解读、给出治疗方案和康复建议等,均可以在对话中完成,并且通过上传检查结果等交互行为,MedGPT可以“补上”线下未参与部分,进而做出可靠回答。 此时,于患者而言,MedGPT的实际角色变成了一个可以识别和诊断大部分常见疾病,并给出进一步线下检查或用药、诊疗建议的“AI家庭医生”。 特别是当用户养成随手问诊的行为依赖,持续反馈不同医院的线下就诊信息,而MedGPT又能储存并自动调取历史记录时,就俨然成为了一个身边最清楚你过去病史和身体状况变化的、普通人也能拥有的全天候随时守护的“家庭医生”; 对医生而言,MedGPT可以成为一个帮助高年资医生完成基础工作,进行信息核对、查漏补缺、跟踪随访及进行患者管理的“AI助理医师”,也可以是一个帮助低年资医生快速学习和成长、随时探讨病例并分析思路的“AI医生导师”,还可以是一个帮助一线医生及时获取前沿治疗指南和专家共识、更新自身专业储备的“学术推广AI医生”。 而对于整个医疗医药行业而言,大模型AI技术则可能成为一个为行业带来新一轮发展动力的全新“引擎”,将这一垂类模型应用于不同的场景、不同载体上,能够不断碰撞产生新的火花。 MedGPT的研发企业医联,其自身已在医疗领域深耕近十年。2014年公司成立,2017年获得互联网医院牌照,2018年开设首个互联网医院科室感染科,同期启动自主研发的丙肝患者管理体系。目前平台拥有数十万名注册医生,覆盖肿瘤、心脑血管、糖尿病、呼吸、慢性肾病、感染、精神心理、消化、神经、中医等多个病种学科领域。 MedGPT同样也是医联的全新引擎,作为第一个大模型应用在医疗场景应用的探索者,有望引领行业真正进入数字医疗2.0时代。 医联MedGPT项目负责人早就“喊话”,希望业内AI科技、医学、院校机构、医疗多模态应用等各种类型的合作伙伴,共同开发建设通用型人工智能技术的医疗应⽤场景为医疗行业的技术发展贡献力量。 当前其主要征集的合作伙伴包括三大类:一是数据合作,包括三甲医院、相关医疗数据企业等;二是科室建设合作,包括三甲医院、医学专家、数字医疗企业、数字疗法等;三是多模态模型合作,包括但不限于辅助诊断模型、治疗推荐模型、预后评估模型、药物发现模型和流行病学模型等。 世界性难题,往往由颠覆性科技推动解决 尽管MedGPT的出现令众多医生惊艳,也让我们进一步打开了未来就医便捷化的可能性,但不难猜想,当前一定还存在些许优化空间。 比如,为了保证结果“不出错”,医疗GPT给出的建议是否存在过度诊疗的倾向? 又比如,医疗GPT对患者疾病做出诊断和治疗方案,都是基于目前现有的专家共识或者诊疗指南,但一些新开发的药物的临床应用,仍然需要一线专家去探索尝试,现阶段AI技术的应用大概率还不会突破人类医生自身的认识边界。 不过,这并不会影响这项技术所带来的兴奋和未来的想象空间。 医疗改革一向是个世界性难题,对于中国这个人口庞大、地域广袤的发展中国家而言则更甚。早自2009年起我国便开始探索和鼓励公立医院医生多点执业,2015年起我国正式提出并开始在多个城市试点分级诊疗制度,近年来各地医联体、医共体持续推行远程医疗等,均是为了改善医疗卫生资源在不同地区分配不平衡、百姓看病难的问题。 科技的发展或许难以对抗自然规律的生老病死,但我们可以展望的是,有了MedGPT,无论身处何时何地,我们将能够以自然对话的最低门槛形式,即时获取自己关心或者迫切需要的权威医疗健康信息。 所谓“低门槛对话”,一方面要求技术在于打破时间和空间的限制,另一方面还在于用户体验上,语言沟通的“无障碍”。 因此“AI医生”的自然语言交互能力也格外重要,除了准确、靠谱、专业,能听到患者非专业用语表达的“大白话”,是保证用户体验的基本。 例如在真实评测体验中,对于一句通俗的“肚子疼”,AI医生会进一步引导患者说出具体的疼痛部位、疼痛持续的频率、疼痛方式等,并通过询问饮食情况、有无外力撞击,有无相关病史等细节,不断缩小范围,排除错误判断,最终给出确切答案。 AI医生没有问诊的时间限制,也不懂何为压力和情绪,可以不厌其烦地7*24小时接诊。 目前,医联MedGPT已经可以覆盖我国最新疾病分类标准(ICD10)中60%的疾病病种,并在近期将研发重心倾斜在多发疾病,以提升数字医院的普惠率。据悉预计在2023年底,可以覆盖80%病种的就诊需求。 有一天,当MedGPT真正走向成熟和普及,不仅有助于打破医疗资源的地域不平衡,对于消除医学专业信息鸿沟、减少误诊漏诊,提升国民整体的健康素养和健康水平,都有巨大帮助。 与此同时,MedGPT会不断沉淀用户关于疾病和患者诊疗行为的真实世界数据,其中不仅包括原本静静躺在各个公立医院电脑信息系统内的诊疗数据,也包括医院所无法持续追踪的院外数据,随着相关法律法规的健全,这些海量数据也有望被释放出来,对于罕见疾病的新药研发、常见病的健康管理甚至是针对精准人群的健康保险产品开发等,都具有重要意义。 届时,我们能够真正期待全新的“健康新世界”。
人工智能与医学诊断:10年内可取代医生吗?
AI医师助手

人工智能与医学诊断:10年内可取代医生吗?

这篇文章表达了作者对人工智能在医学领域的前景和角色的看法。他认为虽然人工智能在诊断和治疗方面具有优势,但在临床实践中仍存在许多复杂的问题,需要医生的经验和情感支持。作者希望技术的发展能帮助医生提高工作效率,有更多时间与患者沟通,关注患者的情绪需求。
5G远程医疗移动平台与养老陪伴机器人:创新医疗服务新模式
AI医师助手

5G远程医疗移动平台与养老陪伴机器人:创新医疗服务新模式

文章主要讲述了河南推动中原城市群与大湾区一体化进程,同时介绍了5G远程医疗移动平台和养老陪伴机器人在经济交融、产业承接等领域的新进展和新动向。该平台利用5G技术,依托医院内部智慧医疗平台,为医疗资源相对短缺地区的患者提供权威专家的远程诊疗服务。此外,该平台解决了传统远程会诊图像不清晰、数据传输卡顿延迟等问题,并可自由组合配件,满足不同科室的需求。拓普智造公司的研发总监邓富豪表示,他们一直致力于用AI技术解决医疗领域中的实际性问题,助力医疗智能化发展。
AI医生时代来临:医疗领域智能化趋势加速
AI医师助手

AI医生时代来临:医疗领域智能化趋势加速

近日,浙大邵逸夫医院 AI 医生助理正式上线,仅需 5 秒即可生成规范化电子病历,引发广泛关注。随着 AI 技术在医疗领域的应用不断加深,平安好医生、讯飞晓医等线上平台纷纷跟进上线“AI 医生”功能,产业增长空间有望进一步拓宽。此外,人工智能 ETF(159819)的管理费率加托管费率仅为 0.2%/ 年,可助力投资者便捷、低成本把握产业投资机遇。
AI技术能否替代真人医生?
AI医师助手

AI技术能否替代真人医生?

新一波流感爆发,医疗资源紧张,医生连续工作,患者等待时间长。 AI技术发展或改善医疗资源不平衡状况,但真医生与AI医生之间的差异和挑战仍需克服。 AI技术可作为医生助手,提高效率和准确度,但无法替代真医生的临床经验和共情能力。 未来应关注医疗领域AI应用的伦理和法律问题,确保患者权益,同时促进医疗领域持续创新和进步。
AI医生助理助力医疗智慧化:患者就诊体验升级
AI医师助手

AI医生助理助力医疗智慧化:患者就诊体验升级

近日,我国浙江大学医学院附属邵逸夫医院推出了一款AI医生助理,患者可以通过扫码小程序完成预诊病情录入,并在5秒内自动生成规范化的电子病历。这款AI问诊系统一经推出引发了广泛关注,其优势在于能快速处理大量患者信息,将患者诊疗信息通过语音识别的方式快速录入,且不受时间和地点限制。未来,该系统可能应用于更广泛的医疗场景,如慢性病管理等。但同时也面临着挑战和不确定因素,例如患者健康信息泄露的问题。
AI医生进社区,居家养老享便利
AI医师助手

AI医生进社区,居家养老享便利

福州高新区居家养老团队引入AI医生,为老年人提供便捷的AI体检和远程会诊服务,让 Action 老人不出村就能看诊。AI医生将首先服务行动不便的特殊群体,未来还将与福州高新区总医院(筹)合作,进一步促进医疗卫生资源的均衡布局。
没有身体,会是ChatGPT最大的障碍吗? | 追问顶刊
AI医师助手

没有身体,会是ChatGPT最大的障碍吗? | 追问顶刊

在人工智能(AI)发展初期,Hubert Dreyfus在其著名的1972年作品What Computers Can’t Do[1]中论述*,由于计算机与人类有诸多的不同,它们永远无法具备智能。近来,Jaron Lanier在《纽约客》杂志上撰文,强调计算机不过是工具而已。正如他所作文章标题所言,“没有所谓的人工智能”[2]。这些AI批评家的观点犀利,但倒并不是在反技术。实际上,Dreyfus的著作激发了人工智能领域许多创新,而Lanier则是虚拟现实的提出者,也是一位长期创新者。然而,尽管Dreyfus和Lanier们洞若观火,但他们却混淆了两个重要的问题。 *注:中译本为《计算机不能做什么——人工智能的极限》。作者批判了基于符号处理的人工智能研究,强调人类智能不仅仅会处理对符号、规则或是事实,它还根植在人类的身体经验和其所处的特定环境中。他的观点在当时引发了巨大争议。随着神经网络和机器学习的发展,对他的批评才逐渐被重新审视和讨论。 一个是技术问题:计算机是否能够具备智能; 另一个则是科学问题:人类及其他动物是如何表现出智能的。 要解答这两个问题,首先要对“智能”这个概念达成共识。本文将遵循常规用法,并避免仅将“智能”定义为成年人所特有的能力,而是将其视为解决复杂且认知上具有挑战性的问题的能力。按照这种理解方式,关于计算机是否能具备智能的问题似乎已有答案。虽然Dreyfus和Lanier可能不愿意承认,但多年来的研究已明确显示,答案是肯定的。 ChatGPT及其他大语言模型近期的跃迁,是数十年技术创新的成果。LLMs能够就几乎任何主题生成清晰、令人信服的文章;它们能在科研中起作用;也能生成可编译并运行的计算机代码;而最近,ChatGPT甚至被病人评价为在医疗准确性上与人类医生相当,甚至更具同情心[3]。 当然,ChatGPT并非完美无瑕。例如,尽管其创造者做出了大胆尝试,但我们依然可以轻易发现,来源于互联网的大语言模型训练集中潜藏着种族偏见和性别歧视[4]。此外,ChatGPT还常常做出其创造者所说的“幻觉”,即凭空编造事实。 幻觉是否意味着大语言模型缺乏智能?也许并不是这样。由于大语言模型通过产生统计上可能的词序来回应查询,它们甚至没有尝试对世界做出真实陈述。大语言模型旨在解决那些复杂且在认知上具有挑战性的问题,即如何生成清晰的句子来回应查询,在这项任务中它们表现出色。可以将大语言模型比作竞选公职的政客:两者对任何问题都有现成的答案;两者也都倾向于凭空编造事实。当然,政客具有智能,大语言模型也是——即使两者都需要经过事实的核查。 然而,尽管当前的大语言模型展现出一定程度的智能,但它们与人类的智能并不相同。例如,根据语料库研究,美国儿童到两岁时听到的英语单词数量在1000万到3000万之间(不幸的是,这个数字与社会经济地位存在悲剧性的相关[5])。相比之下,人类儿童的语言学习方式与大型语言模型的训练过程迥然不同。以ChatGPT-3.5为例,该模型在大约570GB的文本数据上训练,涵盖约1150亿个参数。换句话说,ChatGPT需要的训练集是典型儿童所听到单词数量的5000多倍,这一点在比较它们的学习方式时尤为明显。 要回答人类(和其他动物)如何能够表现出智能这一科学问题,首先需要认识到我们与大语言模型有何不同。虽然人类能够熟练地使用文本信息并从中迅速学习(就像大语言模型一样),但与文本的互动仅仅是我们理解周围世界的众多方式之一。阅读和写作作为进化较新、发展上较先进的技能,并非是每个人都能轻易掌握的。在人类大部分历史中,我们——与其他动物一样——主要通过与外部世界和同类的具身互动来了解周遭环境;而直到今天,绝大多数人依然在依赖这种方式来认识世界。 根据当代认知科学中的具身观点[6],理解人类智能的关键在于承认我们的具身性。仅凭任何计算系统(包括大型语言模型)是无法完全解答科学问题的。从这个观点来看,我们不仅是逻辑思维的主体,更是不断与物质、社会、文化和技术环境互动的活生生的生物。 作为生物,我们有特定的新陈代谢需求,这与我们的身体性质紧密相关。为满足这些需求,我们拥有调校得恰到好处的运动和感知系统。以青蛙为例,它以捕食苍蝇为生,它们是捕捉这些食物的大师,正如现代人善于寻找杂货店和餐馆一样。 在生命体中,感知和移动方式紧密相连,感知世界旨在引导行动,并常常包含行动本身。人类和其他动物通过移动来体验周围世界,比如转动眼球、伸长脖子、走近物体以便更好地观察事物。这种活动不仅仅是观察的辅助,它实际上是观察的一部分。 换言之,从具身的角度看,人类的视觉不仅仅是眼睛或大脑某区域的功能,而是整个动态系统的协作。看见世界的主体当然包括大脑和眼睛,但这些眼睛总是在移动(多亏了肌肉),而且它还嵌入在一个移动的动物头部、颈部和躯干上。要解释人类智能,必须考虑这整个的具身系统。这种体验与行动之间的紧密联系是人类智能的核心特征,但这是大语言模型所欠缺的。大语言模型的智能不是具身的,因此,它们的智能与我们的不同。 另一个区别在于,虽然ChatGPT的运作和训练可能需要消耗大量(且未公开的)能量,但与生物不同,大语言模型并不像动物那样具有新陈代谢的需求。我们的代谢需求暗示着我们对世界中情境体验内在地带有积极或消极的评价[7]。生物因需求而存在,因此有些情境会比其他情境体验起来更理想。即便是单细胞生物也会对其环境中特定化学物质的不同浓度做出不同的反应,以努力维持在其生存所需的条件范围内。从根本上来说,人类的认知是一套我们用来维持生存的工具,这就是为什么我们会体验到某些情境是好的,而另一些则不是。我们人类受到温暖、饱腹和被爱的需求驱动,这种动机渗透我们的体验,甚至影响到看似最公允的认知过程。 人类的生活本质上是社会化的。我们在另一个人体内开始我们的生命,并以完全无助的状态出生。我们在与其他人类共存的世界中成长,特别是那些提供我们温暖、食物和爱的照顾者,他们是我们继续前行的支持。与大型语言模型相比,我们之所以能更快地学习语言,部分原因在于,对我们来说,词语的出现总是伴随着面部表情、语调、手势以及时间延续的人际互动背景。这些互动不仅是交流的媒介,还是语言学习的关键因素。此外,我们还生活在特定的文化和技术环境中,这些环境深刻塑造并促进我们的活动和思维方式。作为具身的生物,我们在复杂的人际情境中航行,调整自己的面部表情、语调和手势,以适应不断变化的环境和我们在其中的角色[8]。例如,我们作为演讲者进入讲堂的方式与作为听众时截然不同;我们在东京的行为模式也可能与在多伦多时有所不同。 人类智能的一个关键特征是我们的适应能力,特别是对新技术的适应能力。我们不仅能够采用新技术,还能通过它们改变我们的思考和生活方式。书写文字,作为一项“古老”技术,就是这种适应能力的早期体现。到了2023年,智能手机和人工智能(包括大语言模型)无处不在,它们通过改变我们的环境和所需的认知技能,从而改变我们的认知模式[9]。这一转变,无论好坏,已成定局,无法逆转。 这些差异综合起来,指向了John Haugeland所说的“在乎”(giving a damn)的生活方式和智能方式*[10]。人类在乎,“在乎”不仅仅是对维持个体存在和与世界及他人关系的承诺,更包括对自我认知状态的深切关心——关心自己是处于“幻觉”,还是在述说真相。ChatGPT无法关心这些事情,因为它不是一个具身的有实体生物,不是一个活着并参与其生成文字所描述的世界的生物。当我询问ChatGPT这个问题时,它确认大语言模型并不在乎。当然,未来的人工智能模型(可能会融合大语言模型技术)或许会被构建成在乎这些事情的样子。 *注:出自John Haugeland的Giving a Damn: Essays in Dialogue with John Haugeland。其中“在乎”(giving a damn)指的是一种根植于个体身份和存在方式的深刻承诺和关注。这意味着个体的认知过程和智能表现不仅仅是冷冰冰的信息处理,而是与个体的情感、价值观和社会互动密切相关。 我们从如今的大语言模型中学到的是,智能的表现方式不止一种。我们的智能方式并非唯一,也不是大语言模型所采用的方式。这一认识并没有从技术成就上削弱大语言模型,但这清楚地表明,就回答关于人类及其他动物智能的科学问题而言,大语言模型并无太大帮助。认知科学家们仍有大量工作要做。开展这些工作需要我们仔细关注我们作为具身的存在——我们是活着的、能移动的、社会化的、有文化的生物,我们是会在乎的生物。 阅读原文: Chemero, A. LLMs differ from human...