AMIE:人工智能助手在医疗领域取得重要突破,但仍需谨慎看待
AI医师助手

AMIE:人工智能助手在医疗领域取得重要突破,但仍需谨慎看待

诊断对话式人工智能AMIE进入临床诊治疾病还有很长的路要走,而且进入临床也只能是真人医生的助手。 谷歌深度思考(DeepMind)发表论文称,AMIE在模拟诊断对话中的表现,至少与初级保健医生不相上下。 AMIE进入临床诊治疾病还有很长的路要走,而且进入临床也只能是真人医生的助手,并不能单独诊治疾病。一个最根本的问题是,即便它在某些方面比真人医生更强大,但它和其他AI软件的出错率也比较高。 近日,谷歌深度思考(DeepMind)发表论文称,他们研发的全新诊断对话式人工智能(AI)——AMIE在测试中击败医生,通过了图灵测试。 《自然》杂志前不久发布的2024年可能发生的10大科学进展中,人工智能占据榜首。 话音未落,就传来了AI在医疗领域的重大突破。AMIE在测试中击败医生并通过了图灵测试,是否意味着AI已经能进入临床并替代真人医生呢? 当然不可能,因为,AI医生迄今并没有处方权,人们还不会轻易地将诊疗权交给AI。 要了解情况,还要从此次AI的突破来看。 研究人员基于临床会诊和沟通技巧,构建了一个试验性评估临床诊断的标准,其中涉及病史采集、诊断准确性、临床管理、临床沟通技巧、关系培养和移情等标准。之后,研究人员创建了基于大语言模型(LLM)的对话式诊断研究AI系统,即AMIE,并以真实世界的大数据训练AMIE。这些数据包括医学推理、医学总结和真实世界的临床对话。 最后,研究人员设计了一项随机、双盲交叉研究,让经过验证的患者与经过认证的初级保健医生(PCP),和AMIE通过文字聊天的方式进行互动,也即以客观结构化临床考试(OSCE)的形式,设置咨询(诊断)场景。OSCE是真实世界中常用的实用评估方法,以标准化和客观的方式考察临床医生的技能和能力。 在一项随机、双盲交叉的研究中,研究人员采用OSCE来评估20名初级保健医生、专科主治医生与AMIE的诊断,病人由专业演员模拟真实的患者。研究包括来自加拿大、英国和印度OSCE提供者的149个病例场景,涉及各种专科和疾病。 结果显示,AMIE在模拟诊断对话中的表现,至少与初级保健医生不相上下。而且,从专科医生的角度来看,AMIE的诊断准确性更高,在32个指标中的28个指标上表现更优;从患者的角度来看,在26个指标中的24个指标上表现更优。此外,AMIE在研究人员设定的评估中,在各个指标上都超越了初级保健医生。然而,这个AI医生只是在诊断呼吸系统和心血管疾病两类疾病中战胜医生,并没有在所有疾病的诊断中比初级保健医生更准确,因此不能推论到所有疾病防治领域。 另一方面,在试验中,AMIE通过了图灵试验,并表现出某种同理心,但这也并不意味着AI医生已经会思考,甚至具有了与人相似的意识。问题在于,图灵试验的标准已经太古老。在这个测试下,测试者向被测试者随意提问,进行多次测试后,如果有超过30%的测试者不能确定被测试者是人还是机器,这台机器就通过了测试。30%的比例太少。再说,图灵试验混淆了“骗人”和“像人一样思考”的结果,因此,通过了图灵测试并不意味着AMIE就能像真人医生一样思考、分析和判断,并进行正确的诊断。 应当承认的是,AMIE的确强大,比2011年国际商业机器公司(IBM)创造的沃森医生更胜一筹。 沃森医生算是最初的AI医生,诊断疾病的准确率达到73%,而且是对各类疾病的诊断。沃森医生贮存了数百万文档资料,包括字典、百科全书、医疗档案、新闻、文学以及其他可以建立知识库的参考材料,1秒可阅读100万本书,在获得一个寻问后,会进行一系列的计算,包括语法语义分析、对各个知识库进行搜索、提取备选答案、对备选答案证据的搜寻、对证据强度的计算和综合,最后给出答案。 AMIE则有很大的改进,它除了接受大数据训练外,还能从真实的医疗条件和场景中,获取信息并学习改进。研究人员设计了一个基于自演的模拟学习环境,环境具有自动反馈机制,用于虚拟医疗环境中的诊断性医疗对话,因而让AMIE能扩展在多种医疗条件和环境中学习知识的能力。 同时,研究人员还利用医院真实诊治疾病环境不断变化的模拟对话集,对AMIE进行反复微调,让AMIE进行两种自演循环。一是内部自演循环,利用上下文中对话者的反馈来完善学习;二是外部自演循环,即完善的模拟对话集被纳入后续的微调迭代中。 由此产生的新版AMIE可以再次参与内循环,形成良性的持续学习循环。 AMIE还被设计了推理时间链策略,使AMIE能够根据当前对话的情况,逐步完善自己的回答,从而得出最能体现当下具体情况的诊断。因此,在诊断呼吸系统和心血管疾病方面的准确性更高。 即便如此,AMIE进入临床诊治疾病还有很长的路要走,而且进入临床也只能是真人医生的助手,并不能单独诊治疾病。一个最根本的问题是,即便它在某些方面比真人医生更强大,但它和其他AI软件的出错率也比较高。 同样是刚刚发表在《科学》杂志上的一项关于AI帮助医生诊治精神分裂症的结果显示,人工智能模型可以高精度地预测接受训练的样本中的病人的治疗结果,但当应用于初始样本的子集或不同的数据集时,它们的性能下降到略好于偶然性。 也就是说,使用不同的AI医生,具有很大的局限性。因此,它们只能作为真人医生的助手介入医疗,而不能单独诊治疾病。 来源 // 联合早报 2024-01-22 #记录我的生活##江海e家#
AI写作助力各行业,180种指令创新无限
AI助手资讯

AI写作助力各行业,180种指令创新无限

本文探讨了人工智能在各种领域的应用,如新闻报道、情感故事、民间传说、公文写作和市场营销等。作者通过创作180种指令,将AI与创新完美融合,展示了科技与人文的美好结合。AI的应用使得我们的生活和工作中变得更加高效和便捷。同时,作者分享了三种心得:深入理解AI技术、建立自己的SOP、保持良好的工作习惯和素质。
AI指令工程师:打造万物皆可指挥的未来
AI助手资讯

AI指令工程师:打造万物皆可指挥的未来

这篇文章主要介绍了一种名为AI指令工程师的新型副业,该职业能通过生成指令进行售卖或使用,其价格从200元到1万元不等,适合新手轻松实现月入3000的目标。文章详细解释了项目原理,并介绍了如何通过提出精确的问题指令来获取更准确的回答。同时,作者提供了万能公式和一些常见应用场景下的高效指令示例,帮助读者更好地理解和运用这一技术。
AI医生:机遇与挑战
AI医师助手

AI医生:机遇与挑战

这篇文章主要介绍了中华门诊AI健康管理VIP平台以及AI医生的发展状况和优缺点。AI医生在疾病预测、辅助诊断、制定治疗方案等方面发挥了重要作用,但其与真人医生的诊断过程、提问深度、数据分析等方面仍存在一定差异。尽管如此,AI医生在处理大量医学数据和文献方面有明显优势,可以为患者提供更精确全面的诊断和治疗方案。然而,无论是技术提供方还是使用方,都应该对AI医生的算法进行严格测试和审核,确保其可靠性和准确性,同时,使用方在使用AI医生时也需谨慎,对于不确定的病情应结合真人医生的意见进行全面判断。
AI助力创作:利用提示词提高短视频脚本效率
AI助手资讯

AI助力创作:利用提示词提高短视频脚本效率

这篇文章主要探讨了如何利用GPT生成式AI快速生成短视频脚本,提出了三个不同阶段的策略:中极选手、高阶选手。文章列举了一些高效指令,如设定身份、任务职责和要求约束,并结合外星人入侵、核弹等场景,以及红宝石咖啡馆等主题,创作出富有反转和高潮的故事和文案。此外,还分享了一个高手快捷指令集的链接,其中包含了多种公式。这些指令有助于提高工作效率和创作质量。
甲小姐对话黄民烈:功能AI和情感AI结合才是真正的AGI|甲子光年
AI情感助手

甲小姐对话黄民烈:功能AI和情感AI结合才是真正的AGI|甲子光年

大模型会经历重复建设然后出清的过程。 作者|甲小姐、刘杨楠 燃烧半年的大模型之火正在逐渐冷却。 一个直观的表现是,ChatGPT的用户增长开始下坡。第三方网站SimilarWeb的监测数据显示,今年6月,ChatGPT的网站与移动客户端的全球流量(PV)环比下降了9.7%,美国地区的流量环比下降了10.3%,用户在ChatGPT上的停留时间也下降了8.5%。 此外,七月以来,微软、谷歌、AWS、阿里巴巴等国内外科技大厂开始陆续发布2023半年报,遗憾的是,各项收入数据中,AI几乎没什么存在感。 大模型似乎走入了用户增长和商业落地的双重瓶颈。与此同时,另一股AI势力正在异军突起。 个性化AI聊天机器人创业公司Character.ai自去年9月发布Beta版本以来,用户涨势凶猛。SimilarWeb数据显示,2023年6月,Character.ai访问量达到2.8亿,5月的增长率更高达62.55%。不仅如此,Character.ai用户黏性极高。多个第三方统计数据显示,用户在Character.ai的停留时间长达28分钟。相比之下,ChatGPT的用户停留时长约8分钟,YouTube和B站的停留时长约20分钟,WhatsApp约18分钟,Google、Facebook和Twitter约10分钟——足见用户对Character.ai“偏爱有加”。 成立于2022年,同样主攻个人人工智能(Personal Intelligence)的AI初创企业Inflection AI也冲劲十足。Inflection AI于今年5月推出了首款产品“Pi”,仅2个月后,Inflection AI便在7月完成13亿美元的新一轮融资,估值突破40亿美元,成为OpenAI之后估值最高的AI初创企业。 这两家公司的出现,让“情感AI”成为ChatGPT之外的另一个焦点。 在国内,清华系AI初创企业聆心智能已经在情感AI领域布局多年。从应用场景上划分,ChatGPT可归为“功能AI”,其价值是用超越人脑的智能帮人类解决各类实际问题,追求“高智商”;而聆心智能、Character.ai及Inflection AI正在做的事可归为“情感性AI”,其价值在于解决人类情感需求,追求“高情商”。 聆心智能创始人、首席科学家黄民烈同时还在清华大学担任多个职位——他是清华大学计算机科学与技术系长聘教授、国家杰出青年科学基金获得者、智能技术与系统实验室副主任及清华大学基础模型中心副主任。 在涌入大模型的众多学者、创业者中,黄民烈的判断独树一帜。他并未直接瞄准看起来极其性感的“通用大模型”,而是从2015年起就尝试破解情感AI的密码。在他看来,“功能固然很重要,但人的情感也是非常本质的需求”。 事实上,“功能AI”还是“情感AI”,这既是AGI的技术选择,也是AGI的社会角色选择——AI之于人到底会是什么样的存在,是工具,是助手,还是伙伴?本期甲小姐对话黄民烈,聊一聊大模型重复建设之下的另一个视角和判断。 1.谈现状:“大模型会经历一个重复建设之后出清的过程” 甲小姐:最近很多人感觉ChatGPT的热度降下来了,你有这种感受吗? 黄民烈:融资市场和产业都在趋于冷静。原因是,之前无论投资还是产业,都在说要做“中国的OpenAI”,现在已经有这么多开源和闭源的模型,大家开始考虑能做什么样的应用来真正解决产业问题;大家对大模型的认知更清晰了,有各种评测榜单,大家逐渐清楚彼此的能力;另外,七八月份是上市公司半年报的窗口期,市场会冷静地看这些公司的投入在财报上如何反应,大模型的投入和产出是否匹配。之后有些公司可能会被收并购,融不到钱的公司也会倒闭,这是行业发展的客观规律。 甲小姐:现在我们公允地看过去半年的AI热潮,哪些被高估,哪些被低估? 黄民烈:大家对通用大模型的期待很高,但在解决实际问题时,国内模型距离ChatGPT、GPT-4还有挺大差距。一方面是我们底层模型的能力还要提高;另一方面,大模型最终要落地产业,依然需要大模型之外的能力,比如加上传统的算法模块,形成一个以大模型为主导的复杂系统,真正解决行业问题。 甲小姐:我身边真实的个人用户,从最开始对ChatGPT上头,到今天逐渐冷静甚至弃用,原因有二:第一是ChatGPT会出现幻觉,不够可信;第二是无法做精确计算等等。这是ChatGPT热度下降的本质原因吗? 黄民烈:本质与否不好说,但这是一个重要原因。现在大模型容易产生幻觉,因为ChatGPT是概率模型,每次问答都会随机采样,同一个输入,不同的人、不同时间得到的回答不一样,有不可控性。怎么解决这个问题?要和业务、场景结合。比如有些场景允许有一定的容错率,但有些场景容错率为零,就得有别的手段来处理。 再比如你刚才讲的精确计算,现在技术发展很快,大模型算数学题,过去全是概率采样,每次的计算结果都不一样;但现在不一定要通过概率采样去做,可以把数学题变成一个公式,再在模型中插入一个Python解释器去执行,最终得到的结果是确定的。因此,神经系统和符号计算系统结合能够很好地提升模型能力。所以技术也在随着业务需求不断演进,快速发展,有些稀奇古怪的问题今天都能解决得挺好,这是一个动态过程。 甲小姐:放眼全球AI产业的细分发展,通常是美国定义流行,中国一拥而上,市场关注度在短期会高度集中在某一两个赛道,但在欧洲有很多AI细分门类一直有人在做,对比而言,今天的中国AI产业似乎少了某种多样性。你曾表达过“重复造轮子”可能不利于AI发展。近半年内国产大模型的数量已经增长到80多个,是否存在重复建设? 黄民烈:肯定存在。现在算力非常紧张,基本租不到卡,大家都把算力圈起来了,但各家在技术、能力和商业化路径上都大同小异,肯定是重复投入。但这也是一个市场自然淘汰和选择的过程。中国的做事方式和国外不太一样,搜索是这样,互联网也是这样,CV热也是这样,现在大模型应该还会有一个重复建设然后出清的过程。 甲小姐:你曾表达过ChatGPT的底层还是基于Transformer架构,在模型架构上没有太多创新,它的成功是“数据+工程+系统”层面的集成化创新。ChatGPT会是AI范式的最终状态吗,还是会出现一个新的范式颠覆它? 黄民烈:很有可能是后者,但现在也不好说。不能说OpenAI没有技术创新,他们肯定有各种各样的创新,只是现在披露出来的比较少。新的范式在2-3年可能不太会出现,但5-10年大概率会出现。在现在这个时代,技术发展具有很大的不可预测性。 甲小姐:回顾历史,AI范式一直合久必分分久必合,几个月前很多人认为ChatGPT路径正在一统江湖,目前这个趋势有变化吗?AI范式正朝着哪个力量发展,是归一的力量还是分化的力量? 黄民烈:大语言模型、多模态、视觉都是不同的方向,AI研究不一定是大一统的事情,会不断有新的元素融入进来。我本人更希望有多样性的发展,只有百家争鸣才能更好地激发创新,大一统的语言模型对于学术创新来说不一定是好事。 甲小姐:AI领域的next big thing可能是什么? 黄民烈:相对来讲,学术界更容易做出新的AI范式,例如神经网络和符号计算的大规模结合。也许是新的神经网络架构,也许是能解决现在模型问题的新的神经符号系统。 2.谈模式:“开源与否本质上是商业逻辑” 甲小姐:LLaMA2发布对市场影响很大,国内百川、阿里等都在开源,有些公司还没有确定未来究竟开源还是闭源。开源对一群人来说是原则问题,象征着极客精神和价值导向,对另一群人来讲是利润问题,如果开源和商业逻辑不匹配就很难开源。能否展开说说开源对市场产生了什么样的连锁反应? 黄民烈:说实话,公司会在不同阶段打不同的牌。Meta的LLaMA做得很好,但谷歌就不怎么开源,OpenAI也全部闭源,Claude介于开源、闭源之间,因为公司的战略打法不同。Meta作为后来者,可能以开源赢得市场认可、口碑,再想办法拓展商业客户。而且Meta对于商业利用还是有比较大的限制,它规定访问流量大于一定范围就必须受限。  相对而言,入局更晚的公司肯定要通过开源来赢得市场和业界的认可。因为不是每个人都有技术能力和算力资源去训练模型,那我就给你提供模型能力,服务很多中小B企业,还能不断收集数据去微调模型。像智谱、MiniMax,包括我们这种做得更早的公司,就在一定范围内开源,可以调用我们的API服务。所以并不存在完全的开源,这取决于公司的战略打法和发展阶段,以及早期采取的模型策略。 比如OpenAI就认为大模型很智能,如果开源让每个人都去用不一定是好事,把所有事情控制在自己手里相对更安全。我不知道这是他们的真实想法还是一种托辞,但我认为开源与否本质上还是商业逻辑。 甲小姐:安卓的开源会让很多人以极低的成本接入生态,但对普通人来说,要接入大模型依然门槛不低。 黄民烈:肯定要有算力,还要有一定的技术人员,否则就要依赖大模型生态中的工具链。但相比之下,开源是静态版本,闭源可以动态地更新系统。 甲小姐:是否可以理解为,刚开始创业就开源的公司很大程度上是以开源来吸附更多的资源,让公司进展更快,但很可能某天就会闭源,目前大模型领域还没有出现真正意义上的苹果和安卓,大家还是阶段性战术? 黄民烈:是的。开源会形成品牌效应,能够吸引来一定的商业客户,这是有很大影响力的。 甲小姐:接下来,大模型的发展逻辑是在ChatGPT的基础上继续修修补补、添砖加瓦,还是有其他的路径?...
AI复活李玟引版权争议:无商业目的也涉嫌侵权
AI律师助手

AI复活李玟引版权争议:无商业目的也涉嫌侵权

这篇文章讲述了一个博主利用AI技术复活已故歌手李玟的形象并收费的情况,引发了对是否侵犯逝者权利的争议。 lawyer表示,无论出于何种目的,未经允许制作和传播逝者形象和声音的虚拟视频都可能构成侵权。如果视频在网络平台上获得点击量和商业收益,那么就涉及到了商业用途,更是不可以 legal。
元宇宙:未来商业的新世界?
AI情感助手

元宇宙:未来商业的新世界?

这篇文章主要探讨了元宇宙在商业领域的应用和发展前景。"元宇宙"这一概念引起了广泛关注,有人认为它是一种工具,有人则视为下一代媒介,还有人认为是未来的一种生态。众多大公司开始积极布局,同时也有许多新生力量尝试涉足。文章提出,任何新事物的发展都需要时间和机会,而《销售与市场》这本近30年的营销类专业期刊,凭借其深厚的品牌资源和积累的经验,特别策划了《2048Talk》栏目,旨在推动元宇宙与品牌的深度融合,构建元宇宙营销体系,开创新一代媒介。
AI心灵守护师黑客马拉松决赛:抑郁症在线诊疗与减压舒缓工具
AI情感助手

AI心灵守护师黑客马拉松决赛:抑郁症在线诊疗与减压舒缓工具

文章介绍京东零售首届黑客马拉松大赛决赛情况,10支参赛队展示了自己的项目,评委从创新性、影响力和技术实现难度等方面进行评分。最终,《AI心灵守护师》团队获冠军,将获得30000元奖励基金。其他优秀项目也获得奖项和支持。本次比赛得到了技术团队的支持和京东集团的专利保护。