人手一个AI健康助手!大模型时代的搜索引擎「蜕变」
(头图由AI工具生成) 作者 | 三北编辑 | 漠影 智东西12月27日报道,今年9月,国外一名身患怪病的男孩三年求医17名医生无果,却因被ChatGPT正确诊出“脊髓栓系综合征”而成功获救。这让人们第一次直观感受到大模型在健康信息服务领域的巨大潜力。 现在,这种潜力正在被科技公司们转化为端到端的闭环产品。一些科技公司面向医疗机构客户开放了大模型服务,也有团队开源了医疗大模型群,但要说广大用户最直接可感的,还是智能搜索引擎夸克App近期悄然上线了一款“夸克健康助手”。 日前,夸克进行了健康搜索的全面升级,用户在部分搜索结果中会得到由“夸克健康助手”提供的AIGC内容。据悉,在夸克搜索健康信息的正确率超过90%,处在行业第一梯队。 ▲在夸克App调用夸克AI健康助手 首次体验后,用户便可将夸克健康助手添加到App首页,以便随时调用。 ▲将夸克AI健康助手添加到夸克App首页 据夸克相关负责人称,夸克自研大模型已经凭486分的高分通过了临床执业医师资格考试,同时在健康内容上的幻觉率已经降低至5%以内,达到远优于同行的水平。 自年初ChatGPT爆火以来,微软、谷歌等科技巨头纷纷推了出AI版搜索引擎,但面对专业知识要求更高的健康信息服务领域,各路玩家或保持观望或小范围试水。作为2018年就明确了智能搜索引擎定位的新锐选手,夸克率先在健康领域迈出了革新搜索的第一步。 夸克自研大模型在搜索的实际落地效果如何?背后有什么样的技术挑战和行业真相?通过深扒夸克健康大模型应用,本文对此进行了深入探讨。 一、实测AI健康助手:简单对话,多维诊断 打开夸克App,虽然首页没有发生明显变化,但搜索结果呈现已经被夸克大模型悄然改变。 如下图所示,当智东西输入“咳嗽检查”这一问题,搜索结果中出现了AIGC内容和夸克健康助手的入口。用户可以先简单的了解病症信息,然后在根据自己的身体情况进行选择和对话。 点击进入夸克健康助手,页面变成一个对话框形式。当智东西换一个问题:“经常口腔溃疡是什么原因”,夸克健康助手从非病理因素和病理因素给出了问题的答复。或许是考虑到回答较含糊,夸克健康助手进一步给出了一个卡片选项,使我可以补充症状,从而获取更精准的答案。 在我提供了补充症状之后,夸克健康助手果然给出了更聚焦的治疗建议,并给出主要原因分析、科室就医建议、如何进一步确诊等一系列问题的答案。 当智东西问到“家里老人刚做完宫颈手术,有什么吃食建议?”时,夸克健康助手给出了针对性的饮食建议。当涉及偏门的问题,比如“有人说鱼是发物,也是可以吃的吗?”,夸克健康助手也能根据跨中西医的知识,给出明确的分析判断:“可以适量食用”。 夸克健康助手的一大特点是病情病例描述具体,而不是泛泛而谈,因此具有更强的参考性。 比如当智东西问到“我胳膊肘处有小块红色点群状胎记,不太光滑,有一些充血,可能是什么疾病?”,夸克健康助手立马给出了血管瘤、鲜红斑痣、草莓状毛细血管瘤等几种可能。 通过“质软可被压缩、“菜花状”等描述,加上超链接中的图片,血管瘤的可能性看起来更大。通过夸克健康助手,我进一步了解到这是一种大概率不会给身体带来危险的良性肿瘤。实际上,这是我家人的真实病例,夸克给出的判断与此前在医院检查所得的结果一致。 再来看看智能筛查功能,比如智东西在搜索引擎中输入“55岁男士经常胳膊麻是怎么回事”,智能筛查卡片弹出并给出了持续时长、发病部位、行为诱因等多个选项。 当选择持续数月、单侧选项之后,夸克则提示我这可能与颈椎病、脑出血、脑血管病有关。点击可能的病状,如点击脑出血板块进入解答链接,只见有首都医科大学的主任医师来为我解答背后的原因。 实际上,这一病例的患者确实在出现手麻症状之后的几个月后突然脑出血,可见这个智能筛查的功能还是比较具有参考性的。 经过试用智东西发现,夸克健康助手在健康问题咨询上基本上没出现答非所问、胡编乱造、上下文不流畅的情形,甚至还比较准确地给出了初诊结果。虽然这种建议不能替代医疗诊断,但有助于帮患者在就医前进行初步自查。 必须承认,夸克健康助手在一些问题回答上偏保守,比如在多则建议后都指出“以上建议仅供参考”,但它作为一款辅助性的健康助手,已经比传统搜索引擎好用了不少。 二、大模型进入专业领域,安全准确是第一道关口 体验完产品应用,我们将目光转向产业和技术。 从通用搜索到健康等专业搜索领域,大模型正在彻底改变搜索引擎的玩法,背后的关键因素是知识准确度的提升。 回顾年初ChatGPT爆火全球以来,先是微软率先将ChatGPT接入了Bing搜索,而后谷歌以及国内的百度、夸克等纷纷将搜索引擎接入大模型,短视频平台抖音近期也传出正在内测AI视频搜索……互联网大厂纷纷抢滩AI搜索赛道。 背后,大模型正在打破传统搜索引擎的技术瓶颈:传统搜索引擎依赖关键词匹配,难以理解上下文;仅调取网上已有内容,内容相关度和质量不足;难以区分真假信息,误导用户等。大模型对搜索的变革在行业已有共识,基于理解、知识、创作、对话、推理等多重能力,将带来更准确、更全面、更交互的信息服务体验。 但与此同时,大模型在知识准确度上表现不足,阻碍其进入更专业的信息服务领域。 以健康领域为例,这是很多人使用搜索引擎的典型场景,却是大模型久攻不下的一座城池。 究其背后原因,还是“幻觉”问题。由于医生无法给患者详细解释每一个医疗健康知识,患者很多知识需求是通过网络获取的。但由于大模型存在幻觉,会捏造信息,很可能给出错误的疾病判断、用药建议,使得患者贻误病情,后果不堪设想。 安全准确是健康信息服务的第一道关口,夸克专门对此进行了攻关。夸克相关负责人称,夸克做了很多健康行业数据建设和知识建设,从而使其知识错误率能降到了5%以下,这才具备了产品推向广大C端市场的底气。 解决大模型应用的问题,首先要先解决知识正确性的问题。为此,夸克建设了大量的医典百科、医典问答的C端用户数据,整理了大量的指南、标准、书籍等一系列数据,并建设了完整的医疗知识图谱,由此大大降低了大模型的幻觉。 值得一提的是,为了确保内容的专业性、正确性和科学性,夸克还成立了健康专家团。一方面其与200多位权威医学专家、60多家全国知名公立三甲医院和40多家医学机构合作,共建大模型内容生态;另一方面,夸克招募了健康大模型精调师,结合用户需求和热门病症,提供最新健康知识。 由此形成的千亿参数级别的夸克自研大模型,助其跨越安全准确第一道关口,进入专业搜索领域。 三、千亿级参数大模型,四个大招变革搜索 根据知名行研机构IDC今年8月发布的报告,在大模型的推动下,2027年全球人工智能IT总投资预计增至4236亿美元,约合3.1万亿元人民币。在这一新蓝海前景下,互联网巨头、科技行业龙头和AI创企几路玩家掀起了声势浩大的「百模大战」。 而随着「百模大战」的焦点演变为大模型产业化落地,夸克这样交叉领域玩家快速走到了聚光灯下。 夸克于11月22日正式公布了全栈自研、千亿级参数的夸克大模型。同时,夸克大模型已登顶C-Eval和CMMLU两大权威榜单,多项性能优于GPT-4,亦在法律、医疗、问答等领域的性能评测中夺冠。 要达成这样的成绩,并非没有挑战。...