(头图由AI工具生成)
作者 | 三北编辑 | 漠影
智东西12月27日报道,今年9月,国外一名身患怪病的男孩三年求医17名医生无果,却因被ChatGPT正确诊出“脊髓栓系综合征”而成功获救。这让人们第一次直观感受到大模型在健康信息服务领域的巨大潜力。
现在,这种潜力正在被科技公司们转化为端到端的闭环产品。一些科技公司面向医疗机构客户开放了大模型服务,也有团队开源了医疗大模型群,但要说广大用户最直接可感的,还是智能搜索引擎夸克App近期悄然上线了一款“夸克健康助手”。
日前,夸克进行了健康搜索的全面升级,用户在部分搜索结果中会得到由“夸克健康助手”提供的AIGC内容。据悉,在夸克搜索健康信息的正确率超过90%,处在行业第一梯队。
▲在夸克App调用夸克AI健康助手
首次体验后,用户便可将夸克健康助手添加到App首页,以便随时调用。
▲将夸克AI健康助手添加到夸克App首页
据夸克相关负责人称,夸克自研大模型已经凭486分的高分通过了临床执业医师资格考试,同时在健康内容上的幻觉率已经降低至5%以内,达到远优于同行的水平。
自年初ChatGPT爆火以来,微软、谷歌等科技巨头纷纷推了出AI版搜索引擎,但面对专业知识要求更高的健康信息服务领域,各路玩家或保持观望或小范围试水。作为2018年就明确了智能搜索引擎定位的新锐选手,夸克率先在健康领域迈出了革新搜索的第一步。
夸克自研大模型在搜索的实际落地效果如何?背后有什么样的技术挑战和行业真相?通过深扒夸克健康大模型应用,本文对此进行了深入探讨。
一、实测AI健康助手:简单对话,多维诊断
打开夸克App,虽然首页没有发生明显变化,但搜索结果呈现已经被夸克大模型悄然改变。
如下图所示,当智东西输入“咳嗽检查”这一问题,搜索结果中出现了AIGC内容和夸克健康助手的入口。用户可以先简单的了解病症信息,然后在根据自己的身体情况进行选择和对话。
点击进入夸克健康助手,页面变成一个对话框形式。当智东西换一个问题:“经常口腔溃疡是什么原因”,夸克健康助手从非病理因素和病理因素给出了问题的答复。或许是考虑到回答较含糊,夸克健康助手进一步给出了一个卡片选项,使我可以补充症状,从而获取更精准的答案。
在我提供了补充症状之后,夸克健康助手果然给出了更聚焦的治疗建议,并给出主要原因分析、科室就医建议、如何进一步确诊等一系列问题的答案。
当智东西问到“家里老人刚做完宫颈手术,有什么吃食建议?”时,夸克健康助手给出了针对性的饮食建议。当涉及偏门的问题,比如“有人说鱼是发物,也是可以吃的吗?”,夸克健康助手也能根据跨中西医的知识,给出明确的分析判断:“可以适量食用”。
夸克健康助手的一大特点是病情病例描述具体,而不是泛泛而谈,因此具有更强的参考性。
比如当智东西问到“我胳膊肘处有小块红色点群状胎记,不太光滑,有一些充血,可能是什么疾病?”,夸克健康助手立马给出了血管瘤、鲜红斑痣、草莓状毛细血管瘤等几种可能。
通过“质软可被压缩、“菜花状”等描述,加上超链接中的图片,血管瘤的可能性看起来更大。通过夸克健康助手,我进一步了解到这是一种大概率不会给身体带来危险的良性肿瘤。实际上,这是我家人的真实病例,夸克给出的判断与此前在医院检查所得的结果一致。
再来看看智能筛查功能,比如智东西在搜索引擎中输入“55岁男士经常胳膊麻是怎么回事”,智能筛查卡片弹出并给出了持续时长、发病部位、行为诱因等多个选项。
当选择持续数月、单侧选项之后,夸克则提示我这可能与颈椎病、脑出血、脑血管病有关。点击可能的病状,如点击脑出血板块进入解答链接,只见有首都医科大学的主任医师来为我解答背后的原因。
实际上,这一病例的患者确实在出现手麻症状之后的几个月后突然脑出血,可见这个智能筛查的功能还是比较具有参考性的。
经过试用智东西发现,夸克健康助手在健康问题咨询上基本上没出现答非所问、胡编乱造、上下文不流畅的情形,甚至还比较准确地给出了初诊结果。虽然这种建议不能替代医疗诊断,但有助于帮患者在就医前进行初步自查。
必须承认,夸克健康助手在一些问题回答上偏保守,比如在多则建议后都指出“以上建议仅供参考”,但它作为一款辅助性的健康助手,已经比传统搜索引擎好用了不少。
二、大模型进入专业领域,安全准确是第一道关口
体验完产品应用,我们将目光转向产业和技术。
从通用搜索到健康等专业搜索领域,大模型正在彻底改变搜索引擎的玩法,背后的关键因素是知识准确度的提升。
回顾年初ChatGPT爆火全球以来,先是微软率先将ChatGPT接入了Bing搜索,而后谷歌以及国内的百度、夸克等纷纷将搜索引擎接入大模型,短视频平台抖音近期也传出正在内测AI视频搜索……互联网大厂纷纷抢滩AI搜索赛道。
背后,大模型正在打破传统搜索引擎的技术瓶颈:传统搜索引擎依赖关键词匹配,难以理解上下文;仅调取网上已有内容,内容相关度和质量不足;难以区分真假信息,误导用户等。大模型对搜索的变革在行业已有共识,基于理解、知识、创作、对话、推理等多重能力,将带来更准确、更全面、更交互的信息服务体验。
但与此同时,大模型在知识准确度上表现不足,阻碍其进入更专业的信息服务领域。
以健康领域为例,这是很多人使用搜索引擎的典型场景,却是大模型久攻不下的一座城池。
究其背后原因,还是“幻觉”问题。由于医生无法给患者详细解释每一个医疗健康知识,患者很多知识需求是通过网络获取的。但由于大模型存在幻觉,会捏造信息,很可能给出错误的疾病判断、用药建议,使得患者贻误病情,后果不堪设想。
安全准确是健康信息服务的第一道关口,夸克专门对此进行了攻关。夸克相关负责人称,夸克做了很多健康行业数据建设和知识建设,从而使其知识错误率能降到了5%以下,这才具备了产品推向广大C端市场的底气。
解决大模型应用的问题,首先要先解决知识正确性的问题。为此,夸克建设了大量的医典百科、医典问答的C端用户数据,整理了大量的指南、标准、书籍等一系列数据,并建设了完整的医疗知识图谱,由此大大降低了大模型的幻觉。
值得一提的是,为了确保内容的专业性、正确性和科学性,夸克还成立了健康专家团。一方面其与200多位权威医学专家、60多家全国知名公立三甲医院和40多家医学机构合作,共建大模型内容生态;另一方面,夸克招募了健康大模型精调师,结合用户需求和热门病症,提供最新健康知识。
由此形成的千亿参数级别的夸克自研大模型,助其跨越安全准确第一道关口,进入专业搜索领域。
三、千亿级参数大模型,四个大招变革搜索
根据知名行研机构IDC今年8月发布的报告,在大模型的推动下,2027年全球人工智能IT总投资预计增至4236亿美元,约合3.1万亿元人民币。在这一新蓝海前景下,互联网巨头、科技行业龙头和AI创企几路玩家掀起了声势浩大的「百模大战」。
而随着「百模大战」的焦点演变为大模型产业化落地,夸克这样交叉领域玩家快速走到了聚光灯下。
夸克于11月22日正式公布了全栈自研、千亿级参数的夸克大模型。同时,夸克大模型已登顶C-Eval和CMMLU两大权威榜单,多项性能优于GPT-4,亦在法律、医疗、问答等领域的性能评测中夺冠。
要达成这样的成绩,并非没有挑战。
据夸克相关负责人称,对于前文提到的幻觉问题,夸克在千亿级的网页里选择了几亿级的高质量网页。这一筛选过程极其复杂,获取海量中文数据和知识难度大,网页里垃圾数据极多,对非搜索引擎厂家来说成本代价会非常高,但夸克却设法高效解决了这些问题。
同时,国内外的大模型玩家都遇到的另一大挑战是人类知识对齐和SFT(监督微调)精标数据对齐问题。由于有用SFT样本数据很稀缺,夸克专门建立了专业团队,囊括了医生等行业的资深从业人员,通过跨领域作战攻克难关。
最终,基于搜索业务基础与智能技术积累,夸克大模型试图从以下四大方面建立护城河:
1、最全面的通用知识数据和行业知识数据,以及知识理解和评估体系;
2、基于搜索技术体系的积累,打造了千亿级参数平台的模型训练能力;
3、拥有长期智能化产品经验的智能技术产运团队,覆盖搜索、智能化及行业等多维领域。
4、拥有全行业的知识增强技术体系及能力,助大模型减少幻觉,增强可用性。
当下大模型的爆发,源头要追溯到2017年谷歌提出的Transformer模型。当时刚诞生一年的夸克也关注到AI发展趋势,随即在2018年就提出了AI为基础的智能搜索引擎,并确立“基于AI技术做前沿、无畏的创新探索”的研发方向。
如今,随着围绕Transformer展开的大模型技术体系逐渐成熟壮大,夸克在智能信息服务这一领地亮出四把利剑,向传统搜索行业吹响了变革的号角。
结语:大模型带来信息搜索新玩法
大模型将带来全新的搜索引擎玩法。正如清华大学新闻学院教授、博士生导师沈阳所说,搜索引擎天然具有各种网络公开数据,在内容安全上经历了长时间的考验,且用户提供了大量的查询需求交互,因此搜索引擎跟大模型的结合是天然之配。
相比于微软、谷歌等传统搜索引擎巨头,智能搜索引擎新锐玩家夸克选择从健康这一专业化要求极高的场景突破AIGC应用。直击行业痛点,背后是其在数据、搜索技术、知识增强技术及团队方面的差异化打法。不过,AI搜索的抢滩大战仍处于早期阶段,谁会在产品的角逐中赢得更多用户的心,还要等时间来验证最终答案。