“千模大战”背后的数据之争。
21世纪经济报道作者 |李览青周炎炎新媒体编辑 |赖睿颖
过去的世界人工智能大会(WAIC)上,各家厂商AI大模型“大秀肌肉”。在“千模大战”的硝烟背后,大众普遍关心的话题是,谁将历经千帆成为中国版OpenAI?
“大模型的迭代是一场‘暴力’填数据、拔规模而造就的‘美学盛宴’。”中金公司研究团队在近日发布的“AI浪潮之巅”系列报告中如是说。
尽管作为推动AI大模型发展的“三驾马车”,数据、算力、算法都关系着大模型技术商业化落地的成败,但从多位接受21世纪经济报道记者采访的业内人士看来,在“抢芯片”之外,决定大模型质量和商业化落地的核心要素是数据。对于既要安全又要发展的金融业而言,在数据共享尚不充分的大模型起步阶段,更需要建立开放的行业生态。
大模型时代的数据之痛
金融行业对模型并不陌生,机器学习也不是新鲜词。
一直以来,在智能营销、智能风控、智能投研、智能客服等领域,基于机器学习驱动的建模能力都是金融机构数智化转型的基础。“大模型”是大型语言模型的简称,机器用大规模语料库数据进行训练,通过算法从数据中学习如何完成任务,参数规模大、数学公式复杂。从AlphaGo到ChatGPT,如今机器已经可以在开放系统下实现自我学习与持续反馈。
与过去相比,当下的大模型时代对算力、算法、数据的需求已然改变。
“今天的AI体系是强依赖数据的,是数据驱动的智能体系。”蚂蚁集团副总裁兼首席技术安全官韦韬表示。
“这次OpenAI为我们带来的最重要的技术并不是几千亿的参数,而是基于数据的反馈,让这个系统在持续强化学习下越来越聪明。”马上消费金融CIO蒋宁告诉记者,即使大模型具备优秀的算法,如果没有高质量数据集的训练,就像失去学习能力的博士生,会逐步失去竞争力。
然而,目前“千模竞帆”背后是国内各厂商的数据生态割裂。
“目前在通用大模型建设过程中,一方面当前中文高质量数据有限,另一方面中国移动互联网生态与互联网生态处于割裂情况。”蒋宁告诉记者。
上海数据交易所副总经理韦志林在接受21世纪经济报道记者采访时指出,大模型之所以强大,能够不断地迭代,都依赖于算力算法以及最重要的数据。“在‘三驾马车’中,数据是最核心、最长远、最基础的要素,它每天都在产生,应用场景非常丰富。”从其与大模型企业沟通的情况来看,相较全球语料库建设,国内语料库供给需要进一步提升,语料库的质量、标准、多样性都有所欠缺。
“大模型技术出现后,数据供应的过程中还遇到四方面问题。”中国电子副总经理陆志鹏提到,一是缺少合规确权的机制,目前国内面临的问题就是数据的有效供给不足。很多企业都在做语料库,但数据都非常有限,而且可能面临着统一标准的问题;二是缺少数据的计量估价机制;三是缺少协调分配;四是缺少安全隐私保护机制。
“我们国家的数据生产量全球排名在第二名,但是分散在各个行业、各个组织中,整体的数据是分开的。但大模型所需要是将数据进行物理归集,在短时间内基于一定的算力与算法进行预训练。”韦志林提到,国内各大主流厂商都推出了基于己方已有数据的大模型,但由于数据分散、丰富度不足、质量参差不齐等原因,各个大模型都存在一定的局限性。
“数据已经成为重要的生产要素,当数据开放共享的安全与收益分配机制还不完善,具有大量数据的头部大厂开放高质量数据集的意愿不足,所以其主要将数据价值创新服务于企业内部,而没有拿出去的动力。”韦志林表示。
金融业的垂直大模型解法
通用大模型激战正酣,金融业的大模型运用则主要在行业垂直模型领域。
今年3月,彭博针对金融业推出大型语言模型BloombergGPT,引发市场对金融垂直领域大模型的关注。
在国内,今年5月,星环科技推出了第一款面向金融量化领域的生成式大语言模型“无涯Infinity”,度小满开源国内首个千亿参数金融大模型“轩辕”,今年6月,恒生电子发布金融行业大模型LightGPT,并宣布将于9月底正式开放试用接口。
多位受访对象向21世纪经济报道记者表示,目前金融业的大模型运用主要在工具层与应用层,无论是技术服务商还是金融机构,都在“量力而为”。
“我们以后不会再开发其他领域的模型,每个行业都有自己的行业壁垒。”星环科技CEO孙元浩在接受记者采访时提到,公司的主要战略是提供大模型(LLMOps)的工具链,帮助金融机构训练自己的大模型。“基础大模型与应用之间的鸿沟实在是太大了,我们不可能用一家公司去做每个行业的大模型。和过去相比,大模型主要有2个方面需要改造,一是高达上千亿的模型参数,需要算力支持,需要分布式、高可扩展的调度框架,二是巨量的高质量语料训练。”孙元浩表示,在过去服务于证券行业时,有二十万个已完成标注的语料,也开发了量化因子,使得其训练的模型基于量化策略可以直接用来做示范交易。
对金融机构内部来说,垂直领域的大模型更类似于“个性化小助手”与业务流程优化助手。
众安保险首席技术官蒋纪匀告诉记者,大模型在保险业的落地,需要关注大模型在保险专业领域的知识增强,在合规安全的前提下,对接口调校和限制也有更高要求。因此众安自主研发了AIGC中台灵犀,通过适配如GPT、通义千问、文心一言等国内外主流大模型,灵犀可以帮助保险机构更好适配AIGC能力,允许机构用户,在大模型内嵌入行业专业领域知识库,实现AIGC在保险垂直领域的应用快速适配。
“谈论大模型技术在金融核心业务场景下的应用为时尚早。”萨摩耶云创始人兼董事长林建明在接受21世纪经济报道记者专访时提到,金融业对于算法可解释性与可信度要求极高,AI仍处于“前牛顿时代”,人类还没有搞懂基本原理,目前萨摩耶云对语言生成模型的应用主要集中在结合个性化推荐、用户画像等,解决线上线下协同过程中的自动化断点问题。
行业拥抱生态互通
当通用大模型走向金融行业落地,割裂的数据生态使越来越多的机构拥抱合作互通。
就在7月10日,中国证监会科技监管局局长姚前刊文《关于大模型生态建设的若干思考》。姚前指出,在具体应用落地的过程中,GPT类大模型还会面临一系列挑战。一是如何确保训练数据的数量与质量。一般而言,大模型的训练语料为来自于多个领域的通用语料,而专业语料的收集通常比较耗时费力,同时也存在隐私问题,由此导致大模型在具体的个别应用领域可能出现专业性不足的情况。二是如何降低大模型的运行和维护成本。大模型需要巨大的算力支持和严格的数据治理,普通的机构和应用部门往往难以支撑大模型的运行以及迭代升级工作。为此,需要建立一个各类模型健康交互和协同进化的生态,以保证大模型相关人工智能产业可以在各个应用领域成功落地。
目前金融机构与通用大模型厂商的合作正在加速。在世界人工智能大会上,交通银行与华为、腾讯云、科大讯飞宣布共建3个联合创新实验室,分别聚焦大模型在金融领域的应用与创新、增强网络空间安全防御能力、研究认知模型在金融领域的应用。
针对目前金融数据开放依然不充分的问题,科大讯飞总裁吴晓如在接受21世纪经济报道记者采访时表示,其在合作中的做法分为两步,第一步是无监督训练,把大量公开数据和素材放进模型,帮助金融机构训练基础模型;如果金融机构需要模型针对行业做精细化调整,其并不需要太大算力,科大讯飞将在联合创新实验室中为金融机构提供工具,让其自己做调试优化。
往期荐读
蚂蚁集团整改完成:被罚71.23亿元,估值下降40%;阿里考虑回购蚂蚁股份;中信消费金融回应股权变更
《私募投资基金监督管理条例》自9月1日起施行;首只强制退市可转债进入退市整理期;6月制造业PMI指数低位反弹丨大资管一周情报
人保资产袁新良:新一轮库存上行周期预计将在下半年开启 经济复苏斜率有望抬升丨对话资管30人