文章主题:DeepSpeed, 动态评估, 数据配比优化

666AI工具大全,助力做AI时代先行者!

国内大模型技术追赶步伐迅猛,场景化应用不断拓展。金融行业以其数据密集、知识密集、面向客户的劳动力密集等特点,与大模型能力特质高度匹配,是大模型最先落地的重点领域之一。

去年5月,度小满开源全球首个千亿级别金融开源大模型「轩辕」。今年,轩辕系列重磅升级——新发布12款金融大模型!6B、13B、70B参数的基座模型、对话模型、int4/int8量化模型完全开源,供广大开发者下载使用

发布亮点:

模型:开源3种参数,共12个模型。全参数模型矩阵达17个,十亿-百亿-千亿参数全覆盖,多场景任务适配

效果:定义金融评测基准,18大维度金融实战能力遥遥领先,多场景6B模型与72B模型表现相当;通用能力同样达到开源模型TOP水平,看齐GPT-4

数据:采用独创的数据处理流水线,生产更丰富、更安全、更符合中文场景的数据,初探OpenAI的核心机理

对齐首次人类偏好对齐引入金融垂域大模型训练,安全性显著提升、有用性突破瓶颈、金融任务表现明显增强

金融最懂金融——金融行业需要怎样的大模型?用行业痛点定义大模型能力范畴,解决金融核心业务场景问题,提升企业ROI

共享开源自动化训练框架,辅助入门者从0开始上手训练,代码全面开放

度小满「轩辕」大模型全参数矩阵

DeepSpeed动态训练,模型优强化!如何通过评估与调整优化轩辕大模型?

度小满轩辕大模型发布时间轴

度小满轩辕在2024年第一季度共开源12款全新金融大模型。加上2023年的开源模型,当前轩辕系列已经有17款开源大模型,适配广泛场景任务,满足不同开发者需要。

DeepSpeed动态训练,模型优强化!如何通过评估与调整优化轩辕大模型?

度小满轩辕大模型矩阵

模型矩阵的设计考虑了不同的应用场景和性能要求:70B及以上的模型专门针对需要深度分析、复杂指令执行以及全方位Agent调用的场景,而6B、13B的模型则更加适用于对响应速度有高要求、面向小规模场景和单任务的应用,它们也同样能够处理计算、编程、创作等一系列通用需求。特别地,最小化的XuanYuan-6B-4-bit量化Chat模型以其低推理部署成本,进一步降低了大模型的应用门槛。

轩辕系列全部大模型均可在开源社区免费下载。度小满还提供了每个模型的部署推理方式和微调方式,方便用户使用。

「轩辕」开源项目和社区的重要链接:GitHub:https://github.com/Duxiaoman-DI/XuanYuanHuggingFace:https://huggingface.co/Duxiaoman-DIModel Scope:https://modelscope.cn/organization/Duxiaoman-DI

模型效果:

18大维度金融实战能力遥遥领先

为了全面了解轩辕系列模型的效果表现,我们对XuanYuan-6B、XuanYuan-13B、XuanYuan-70B-V2模型进行了能力测评,包括对Chat模型的对话能力评测以及对基座模型的各项榜单能力评测。为验证轩辕大模型是否实现通用能力出色、金融成绩领先,我们区分了金融能力和通用能力两个维度进行详细评估。

01 金融能力

度小满轩辕大模型率先定义金融评测基准,为应对金融域大模型评测标准尚未完善的难题,于去年开源「FinanceIQ」大模型金融自动评测集。FinanceIQ专注中文金融领域任务,涵盖10个金融大类,36个金融小类,总计7173题。主要涵盖了注册会计师(CPA)、税务师、经济师、银行从业资格、基金从业资格、证券从业资格、期货从业资格、保险从业资格(CICE)、理财规划师几大权威金融领域考试。

DeepSpeed动态训练,模型优强化!如何通过评估与调整优化轩辕大模型?

FinanceIQ大模型金融自动评测集

将轩辕系列大模型在FinanceIQ测试集上进行测试,结果如下表,XuanYuan-70B-V2在该项评测任务上拥有超过GPT-4的水平,在知识层面展示出金融领域专家的水平。同时,考虑到小参数模型在金融知识问答场景更为灵活,轩辕团队还针对小参数模型进行了专门的考试能力优化,使得XuanYuan-6B和XuanYuan-13B在金融考试的指标上表现尤为突出。

DeepSpeed动态训练,模型优强化!如何通过评估与调整优化轩辕大模型?

度小满「轩辕」系列金融测评成绩

同时,为了考察轩辕大模型在金融实际任务上的能力,轩辕团队还特别组织了金融专家为对话大模型进行人工评测。任务的设计均是从金融行业实际应用场景出发,去判断轩辕是否在各项金融任务上具备“实战能力”。人工测评集共包含6大类目,18种任务,总题量500+。任务的设计如下:

DeepSpeed动态训练,模型优强化!如何通过评估与调整优化轩辕大模型?

人工金融评测集任务构成

评测过程采取多人盲评打分制,最终汇总均分进行排名。同时为了避免人类偏差,评测还使用了其他模型作为“裁判”进行打分,与人类评分一起参考。最终汇总结果显示,轩辕大模型各个参数上均具有“以小搏大”的实力,达到自己2倍甚至5倍参数量的模型水平。在各项金融评测任务上,XuanYuan-6B表现超越市面最新13B中文开源模型(左图),XuanYuan-13B表现超越市面最新72B中文开源模型(中图),XuanYuan-72B-V2表现可以媲美GPT4(右图),并且在金融法规、金融产品信息等中文场景上超越。

DeepSpeed动态训练,模型优强化!如何通过评估与调整优化轩辕大模型?

轩辕拥有远超同参数水平的金融能力

02 通用能力

将轩辕大模型在MMLU、CEVAL、CMMLU、GSM8K、HumanEval等中外主流评测集上进行评测,观察大模型在知识、逻辑、代码等通用能力上的表现。同时加入类似参数矩阵的LLaMA2系列进行比较,结果显示轩辕不同参数大模型在各项榜单成绩上均有优异表现,在CMMLU、C-Eval等多个中文评测榜单上,更是有超越GPT-4的水准

进一步分析发现,经过专门优化以增强考试能力的XuanYuan-6B和XuanYuan-13B模型,在C-Eval和CMMLU这两个中文考试评测指标上有了显著提升。然而,需要注意的是,“高分”并不意味着“高能力”。评测集成绩可通过优化模型考试能力来提升,不直接等同于模型在实际应用中的优势。因此,尽管小参数模型在某些评测中表现出色,这并不意味着它们的各方面真实能力均超越了同系列大参数模型。

DeepSpeed动态训练,模型优强化!如何通过评估与调整优化轩辕大模型?

轩辕大模型在各个评测集上的分数

「轩辕」技术解析:

数据清洗稳准狠,对齐技术突破能力瓶颈

度小满轩辕大模型团队在过去一年,对大模型训练的各个环节积累了丰富的经验。这包括了预训练阶段数据配比对训练结果的影响、微调方式对模型对话性能的影响等。以及本次突破性地引入了团队潜心研究的人类偏好对齐技术,极大地提升了6B、13B、70B模型的对话能力,实现了在有用性、安全性、稳定性等多方面的突破。特别是在金融领域,人类偏好对齐技术的应用显著增强了模型的场景适应性。01 数据

数据质量是模型训练成功的核心要素,必须具备三个基本条件:大规模、多样性和高质量。以轩辕系列的XuanYuan-6B模型为例,它的预训练数据集融合了多种类型的数据资源,如网页内容、百科资料、学术期刊、以及问答对话等,并特意融入了一定比例的金融数据以增强其在金融领域的表现力。具体数据分布如下表所示:

DeepSpeed动态训练,模型优强化!如何通过评估与调整优化轩辕大模型?

XuanYuan-6B预训练数据构成

为保证数据质量,轩辕团队还采取了一系列方法对数据进行处理,包括规则清洗、PPL过滤、数据去重和内容安全过滤等环节。

规则清洗:按照预先设计的一系列规则来对数据进行规范化和过滤,能够解决大量有明显问题的数据。具体而言,规则清洗主要包括以下几方面:

    o 格式规范化:包括中文繁简转换,标点符号全半角统一、重复符号压缩处理等;

    o  关键词过滤(篇章级):使用恶意关键词过滤明显有害的文本;

    o  长度过滤(行级别):过滤掉过短或无效片段。

PPL过滤: 用PPL(困惑度)作为衡量数据内容质量的一项指标,使用统计语言模型针对PPL过高的文本进行过滤,保留语义流畅的高质量文本内容。

数据去重: 使用MinHash方案进行重复数据过滤,主要包括:MinHash生成、构建LSH索引和相似的pair、根据相似的pair求连通图、全局去重。

内容安全过滤: 目标是过滤掉垃圾广告、政治敏感、暴力、色情等不符合人类价值观的数据。为了保持模型的泛化性,详细制定了不同领域的内容标准,人工标注有害和无害样本,训练多个内容有害分类器。再经过人工评估,确定分类器的阈值,在清洗掉有害文本的前提下,避免大量误伤文本。

轩辕团队还采取了数据质量和数据安全评估机制,对加入训练的每份数据都会进行严格评估,形成了数据获取-数据处理-数据评估的一整套流程,为后续模型训练效果提供了坚实的基础保障

02 训练

🏆🚀【深度探索,模型霸权】🔍——轩辕大模力透分布式训练法🔥💡采用行业领先的DeepSpeed架构,我们赋能巨轮级模型,以超凡速度驰骋AI领域!🌍🔍动态评估与调整机制,犹如精准导航仪,每到关键节点,对性能进行深度扫描。🚀无论任务重压还是基准挑战,它都能迅速反应,确保模型在每个阶段都熠熠生辉。🌟📈数据配比的魔术师,根据评估反馈,灵活调配训练资源。源于多元的数据源头,就像海洋中的鱼群,精准喂养,以数据为食,提升效率与精度并存。🐟🔍这一创新策略,让模型训练如同马拉松,实时调整步伐,适应环境变化,每一步都向着最优性能迈进。🏃‍♂️🏆通过深度优化的训练过程,轩辕系列大模型展现出了无可匹敌的实力,引领未来智能浪潮。🌊欲了解更多高效训练秘籍,欢迎关注我们的最新动态!👉[链接] ——你的AI知识宝藏库!

在微调阶段,轩辕特别的采用了Self-QA策略来收集指令微调数据。该方法能够在没有人工标注的情况下生成大量高质量的问答数据,为模型提供有监督的训练样本,有效提升模型的学习效率和质量。

DeepSpeed动态训练,模型优强化!如何通过评估与调整优化轩辕大模型?

轩辕大模型Self-QA数据构造方法

针对金融领域的特定需求,轩辕大模型还开发了一种混合微调训练框架,旨在通过融合通用与特定领域数据来增强模型性能及适应性。该框架结合了无监督和有监督学习方法,利用广泛的数据类型维持预训练知识,有效避免了训练过程中可能出现的灾难性遗忘现象。这种混合微调方法不仅显著提高了模型在特定任务的表现,也增强了其整体的泛化能力和适应性,为金融领域任务的性能提升开辟了新途径。

03强化学习

度小满创新地在金融领域大模型中引入了人类偏好对齐技术,开创了领域内强化对齐训练的先河。

通常,领域大模型仅在微调阶段引入特定领域数据,但这种方法在实际应用中常常显示出局限性。金融行业的复杂性要求模型能够更深入地理解并适应行业特定的需求而,强化对齐训练有助于突破仅依靠微调所能达到的性能瓶颈。

轩辕团队精心构建了涵盖通用性、安全性和金融特性的Prompt数据集,并组织了专业的标注团队对成对的回答进行偏好标注,从而收集到了一批高质量、广覆盖的偏好数据。接下来,团队通过一系列实践、分析和改进, 成功完成了奖励模型(Reward Model)和后续的强化(采用近端策略优化算法)训练。为确保评估的客观性和准确性,轩辕团队还特意聘请了专业评估团队对模型进行了全面评估,评估内容涵盖了模型的通用性、安全性和金融领域能力等多个方面。为避免评估过程中的个人偏好差异对结果产生影响,每个评估题目都由三名不同的评估人员独立进行,且评估内容对模型开发团队严格保密,以防止通过特定训练提高评估成绩。

下图以XuanYuan-6B为例展示了模型在通用性(评估时安全性被纳入了通用性范畴)和金融能力的综合评估结果。从图中可以看出,在两个领域,经过人类偏好对齐后,模型的能力都有了极大的提升,证明了强化对齐训练的有效性

DeepSpeed动态训练,模型优强化!如何通过评估与调整优化轩辕大模型?

RLHF-model vs SFT-model

DeepSpeed动态训练,模型优强化!如何通过评估与调整优化轩辕大模型?

通用能力:RLHF-model vs SFT-model

DeepSpeed动态训练,模型优强化!如何通过评估与调整优化轩辕大模型?

金融能力:RLHF-model vs SFT-model

04 轩辕自动化训练框架,面向公众开放

度小满轩辕大模型团队一向贯彻开源开放的原则。为了让广大开发者能够更容易的上手使用大模型,使用真实数据和真实代码作为示例,详细介绍了训练模型的每个关键步骤。现在相关代码已经上传开源社区,代码包括以下内容:

·    自动化训练框架:详细介绍团队提出的自动化训练框架,特别针对初学者设计,确保用户能够迅速掌握并开始训练。

·    模型预训练:详尽说明了从语料预处理到模型与数据加载,再到配置训练参数等一系列预训练过程,为开发者提供了一套完整的预训练指南。

·    模型微调:提供了一步步的微调教程,包括如何加载预训练模型、设定训练参数、定义损失函数以及执行模型训练,帮助开发者更好地理解并实践模型微调过程。

DeepSpeed动态训练,模型优强化!如何通过评估与调整优化轩辕大模型?

「轩辕」自动化训练框架

金融行业需要怎样的大模型?

在探讨适合金融行业的大模型时,必须考虑到金融行业的独特挑战,如其深度的专业性、迅速变化的知识体系和数据处理与分析的高度复杂性。尽管通用大模型在众多领域展现出卓越能力,面对金融领域的专业化和定制化需求时,它们往往显得力不从心。金融领域对大模型的要求远超过基本的“判断”与“生成”能力,更加强调在“分析”与“决策”过程中的高级能力,这些能力是触及金融企业核心利益的关键。

因此,金融行业所需的大模型不仅需要覆盖特定的金融知识,如术语解释、法规政策、业务流程和经典案例分析,也需具备深度学习和适应能力,以模拟人类专业成长路径:从基础教育的“中学生”到专业知识深厚的“大学生”,最终成为能够熟练应对实际工作场景的“职场专家”

DeepSpeed动态训练,模型优强化!如何通过评估与调整优化轩辕大模型?

轩辕金融大模型:从通才中学生到专才职场人的进阶之路

金融核心业务的执行依赖于对大量用户、业务和行业数据的精准处理与分析,这对大模型的代码、逻辑推理和计算能力提出了极高要求。大模型的价值体现在其能否在这些核心业务场景中发挥实际作用,如通过综合分析用户信息以支持风险评估、客户画像绘制、精准营销策略;或通过企业数据分析支持财务审查、智能投顾和行业研究。

金融大模型的最终目标是提高企业ROI。这意味着,高效的金融大模型应当能够在实际应用中,如客服场景,通过提升对话处理、指令遵循和意图理解能力,不仅短期内提高客服效率,长期还可能实现机器人客服的全面替代,重塑客户服务流程,推动金融服务向更高智能化水平迈进。这样的大模型不仅解决了金融行业的即时需求,也为未来的发展奠定了坚实的基础

关于度小满「轩辕」大模型:

度小满在2023年5月发布千亿参数规模中文大模型“XuanYuan-176B”。2023年9月, “XuanYuan-70B”大模型在C-Eval和CMMLU两大权威榜单上位列所有开源模型榜首。本次度小满轩辕大模型更新6B、13B、70B版本,开源模型数量已达17个。用户可以直接在开源社区下载体验。

度小满轩辕大模型系列具有以下特色:

·       多尺寸开源,开发者友好

·       拥抱开源,免费下载使用

·       版本快速迭代,社区持续更新

·       持续面相金融行业伙伴交流共建

欢迎大家下载使用并与我们进行交流互动!

我们期待与每一位AI路上志同道合的你一起学习进步!

DeepSpeed动态训练,模型优强化!如何通过评估与调整优化轩辕大模型?

AI时代,掌握AI大模型第一手资讯!AI时代不落人后!

免费ChatGPT问答,办公、写作、生活好得力助手!

扫码右边公众号,驾驭AI生产力!