【金融GPT系列二:挖掘垂直场景数据,2B金融GPT是一片新蓝海】天风计算机缪欣君团队
AI金融助手

【金融GPT系列二:挖掘垂直场景数据,2B金融GPT是一片新蓝海】天风计算机缪欣君团队

天风计算机团队 作者 | 缪欣君 详细信息请联系 | 李璞玉 摘要 当前市场大家普遍认为,大模型基于其通用性,会在C端市场攫取更多发展空间。但结合论文《GPTs are GPTs: An Early Look at the Labor Market Impact Potential of Large Language Models》中的观点,大模型的能力或在未来引起行业层面对人力资源的需求降低。产业的变革,由产业的软件触发。据此我们判断,当前时点大模型在B端的发展机会或被低估。 从落地角度看,GPT在金融业推广的两个基础已经具备。1)看需求,客服与销售人力成本高昂有望为AI替代提供广阔空间。金融行业人力支出高企,以保险为例,代理人薪酬开支达万亿,IT支出仅为其的1%。考虑保险代理人数量持续下滑,我们判断保险公司或有意愿探索更高效的业务拓展方式。2)看场景,AI在金融行业多领域已具备使用基础,落地场景丰富。根据产品分类,现有金融+AI应用的包括AI风控、智能客服、智能营销、智能保险、智能投顾、智能投研等。过于由于技术能力限制,AI相关的交互往往体验不佳。而大语言模型卓越的情感分析、意图识别与学习能力有望有效解决这一问题。 从技术角度看,预训练模型调优与自研大模型有望为金融业AI应用再赋能。在优质语料库的预训练下,LLM可以获得基本的语言理解和生成技能。指令调优可以提升大模型在金融领域对专业性问题的理解能力。对齐调优有望保证金融行业大模型落地的合规性。 对于金融IT公司,业务理解与训练数据构成AI核心竞争力。我们认为,1)服务于准确性,训练数据的质量与数量构建成为金融领域大模型应用的核心竞争力。2)服务于可用性,基于对业务的理解基础,对产品进行AI赋能,保证了应用软件最终的可用性。 在数据+业务理解能力双重占优的背景下,我们判断头部金融IT厂商有望受益于本轮技术革新,构筑新一轮的成长。 彭博社发布的BloombergGPT显示出金融界大模型的应用潜力。而受益于金融IT基于AI的应用基础,以及明确的市场需求潜力,金融领域的GPT革命或刚刚开始。 建议关注金融IT相关标的:ToB:保险IT:中科软、恒生电子、新致软件等。证券IT:恒生电子、顶点软件、金证股份等。银行IT:长亮科技、京北方、宇信科技、软通动力、神州信息等。ToC:同花顺、东方财富(海外&传媒组覆盖)、指南针、财富趋势等。 风险提示:AI应用落地不及预期;金融GPT进展不及预期;大模型进展不及预期。 前言:由OpenAI论文看B端金融GPT的潜力 2019年以来,大语言模型能力加速提升,入局厂商与模型涌现。据Wayne Xin Zhao等人论文《A Survey of Large Language Models》统计,2019年以来,参数量超过10B的大模型有47个,其中开源大模型20个,闭源大模型27个,大语言模型迅速发展。 大语言模型对各个行业均有影响,对金融行业的潜在冲击最大。根据OpenAI论文《GPTs are GPTs: An Early Look at the...
揭秘!如何通过阅读提升你的智商?
AI金融助手

揭秘!如何通过阅读提升你的智商?

本篇文章回顾了前几期的内容,强调了探讨的重要性。通过深入解析关键议题,文章展示了如何通过批判性思维促进理解和创新,强调了摘要中提到的几个核心观点——从多个角度审视问题、挑战既有观念以及运用逻辑推理进行分析。
AI医疗革命:打破看病慢困境,开启智能诊疗新时代!?
AI医师助手

AI医疗革命:打破看病慢困境,开启智能诊疗新时代!?

文章讲述了中国通过AI技术成功解决了看病难、资源分布不均等问题,推出"AI医生"服务,实现了医疗效率提升和患者便利。AI医生通过精准诊断、快速响应以及结合传统中医,极大地改善了医疗服务体验,有效提高了诊疗准确率。此外,AI在医疗领域的应用还扩展到了各个渠道,如远程诊疗、人脸识别等,加速了医疗资源的优化分配。尽管面临挑战,但AI为医疗行业带来了前所未有的产能释放和用户定制服务,推动了医疗行业的创新和进步。
金融GPT模型登场,彭博BloombergGPT为专业垂直领域大模型提供新范式
AI金融助手

金融GPT模型登场,彭博BloombergGPT为专业垂直领域大模型提供新范式

毫无疑问,ChatGPT和GPT-4的一炮走红对各行各业都带来了巨大的变革影响,目前以ChatGPT为代表的生成式人工智能大模型(LLMs) 正向各个专业领域进发。最近,金融巨头彭博Bloomberg正式发布了金融领域第一个大语言模型BloombergGPT,彭博研究人员以一篇长达65页的技术报告为行业展示了人工智能大模型在金融专业领域的无穷潜力。BloombergGPT是一个拥有500亿参数的LLM,其在海量的金融数据语料库上进行了训练。 论文地址:https://arxiv.org/abs/2303.17564 毫无疑问,ChatGPT和GPT-4的一炮走红对各行各业都带来了巨大的变革影响,目前以ChatGPT为代表的生成式人工智能大模型(LLMs) 正向各个专业领域进发。最近,金融巨头彭博Bloomberg正式发布了金融领域第一个大语言模型BloombergGPT,彭博研究人员以一篇长达65页的技术报告为行业展示了人工智能大模型在金融专业领域的无穷潜力。BloombergGPT是一个拥有500亿参数的LLM,其在海量的金融数据语料库上进行了训练。BloombergGPT可以轻松实现金融新闻标题生成,可以帮助金融记者快速对新闻报道进行总结和摘要。 此外,BloombergGPT还可以充当你的个人金融助理,例如你可以直接询问它硅谷银行的CEO是谁,BloombergGPT的回答是Greg Becker,而其他非金融专业大模型的回答则有些不准确。 此外,作者团队强调,随着BloombergGPT一起发布的还有至今为止规模最大的金融数据集FinPile,该数据集由包含3630亿个token的金融领域数据集以及3450亿个token的通用数据构成。BloombergGPT模型在64个亚马逊云(AWS)的p4d.24xlarge实例上训练了53天,其中每个实例包含了8块显存为40GB的英伟达A100 GPU(总共GPU数量为512块)。作者团队对BloombergGPT的进行了非常全面的性能评估,评估分为两部分:通用领域评估和金融领域评估。在通用任务中,BloombergGPT相比OPT、GPT-3等其他LLMs有更好的综合性能。在金融领域任务上的评估表明,使用BloombergGPT可以有效提高金融领域人员的工作效率。但是BloombergGPT的模型并不会公开,作者团队声明是出于安全性的考虑,但是会分享模型训练和评估过程中的细节和相关经验。 一、BloombergGPT的数据集 ChatGPT的成功向我们表明,LLMs会在训练数据量突破一个临界规模后出现惊人的”涌现能力“。因此BloombergGPT的研发团队将收集数据作为”大模型炼丹“的第一步。为了训练参数量非常庞大的BloombergGPT,研究团队构建了一个名为”FinPile“的综合数据集,其由一系列新闻、档案、金融文件和从彭博数据库中提取到的英文财经文档构成(这些数据是通过彭博过去二十年的业务流程获得的,不得不说,某种意义上,数据就是财富)。FinPile可以进一步划分为金融领域数据和通用领域数据。 1.1 金融领域数据 金融领域数据共包含了3630亿个token,占总数据集token量的54.2%,这部分数据由金融领域相关网页、彭博官方财报、金融领域新闻源和金融领域相关书籍等不同形式构成。由于FinPile中的一部分数据是私人文件和隐私数据,所以FinPile不会被公开。 1.2 通用领域数据 通用领域数据集有3450亿个token,占总数据集token量的48.73%,这部分数据由Pile数据集[1]、C4数据集[2]和维基百科数据集构成。其中Pile数据集是GPT-Neo模型的训练集,GPT-Neo模型的参数量为20B,Pile是一个领域非常丰富的数据集,作者认为将Pile包含在BloombergGPT的训练集中,会为模型带来更强的泛化能力。C4数据集是T5模型[2]的训练集,T5模型是谷歌在2020年发布的大规模多任务预训练模型。此外,为了增加BloombergGPT的专业能力,作者也在FinPile中增加了一部分维基百科数据,这部分数据更新至2022年7月1日。 二、模型训练 BloombergGPT的模型架构是基于BLOOM[3]的自回归Transformer解码器网络,其中解码器层数为70层,模型形式化定义为: ‍ 其中SA 是我们较为熟悉的多头自注意力模块,LN是层归一化,FFN 是具有1个隐藏层的前馈网络。与原始Transformer解码器结构不同的是,BloombergGPT在token编码之后加入了一个额外的层归一化操作: 其中是初始的token编码,是新加入的层归一化操作。 作者首先根据大模型训练缩放法则(Chinchilla scaling laws) 计算出,如果要训练参数量为500亿的BloombergGPT,则参与训练的token数据量需要达到恐怖的11000亿。研究团队没有进一步扩充数据集,因此最终模型的参数量定为500亿。下图展示了先前已有大模型经过缩放法则得到的参数量与数据量的关系,并与BloombergGPT进行了对比。 三、模型评估对BloombergGPT的评估被分成了两部分:金融特定任务和通用任务。对于前者,研究团队对现有公开可用的金融测试数据集进行了重新组织,其中包括一系列NLP任务。此外为了直接测试BloombergGPT在彭博公司比较关注的业务上的能力,研究团队从彭博内部的高质量评估集中构建了一个用于评估金融领域情感分析和命名实体识别任务的测试集。对于通用任务,作者从现有多个NLP基准中收集了包括知识评估、阅读理解等任务在内的测试集,每种类型的任务分布如下表所示。 3.1 通用任务评估 作者选取的与BloombergGPT进行性能对比的其他大模型包括GPT-NeoX、OPT、BLOOM、GPT-3,这些模型训练阶段使用的token数量、模型参数总量、计算量的对比如下表所示。 作者重点对BloombergGPT的bits per byte(BPB)指标进行了评估,BPB是评估大语言模型的一种常见指标,其取值越小,代表模型效果越好,下图展示了BloombergGPT与其他模型的BPB指标的对比效果。 可以看出,BloombergGPT在金融测试集上的BPB均好于其他大模型,尤其是在财报(Filings)这个类别上的性能遥遥领先,这也其实达到了彭博开发BloombergGPT的最初目的。 3.2 金融领域任务评估 在金融特定数据上,作者重点考察了BloombergGPT在以下5个任务上的性能: 1.FPB,包括对金融新闻语句的情感分类任务。 2.FiQA SA,该任务同样是一个情感分析任务,它是专门预测英文财经新闻和微博标题中的特定情感。 3.Headline,这是一个二分类任务,主要判断黄金商品领域的新闻标题是否包含用户所关注的信息。 4.NER,这是一项命名实体识别任务,主要针对从向美国证券交易委员会提交的财务协议中收集的用于信用风险评估的财务数据。 5.ConvFinQA,这是一个推理问答任务,给定500份收益报告文件,其中每份报告包括文本和至少一张包含财务数据的表格,任务是回答需要进行数字推理的金融对话问题。 下表展示了BloombergGPT在上述5个任务中的性能表现,可以看到BloombergGPT在其中的四个任务上都达到了SOTA性能。 四、总结本文提出了一种金融专业领域的人工智能大模型BloombergGPT,研发团队总结道,对BloombergGPT训练效果影响最重要的三个因素分别是:(1)精心构建的内部数据集(2)分词器(tokenizer)的独特设计(3)最新的Transformer大模型架构。BloombergGPT开发团队以一种混合特定领域和通用数据的训练模式得到了一个能够在多个领域都达到良好性能的大模型,这也为其他专业领域的公司提供了一种训练范式,感觉有条件的公司都可以来直接抄作业了。 参考文献 [1] Leo...
探索机器之心:AI情感交流与写作,开启未来对话?
AI情感助手

探索机器之心:AI情感交流与写作,开启未来对话?

人工智能的发展正在深刻改变情感交流与写作,通过AI在情感分析和生成上的应用,如聊天机器人的情感陪伴,AI已能在情感交流和写作领域展现显著潜力。然而,AI理解和表达复杂人类情感的局限以及可能削弱人类创作力的问题也不容忽视,未来应寻求AI辅助而非替代人类创作的方式。随着技术的进步,AI有望在情感交流与写作中发挥更大的作用,促进人机深度互动,推动社会进步和个人幸福。
探索未来!揭秘AI如何重塑医学,数据限制、临床应用难题,医疗领域迎变革!
AI医师助手

探索未来!揭秘AI如何重塑医学,数据限制、临床应用难题,医疗领域迎变革!

文章总结了中国期刊网挑选的人工智能在医学领域的应用,旨在为读者提供写作灵感。首先介绍了人工智能医疗相关概念及其自2017年AlphaGo战胜世界冠军以来的广泛应用。然后提到,AI在医疗领域受限于数据和从试验到临床应用的速度慢两大挑战,并以诊断辅助功能为例阐述其提高准确率的重要作用。接下来讨论了人工智能如何通过优化医疗资源利用来弥补人员短缺问题。最后,文章强调了人工智能对医疗领域的积极影响和未来发展的必要性,同时指出需面对并解决相关问题。
使用GPT进行『金融情绪』分析的正确打开方式
AI金融助手

使用GPT进行『金融情绪』分析的正确打开方式

量化投资与机器学习微信公众号,是业内垂直于量化投资、对冲基金、Fintech、人工智能、大数据等领域的主流自媒体。公众号拥有来自公募、私募、券商、期货、银行、保险、高校等行业30W+关注者,曾荣获AMMA优秀品牌力、优秀洞察力大奖,连续4年被腾讯云+社区评选为“年度最佳作者”。 作者:Boyu Zhang、 Hongyang (Bruce) Yang、Tianyu Zhou、Ali Babar、Xiao-Yang Liu 来自:Enhancing Financial Sentiment Analysis via Retrieval Augmented Large Language Models 在之前的推文中我们分享了GPT模型与传统文本分析模型之间表现的对比,本文我们来看下如何系统全面的使用GPT进行金融情绪分析。金融情绪分析是提取、量化和研究金融文本、新闻文章和社交媒体内容中的情感状态和主观信息的重要工具。它的重要性在于它有可能预测市场走势,并为投资者的行为提供有价值的见解。鉴于市场反应经常受到新闻情绪的影响,这些情绪可能是积极的、消极的,也可能是中性的,金融情绪分析在帮助交易员和金融机构做出明智决策方面发挥着关键作用。它通过对市场情流的理解,帮助管理风险和识别潜在的投资机会。近年来,许多研究转向使用自然语言处理模型来提高金融情绪分析的准确性和效率。传统的NLP模型受模型参数和训练语料库规模的限制,往往缺乏全面理解复杂金融新闻的能力,从而限制了金融情绪分析的有效性。这些限制有时会导致金融情绪分析任务的结果欠佳。相比之下,大型语言模型(LLM)的出现引领了NLP领域的新时代。这些模型在庞大而多样的语料库上接受过预先训练,在各种NLP任务中的表现逐渐优于许多其他模型,因为它们能够从广泛的训练中进行概括,甚至从以前看不见的财务数据中获得有意义的见解。然而,直接将LLM应用于金融情绪分析存在两个显著的挑战:首先,LLM预训练中使用的目标函数与预测金融情绪的目标之间的差异可能导致LLM无法像预期的那样一致地输出用于金融情绪分析的标签。其次,金融情绪分析的典型主体,如新闻快讯和推文,其特点是简洁,往往缺乏足够的背景信息。信息的稀缺性不仅干扰了人类专家的判断,也对LLM的判断提出了重大挑战。为了应对上述挑战,在我们的研究中,我们提出了一个检索增强的大型语言模型金融情绪分析框架。该框架由两个关键组件组成:指令微调LLM,它使用一组有限的指令遵循示例来改进LLM,这些示例专门用于金融情绪分析,使LLM的预测与用户意图保持一致,并显着提高其预测准确性。检索增强组件,它为新闻简报或推文中的简短陈述引入了额外的上下文。它使用搜索引擎和经过验证的财务来源从外部来源收集相关背景信息。然后将这个丰富的上下文传递给指令调优的LLM进行预测,从而产生更准确和细致的结果。通过测试以上方法在准确性和F1分数方面的性能提高了15%至48%,明显优于传统的情感分析模型和著名的通用LLM。 框架概览 如下图所示,由指令调优LLM和RAG模块两个模块组成。在第一个模块中,我们应用指令调优来微调开源预训练的LLM,如LLaMA和ChatGLM,使其在提供金融新闻或推文时的行为与预测金融情绪标签保持一致。这个过程包括构建一个特定于金融情绪分析任务的指令遵循数据集,并使用它来微调预训练的LLM。RAG模块在框架中起着至关重要的作用,它从与输入查询相关的外部源检索相关的背景信息。这些外部来源包括彭博和路透等经过验证的新闻平台,高盛和花旗等机构的研究出版物,以及Twitter和Reddit等社交媒体平台。我们采用多源查询和基于相似性的检索方法从这些信息中定位最相关的信息来源。随后,将检索到的上下文与原始查询结合起来构造最终查询。然后调用指令调优的LLM来基于这个增强查询生成情感预测。这样,将缺失的背景知识提供给LLM,使其能够做出更准确的预测。指令调优LLM指令调优被证明是一种非常有效的方法,可以使LLM的行为与用户指令保持一致。在金融情绪分析领域应用指令调整通常有三个步骤。1、首先,我们构建了一个指令跟随数据集,由成对的指令和它们相应的情绪标签组成。该数据集是指导LLM有效理解用户指令的基础。格式化金融情绪指令跟踪数据集:通过手动标记创建金融情绪指令跟踪数据集需要专业金融专业人员的专业知识,这可能是昂贵的。另一种方法是以较低的成本将现有的有监督的金融情绪分析数据集转换为指令遵循数据集。这些数据集通常被格式化为文本分类任务,其中输入是金融新闻或标题,输出是表示积极、消极和中性情绪的整型标签。接下来,我们创建了10条描述金融情绪分析任务的人工编写指令,并将随机选择的一条指令与输入和输出结合起来,以“人类:[指令]+[输入],助手:[输出]”的格式,从原始数据集中制定每个样本。该过程如下图所示。2、接下来,涉及对构建的数据集上的LLM进行微调。通过这个微调过程,模型学会在提供预测情绪标签的指令时准确地产生预期的反应。3、最后一步是将LLM生成的输出映射回预定义的情感类。这一步进一步将预测与预定义的情感类对齐,并允许模型的性能是可测量的。由于指令微调LLM是一个自回归生成模型,即使我们使用一个遵循指令的数据集,用于引导其输出理想的情绪标签,它还是有可能的生成自由风格的文本。因此,我们需要映射模型的输出返回到指定的三种情绪。为了正确的评估。我们的做法是这样的: 如果模型的输出包含“正”、“负”或“中性”,我们把它映射到对应的标签;否则,我们把它看作是一种“中性”情绪。RAG模块RAG是一种将外部知识注入法学模型以提高响应生成准确性的有效方法。RAG模块的实现涉及几个步骤。1、首先,我们建立外部知识来源,这些外部知识来源极有可能包含相关的金融背景信息。当基于查询检索相关的金融上下文时,我们的目标是访问真实的、相关的、有洞察力的和全面的数据,而不是随机的互联网搜索。为了实现这一目标,我们首先确定以下信息来源:新闻来源:媒体如彭博社、雅虎财经、路透社、CNBC和Market Screener提供的信息本质上是一致的,对金融解释至关重要。这些来源往往对其作者和记者有严格的内部指导方针,以确保可靠和经过验证的内容。此外,由于它们的业务性质,这些媒体经常对各种金融新闻提供最早的报道。研究出版平台:集中式和众包式的研究出版平台提供了丰富的金融见解。知名机构如高盛和花旗分别为其机构客户提供独家研究服务Marquee和Velocity。鉴于它们的直接适用性,这些研究提供了大量高度一致的、系统的和经过验证的见解。出版商平台:如Seeking Alpha,是独立贡献者提供各种见解的资源库。它们涵盖了广泛的金融信息,包括大量的价格走势分析、收益电话和会议记录,以及与各种规模的公司有关的投资研究。所有这些源都提供了检索api,使我们能够访问和检索信息。2、接下来,我们执行一个两步知识检索过程,包括多源知识查询和基于相似度的检索。这些步骤使我们能够收集与输入查询相关的上下文。两步知识检索:我们通过两步过程检索给定查询的上下文财务信息。多源知识查询:财经新闻标题或推文通常很短,通常包括不相关的内容,如股票行情。为了解决这个问题,我们的第一步涉及到使用正则表达式预处理文本并删除不相关的代码或符号。随后,我们利用各种知识来源的检索api来提取相关信息。如果新闻项包含时间信息,我们在特定的时间范围内执行搜索。搜索返回来自已识别的财务来源的相关上下文片段的列表。对于每个上下文片段,我们收集原始标题、编辑要点、文章主体段落、帖子和转发作为完整的上下文。这种查询策略使我们能够捕获与金融新闻相关的广泛信息。基于相似度的检索:即使在初始检索之后,获得的内容仍然可能包含相当数量的不相关信息,这可能会影响情绪预测的准确性。为了解决这个问题,我们提出了一种基于相似度的高级检索算法。该算法旨在从第一步获得的结果中进一步过滤和提取最相关的内容。具体来说,我们使用改进的重叠系数作为相似性度量来检索和经验选择与输入查询相似度高于0.8的上下文。3、最后,我们将原始输入查询与检索的上下文结合起来,为指令调优的LLM创建输入数据,LLM生成最终结果。 测试 我们的训练数据是Twitter财经新闻数据集和FiQA数据集中的10501个样本。基准模型有BloombergGPT,ChatGPT,LLaMA-7B, ChatGLM2-6B和 FinBERT。我们微调的模型是基于LLaMA-7B。测试数据集有FPB和Twitter财经新闻数据集。首先对比了指令调优LLM与基准的表现,如下表所示,指令调优的LLaMA7B模型的性能优于其他模型,达到了最高水平准确性和F1分数。从这些结果表明,指令调优方法明显可行显著提高了模型的财务性能情绪分析。 下表展示了加入RAG模块后模型效果的提升。首先,我们的指令调优LLaMA-7B模型(没有上下文)始终超过FinBERT和LLaMA-7B的准确性和F1分数。其次,在我们的模型中引入RAG后准确度从0.86提高到0.88,并且有了改进F1得分为0.811 ~ 0.842。这证明了上下文的包含增强了LLM的能力理解提示,从而提高性能。
房产赠与还是借款?法律边界AI嘟嘟一语道破!
AI律师助手

房产赠与还是借款?法律边界AI嘟嘟一语道破!

本文介绍了一款名为"嘟嘟"的法律顾问AI,它能解答婚姻家事、物权纠纷、劳动用工和侵权损害等法律问题。为规避民间借贷风险,建议出借人注意保留书面证据、审查合同条款、采用非现金支付并确保资金来源合法,设定合理的担保,并审慎判断是否为共同债务。同时,提醒要注意非法债务和涉刑风险,坚持诚信原则以减少纠纷成本。
??心理健康新视角——‘情绪阳光行动’AI盛宴,你参与了吗?
AI情感助手

??心理健康新视角——‘情绪阳光行动’AI盛宴,你参与了吗?

这篇文章关注的是近年来备受重视的心理健康问题,特别是通过“情绪阳光行动——心会跟AI一起走”Al助力研讨会强调了人工智能对心理健康的重要作用。中国健康促进与教育协会、心理学会及时尚集团等联合倡议,旨在提升公众对心理健康的认知,并展示了AI在该领域的应用和潜力。研讨会上,各方代表分享了对科技发展与心理健康关系的看法,期望通过科技力量推动心理健康水平的提升。最后,发布了公益行动,开启了人工智能辅助心理健康的新阶段。