AI在金融领域的应用:从移动平均到生成式人工智能(AIGC)
AI金融助手

AI在金融领域的应用:从移动平均到生成式人工智能(AIGC)

前言 在AI盛起的当下,各类AI应用不断地出现在人们的视野中,AI正在重塑着各行各业。相信现在各大公司都在进行着不同程度的AI布局。笔者致力于对行业内优秀的AI项目和创意进行调研,在进行知识梳理的同时也能达成对大多数人进行AI知识科普的目的。本文主要介绍一下AI的发展给金融领域带来的一些改变,十分中肯。 另外,之前笔者还介绍过几篇AI在金融领域应用的项目,感兴趣的同学可以查看一下: FinGPT——为金融领域的大模型应用提供了更多的可能 Qbot——一款可自动量化交易的AI应用 金融中的人工智能:从移动平均到生成式人工智能 金融行业关乎捕捉变化。如果你做得好,你赢;如果不行,你输。了解人工智能如何显著改变这场游戏。 预测是困难的。一方面,预测股票价格等事物在概念上非常简单——你有一个单变量的图表,对比另一个变量:股票价格与时间的关系。你只希望能够准确预测未来某个时间点的价格。 但在金融领域,惊喜是常态。当公司的业绩超出预期时,股价上涨;当公司表现不佳时,股价下跌。除了定期的财务报告外,惊喜可能每天都会发生,比如自然灾害或你喜欢的名人大量发推文。 有多种方法可以尝试预测价格。其中一种常用的方法是ARIMA模型。ARIMA模型试图在不考虑任何信息(除了历史趋势)的情况下预测股票价格。ARIMA模型可以考虑时间序列的变化均值、季节性和固定方差。 然而,这些模型的缺点是它们不考虑可能导致尚未发生的意外情况的潜在因素。想象一下发生在10年一次的事件,比如经济泡沫。ARIMA模型可能根据历史数据预测股票价格的趋势,但导致泡沫的因素是独特的,更多地取决于当前的经济状况,而不是历史趋势。 在一项分析中,哈佛商业评论发现ARIMA在预测方面表现最差,而金融专家的表现更好。你会发现,尽管专家大部分时间都是错误的,但平均而言,他们表现得足够好。共识经济预测的误差足够小,使它们对做出决策具有价值。 金融领域的预测模型一直受到批评,例如未能预测到2007年的金融危机,低估了复杂金融资产中固有的风险。然而,人工智能的相关性可能会完全改变这一情况。 现在有什么不同之处呢? 近期的技术进步使我们在数据收集方面非常出色。而数据无处不在。当然,有关市场实时表现的金融数据是必不可少的,但还有许多与之相关的实时事件的数据。 新闻都在线上——所以这些都可以被获取到。人们在社交媒体平台上如Twitter、TikTok、Facebook等透露出他们真实的情感。而且还有许多其他数据来源,让我们能够了解现代社会的脉搏。 我们已经看到人工智能在处理这些信息的多项任务中展现出强大的能力。其中一种经典的问题类型是自然语言处理(NLP)相关的问题。NLP涉及从文本数据中提取信息。情感分析就是一种经典的NLP任务。 黑石集团每个季度使用情感分析从超过5000个盈利电话会议记录和每天超过6000份经纪人报告中提取信息。传统的方法是由人工逐篇阅读报告。人工智能可以规模化地自动化这种过程。这类信息对投资组合经理等人来说是有用的,可以帮助他们做出明智的决策。 利用人工智能构想金融未来 到目前为止,人工智能和语言模型在范围上受到了限制,仅限于情感分析、根据历史趋势预测价格等任务。 黑石集团使用Aladdin平台,该平台统一了投资组合的管理。他们能够以前所未有的规模动员数据。人工智能技术将数据转化为有价值的见解,例如市场情绪的图表。分析师可以查看各种图表和趋势,选择他们认为有意义的投资。 虽然人工智能可以用于制作各种图表和指标,但我们目前缺乏的是一种能够将所有这些类型的信息综合起来,并做出类似金融专家的决策的人工智能。而生成式人工智能(如ChatGPT、BloombergGPT等)可能在这方面发挥改变游戏规则的作用! 世界知名量化金融教授Bryan Kelly表示: “像ChatGPT这样的生成式人工智能工具使投资组合经理能够更高效地处理新闻或其他金融文件。” 我们已经看到,像ChatGPT这样的模型可以从复杂的用户输入中产生逼真的输出,就像在与专业的专家交流一样。同样,金融生成式人工智能模型很快就可以处理包括市场趋势、热门新闻、新闻声明、情感等在内的复杂信息,并做出与全球最优秀的投资组合经理类似的决策。 在EMAlpha,我们不仅在等待生成式人工智能改变金融,而且积极引领多语言人工智能和金融的前沿。由于网络上近一半的信息存在于非英语语言中,世界各地的非英语使用人口以前所未有的速度成为互联网用户,因此有必要开发能够处理尽可能多语言的人工智能。EMAlpha使用其专有的多语言人工智能为金融市场创建情感、趋势和各类风险数据和分析。 EMAlpha的多语言人工智能(Multilingual-AI)可帮助宏观、大宗商品和新兴市场投资者更好地发现新兴趋势,并在这些市场中应对一直存在的风险。如果没有获取当地语言中可能存在的信息,人工智能就无法透视这些地区的“实地”情况。以智利为例,智利是全球最大的铜生产国,其新闻和当地媒体主要使用西班牙语。多语言人工智能可以揭示铜价波动与当地情绪之间的根本原因。 想象一下土耳其选举、其热门股票市场和土耳其语新闻媒体。有许多例子表明,投资者可以从访问这些数据中获益。最后,尽管大多数生成式人工智能似乎专注于英语信息,但EMAlpha致力于开发自己的多语言生成式预训练模型(GPT),名为EM-GPT,其中EM代表新兴市场。EM-GPT将使投资者能够及时了解新兴市场的数据和信息。 资源 1.《经济预测师值得倾听吗?》- 哈佛商业评论[1]2.动态随机均衡 – 维基百科[2]3.《预测无法预测》- 哈佛商业评论[3]4.Financial Time Series Forecasting with Machine Learning Techniques: A Survey – arXiv[4]5.Using...
揭秘金融真相:从入门到赚钱的四大关键步骤
AI金融助手

揭秘金融真相:从入门到赚钱的四大关键步骤

本文强调了入门金融学首先要理解金融市场,将其比喻为金钱的搬运工,并指出目的是赚钱而非成为经济学家。作者反对盲目看书学习,而是提倡从实际出发,了解金融基础知识,如开盘价、交易规则等。技术分析被分为基本面和技术面,基础是理解和接受三大前提,数学好的人可研究指标,而实践和反思(通过复盘与日记)至关重要,最后要根据个人特点选择并优化投资策略,形成自己的体系。入门金融需要脚踏实地,而非急于求成。
揭秘ESG黄金领域:40万亿盛宴,AI如何掘金可持续金融数据?
AI金融助手

揭秘ESG黄金领域:40万亿盛宴,AI如何掘金可持续金融数据?

这篇文章讲述了可持续金融的重要性和快速发展,它通过考虑环境、社会和企业治理因素进行投资决策。目前,ESG 行业规模达到 40 万亿美元,金融机构如投资银行和资产管理机构开始重视 ESG 指标。企业为了展示其可持续性,会衡量并优化这些指标。AI,特别是自然语言处理技术(NLP),在理解和分析大量非结构化数据中起着关键作用,通过识别关键词和情感来提取ESG信息,为金融决策提供依据。尽管ESG是相对较新的趋势,但随着AI的普及,它正在改变金融行业并推动可持续投资的发展。
🔥GPT-3金融革命?揭秘未来爆点与深度学习科技应用🔥自动报表、信息检索、新闻撰写,金融行业巨变!
AI金融助手

🔥GPT-3金融革命?揭秘未来爆点与深度学习科技应用🔥自动报表、信息检索、新闻撰写,金融行业巨变!

本文主要介绍了GPT-3这样的深度学习模型在金融科技领域的应用和最新前沿科技方向,包括自动报表生成、信息检索分析以及新闻撰写等潜在爆点。通过GPT-3,用户可以实现财务报表自动生成,智能金融数据分析,甚至伪造新闻以影响市场决策。同时,文章指出,深度学习技术如自动化流程和多渠道综合信息获取将推动金融科技的未来发展,消灭人工重复工作,并提升数据处理和预测能力。总的来说,GPT-3引领的金融科技趋势充满潜力,对行业深度优化和投资决策具有重要影响。
【金融GPT系列二:挖掘垂直场景数据,2B金融GPT是一片新蓝海】天风计算机缪欣君团队
AI金融助手

【金融GPT系列二:挖掘垂直场景数据,2B金融GPT是一片新蓝海】天风计算机缪欣君团队

天风计算机团队 作者 | 缪欣君 详细信息请联系 | 李璞玉 摘要 当前市场大家普遍认为,大模型基于其通用性,会在C端市场攫取更多发展空间。但结合论文《GPTs are GPTs: An Early Look at the Labor Market Impact Potential of Large Language Models》中的观点,大模型的能力或在未来引起行业层面对人力资源的需求降低。产业的变革,由产业的软件触发。据此我们判断,当前时点大模型在B端的发展机会或被低估。 从落地角度看,GPT在金融业推广的两个基础已经具备。1)看需求,客服与销售人力成本高昂有望为AI替代提供广阔空间。金融行业人力支出高企,以保险为例,代理人薪酬开支达万亿,IT支出仅为其的1%。考虑保险代理人数量持续下滑,我们判断保险公司或有意愿探索更高效的业务拓展方式。2)看场景,AI在金融行业多领域已具备使用基础,落地场景丰富。根据产品分类,现有金融+AI应用的包括AI风控、智能客服、智能营销、智能保险、智能投顾、智能投研等。过于由于技术能力限制,AI相关的交互往往体验不佳。而大语言模型卓越的情感分析、意图识别与学习能力有望有效解决这一问题。 从技术角度看,预训练模型调优与自研大模型有望为金融业AI应用再赋能。在优质语料库的预训练下,LLM可以获得基本的语言理解和生成技能。指令调优可以提升大模型在金融领域对专业性问题的理解能力。对齐调优有望保证金融行业大模型落地的合规性。 对于金融IT公司,业务理解与训练数据构成AI核心竞争力。我们认为,1)服务于准确性,训练数据的质量与数量构建成为金融领域大模型应用的核心竞争力。2)服务于可用性,基于对业务的理解基础,对产品进行AI赋能,保证了应用软件最终的可用性。 在数据+业务理解能力双重占优的背景下,我们判断头部金融IT厂商有望受益于本轮技术革新,构筑新一轮的成长。 彭博社发布的BloombergGPT显示出金融界大模型的应用潜力。而受益于金融IT基于AI的应用基础,以及明确的市场需求潜力,金融领域的GPT革命或刚刚开始。 建议关注金融IT相关标的:ToB:保险IT:中科软、恒生电子、新致软件等。证券IT:恒生电子、顶点软件、金证股份等。银行IT:长亮科技、京北方、宇信科技、软通动力、神州信息等。ToC:同花顺、东方财富(海外&传媒组覆盖)、指南针、财富趋势等。 风险提示:AI应用落地不及预期;金融GPT进展不及预期;大模型进展不及预期。 前言:由OpenAI论文看B端金融GPT的潜力 2019年以来,大语言模型能力加速提升,入局厂商与模型涌现。据Wayne Xin Zhao等人论文《A Survey of Large Language Models》统计,2019年以来,参数量超过10B的大模型有47个,其中开源大模型20个,闭源大模型27个,大语言模型迅速发展。 大语言模型对各个行业均有影响,对金融行业的潜在冲击最大。根据OpenAI论文《GPTs are GPTs: An Early Look at the...
揭秘!如何通过阅读提升你的智商?
AI金融助手

揭秘!如何通过阅读提升你的智商?

本篇文章回顾了前几期的内容,强调了探讨的重要性。通过深入解析关键议题,文章展示了如何通过批判性思维促进理解和创新,强调了摘要中提到的几个核心观点——从多个角度审视问题、挑战既有观念以及运用逻辑推理进行分析。
金融GPT模型登场,彭博BloombergGPT为专业垂直领域大模型提供新范式
AI金融助手

金融GPT模型登场,彭博BloombergGPT为专业垂直领域大模型提供新范式

毫无疑问,ChatGPT和GPT-4的一炮走红对各行各业都带来了巨大的变革影响,目前以ChatGPT为代表的生成式人工智能大模型(LLMs) 正向各个专业领域进发。最近,金融巨头彭博Bloomberg正式发布了金融领域第一个大语言模型BloombergGPT,彭博研究人员以一篇长达65页的技术报告为行业展示了人工智能大模型在金融专业领域的无穷潜力。BloombergGPT是一个拥有500亿参数的LLM,其在海量的金融数据语料库上进行了训练。 论文地址:https://arxiv.org/abs/2303.17564 毫无疑问,ChatGPT和GPT-4的一炮走红对各行各业都带来了巨大的变革影响,目前以ChatGPT为代表的生成式人工智能大模型(LLMs) 正向各个专业领域进发。最近,金融巨头彭博Bloomberg正式发布了金融领域第一个大语言模型BloombergGPT,彭博研究人员以一篇长达65页的技术报告为行业展示了人工智能大模型在金融专业领域的无穷潜力。BloombergGPT是一个拥有500亿参数的LLM,其在海量的金融数据语料库上进行了训练。BloombergGPT可以轻松实现金融新闻标题生成,可以帮助金融记者快速对新闻报道进行总结和摘要。 此外,BloombergGPT还可以充当你的个人金融助理,例如你可以直接询问它硅谷银行的CEO是谁,BloombergGPT的回答是Greg Becker,而其他非金融专业大模型的回答则有些不准确。 此外,作者团队强调,随着BloombergGPT一起发布的还有至今为止规模最大的金融数据集FinPile,该数据集由包含3630亿个token的金融领域数据集以及3450亿个token的通用数据构成。BloombergGPT模型在64个亚马逊云(AWS)的p4d.24xlarge实例上训练了53天,其中每个实例包含了8块显存为40GB的英伟达A100 GPU(总共GPU数量为512块)。作者团队对BloombergGPT的进行了非常全面的性能评估,评估分为两部分:通用领域评估和金融领域评估。在通用任务中,BloombergGPT相比OPT、GPT-3等其他LLMs有更好的综合性能。在金融领域任务上的评估表明,使用BloombergGPT可以有效提高金融领域人员的工作效率。但是BloombergGPT的模型并不会公开,作者团队声明是出于安全性的考虑,但是会分享模型训练和评估过程中的细节和相关经验。 一、BloombergGPT的数据集 ChatGPT的成功向我们表明,LLMs会在训练数据量突破一个临界规模后出现惊人的”涌现能力“。因此BloombergGPT的研发团队将收集数据作为”大模型炼丹“的第一步。为了训练参数量非常庞大的BloombergGPT,研究团队构建了一个名为”FinPile“的综合数据集,其由一系列新闻、档案、金融文件和从彭博数据库中提取到的英文财经文档构成(这些数据是通过彭博过去二十年的业务流程获得的,不得不说,某种意义上,数据就是财富)。FinPile可以进一步划分为金融领域数据和通用领域数据。 1.1 金融领域数据 金融领域数据共包含了3630亿个token,占总数据集token量的54.2%,这部分数据由金融领域相关网页、彭博官方财报、金融领域新闻源和金融领域相关书籍等不同形式构成。由于FinPile中的一部分数据是私人文件和隐私数据,所以FinPile不会被公开。 1.2 通用领域数据 通用领域数据集有3450亿个token,占总数据集token量的48.73%,这部分数据由Pile数据集[1]、C4数据集[2]和维基百科数据集构成。其中Pile数据集是GPT-Neo模型的训练集,GPT-Neo模型的参数量为20B,Pile是一个领域非常丰富的数据集,作者认为将Pile包含在BloombergGPT的训练集中,会为模型带来更强的泛化能力。C4数据集是T5模型[2]的训练集,T5模型是谷歌在2020年发布的大规模多任务预训练模型。此外,为了增加BloombergGPT的专业能力,作者也在FinPile中增加了一部分维基百科数据,这部分数据更新至2022年7月1日。 二、模型训练 BloombergGPT的模型架构是基于BLOOM[3]的自回归Transformer解码器网络,其中解码器层数为70层,模型形式化定义为: ‍ 其中SA 是我们较为熟悉的多头自注意力模块,LN是层归一化,FFN 是具有1个隐藏层的前馈网络。与原始Transformer解码器结构不同的是,BloombergGPT在token编码之后加入了一个额外的层归一化操作: 其中是初始的token编码,是新加入的层归一化操作。 作者首先根据大模型训练缩放法则(Chinchilla scaling laws) 计算出,如果要训练参数量为500亿的BloombergGPT,则参与训练的token数据量需要达到恐怖的11000亿。研究团队没有进一步扩充数据集,因此最终模型的参数量定为500亿。下图展示了先前已有大模型经过缩放法则得到的参数量与数据量的关系,并与BloombergGPT进行了对比。 三、模型评估对BloombergGPT的评估被分成了两部分:金融特定任务和通用任务。对于前者,研究团队对现有公开可用的金融测试数据集进行了重新组织,其中包括一系列NLP任务。此外为了直接测试BloombergGPT在彭博公司比较关注的业务上的能力,研究团队从彭博内部的高质量评估集中构建了一个用于评估金融领域情感分析和命名实体识别任务的测试集。对于通用任务,作者从现有多个NLP基准中收集了包括知识评估、阅读理解等任务在内的测试集,每种类型的任务分布如下表所示。 3.1 通用任务评估 作者选取的与BloombergGPT进行性能对比的其他大模型包括GPT-NeoX、OPT、BLOOM、GPT-3,这些模型训练阶段使用的token数量、模型参数总量、计算量的对比如下表所示。 作者重点对BloombergGPT的bits per byte(BPB)指标进行了评估,BPB是评估大语言模型的一种常见指标,其取值越小,代表模型效果越好,下图展示了BloombergGPT与其他模型的BPB指标的对比效果。 可以看出,BloombergGPT在金融测试集上的BPB均好于其他大模型,尤其是在财报(Filings)这个类别上的性能遥遥领先,这也其实达到了彭博开发BloombergGPT的最初目的。 3.2 金融领域任务评估 在金融特定数据上,作者重点考察了BloombergGPT在以下5个任务上的性能: 1.FPB,包括对金融新闻语句的情感分类任务。 2.FiQA SA,该任务同样是一个情感分析任务,它是专门预测英文财经新闻和微博标题中的特定情感。 3.Headline,这是一个二分类任务,主要判断黄金商品领域的新闻标题是否包含用户所关注的信息。 4.NER,这是一项命名实体识别任务,主要针对从向美国证券交易委员会提交的财务协议中收集的用于信用风险评估的财务数据。 5.ConvFinQA,这是一个推理问答任务,给定500份收益报告文件,其中每份报告包括文本和至少一张包含财务数据的表格,任务是回答需要进行数字推理的金融对话问题。 下表展示了BloombergGPT在上述5个任务中的性能表现,可以看到BloombergGPT在其中的四个任务上都达到了SOTA性能。 四、总结本文提出了一种金融专业领域的人工智能大模型BloombergGPT,研发团队总结道,对BloombergGPT训练效果影响最重要的三个因素分别是:(1)精心构建的内部数据集(2)分词器(tokenizer)的独特设计(3)最新的Transformer大模型架构。BloombergGPT开发团队以一种混合特定领域和通用数据的训练模式得到了一个能够在多个领域都达到良好性能的大模型,这也为其他专业领域的公司提供了一种训练范式,感觉有条件的公司都可以来直接抄作业了。 参考文献 [1] Leo...
使用GPT进行『金融情绪』分析的正确打开方式
AI金融助手

使用GPT进行『金融情绪』分析的正确打开方式

量化投资与机器学习微信公众号,是业内垂直于量化投资、对冲基金、Fintech、人工智能、大数据等领域的主流自媒体。公众号拥有来自公募、私募、券商、期货、银行、保险、高校等行业30W+关注者,曾荣获AMMA优秀品牌力、优秀洞察力大奖,连续4年被腾讯云+社区评选为“年度最佳作者”。 作者:Boyu Zhang、 Hongyang (Bruce) Yang、Tianyu Zhou、Ali Babar、Xiao-Yang Liu 来自:Enhancing Financial Sentiment Analysis via Retrieval Augmented Large Language Models 在之前的推文中我们分享了GPT模型与传统文本分析模型之间表现的对比,本文我们来看下如何系统全面的使用GPT进行金融情绪分析。金融情绪分析是提取、量化和研究金融文本、新闻文章和社交媒体内容中的情感状态和主观信息的重要工具。它的重要性在于它有可能预测市场走势,并为投资者的行为提供有价值的见解。鉴于市场反应经常受到新闻情绪的影响,这些情绪可能是积极的、消极的,也可能是中性的,金融情绪分析在帮助交易员和金融机构做出明智决策方面发挥着关键作用。它通过对市场情流的理解,帮助管理风险和识别潜在的投资机会。近年来,许多研究转向使用自然语言处理模型来提高金融情绪分析的准确性和效率。传统的NLP模型受模型参数和训练语料库规模的限制,往往缺乏全面理解复杂金融新闻的能力,从而限制了金融情绪分析的有效性。这些限制有时会导致金融情绪分析任务的结果欠佳。相比之下,大型语言模型(LLM)的出现引领了NLP领域的新时代。这些模型在庞大而多样的语料库上接受过预先训练,在各种NLP任务中的表现逐渐优于许多其他模型,因为它们能够从广泛的训练中进行概括,甚至从以前看不见的财务数据中获得有意义的见解。然而,直接将LLM应用于金融情绪分析存在两个显著的挑战:首先,LLM预训练中使用的目标函数与预测金融情绪的目标之间的差异可能导致LLM无法像预期的那样一致地输出用于金融情绪分析的标签。其次,金融情绪分析的典型主体,如新闻快讯和推文,其特点是简洁,往往缺乏足够的背景信息。信息的稀缺性不仅干扰了人类专家的判断,也对LLM的判断提出了重大挑战。为了应对上述挑战,在我们的研究中,我们提出了一个检索增强的大型语言模型金融情绪分析框架。该框架由两个关键组件组成:指令微调LLM,它使用一组有限的指令遵循示例来改进LLM,这些示例专门用于金融情绪分析,使LLM的预测与用户意图保持一致,并显着提高其预测准确性。检索增强组件,它为新闻简报或推文中的简短陈述引入了额外的上下文。它使用搜索引擎和经过验证的财务来源从外部来源收集相关背景信息。然后将这个丰富的上下文传递给指令调优的LLM进行预测,从而产生更准确和细致的结果。通过测试以上方法在准确性和F1分数方面的性能提高了15%至48%,明显优于传统的情感分析模型和著名的通用LLM。 框架概览 如下图所示,由指令调优LLM和RAG模块两个模块组成。在第一个模块中,我们应用指令调优来微调开源预训练的LLM,如LLaMA和ChatGLM,使其在提供金融新闻或推文时的行为与预测金融情绪标签保持一致。这个过程包括构建一个特定于金融情绪分析任务的指令遵循数据集,并使用它来微调预训练的LLM。RAG模块在框架中起着至关重要的作用,它从与输入查询相关的外部源检索相关的背景信息。这些外部来源包括彭博和路透等经过验证的新闻平台,高盛和花旗等机构的研究出版物,以及Twitter和Reddit等社交媒体平台。我们采用多源查询和基于相似性的检索方法从这些信息中定位最相关的信息来源。随后,将检索到的上下文与原始查询结合起来构造最终查询。然后调用指令调优的LLM来基于这个增强查询生成情感预测。这样,将缺失的背景知识提供给LLM,使其能够做出更准确的预测。指令调优LLM指令调优被证明是一种非常有效的方法,可以使LLM的行为与用户指令保持一致。在金融情绪分析领域应用指令调整通常有三个步骤。1、首先,我们构建了一个指令跟随数据集,由成对的指令和它们相应的情绪标签组成。该数据集是指导LLM有效理解用户指令的基础。格式化金融情绪指令跟踪数据集:通过手动标记创建金融情绪指令跟踪数据集需要专业金融专业人员的专业知识,这可能是昂贵的。另一种方法是以较低的成本将现有的有监督的金融情绪分析数据集转换为指令遵循数据集。这些数据集通常被格式化为文本分类任务,其中输入是金融新闻或标题,输出是表示积极、消极和中性情绪的整型标签。接下来,我们创建了10条描述金融情绪分析任务的人工编写指令,并将随机选择的一条指令与输入和输出结合起来,以“人类:[指令]+[输入],助手:[输出]”的格式,从原始数据集中制定每个样本。该过程如下图所示。2、接下来,涉及对构建的数据集上的LLM进行微调。通过这个微调过程,模型学会在提供预测情绪标签的指令时准确地产生预期的反应。3、最后一步是将LLM生成的输出映射回预定义的情感类。这一步进一步将预测与预定义的情感类对齐,并允许模型的性能是可测量的。由于指令微调LLM是一个自回归生成模型,即使我们使用一个遵循指令的数据集,用于引导其输出理想的情绪标签,它还是有可能的生成自由风格的文本。因此,我们需要映射模型的输出返回到指定的三种情绪。为了正确的评估。我们的做法是这样的: 如果模型的输出包含“正”、“负”或“中性”,我们把它映射到对应的标签;否则,我们把它看作是一种“中性”情绪。RAG模块RAG是一种将外部知识注入法学模型以提高响应生成准确性的有效方法。RAG模块的实现涉及几个步骤。1、首先,我们建立外部知识来源,这些外部知识来源极有可能包含相关的金融背景信息。当基于查询检索相关的金融上下文时,我们的目标是访问真实的、相关的、有洞察力的和全面的数据,而不是随机的互联网搜索。为了实现这一目标,我们首先确定以下信息来源:新闻来源:媒体如彭博社、雅虎财经、路透社、CNBC和Market Screener提供的信息本质上是一致的,对金融解释至关重要。这些来源往往对其作者和记者有严格的内部指导方针,以确保可靠和经过验证的内容。此外,由于它们的业务性质,这些媒体经常对各种金融新闻提供最早的报道。研究出版平台:集中式和众包式的研究出版平台提供了丰富的金融见解。知名机构如高盛和花旗分别为其机构客户提供独家研究服务Marquee和Velocity。鉴于它们的直接适用性,这些研究提供了大量高度一致的、系统的和经过验证的见解。出版商平台:如Seeking Alpha,是独立贡献者提供各种见解的资源库。它们涵盖了广泛的金融信息,包括大量的价格走势分析、收益电话和会议记录,以及与各种规模的公司有关的投资研究。所有这些源都提供了检索api,使我们能够访问和检索信息。2、接下来,我们执行一个两步知识检索过程,包括多源知识查询和基于相似度的检索。这些步骤使我们能够收集与输入查询相关的上下文。两步知识检索:我们通过两步过程检索给定查询的上下文财务信息。多源知识查询:财经新闻标题或推文通常很短,通常包括不相关的内容,如股票行情。为了解决这个问题,我们的第一步涉及到使用正则表达式预处理文本并删除不相关的代码或符号。随后,我们利用各种知识来源的检索api来提取相关信息。如果新闻项包含时间信息,我们在特定的时间范围内执行搜索。搜索返回来自已识别的财务来源的相关上下文片段的列表。对于每个上下文片段,我们收集原始标题、编辑要点、文章主体段落、帖子和转发作为完整的上下文。这种查询策略使我们能够捕获与金融新闻相关的广泛信息。基于相似度的检索:即使在初始检索之后,获得的内容仍然可能包含相当数量的不相关信息,这可能会影响情绪预测的准确性。为了解决这个问题,我们提出了一种基于相似度的高级检索算法。该算法旨在从第一步获得的结果中进一步过滤和提取最相关的内容。具体来说,我们使用改进的重叠系数作为相似性度量来检索和经验选择与输入查询相似度高于0.8的上下文。3、最后,我们将原始输入查询与检索的上下文结合起来,为指令调优的LLM创建输入数据,LLM生成最终结果。 测试 我们的训练数据是Twitter财经新闻数据集和FiQA数据集中的10501个样本。基准模型有BloombergGPT,ChatGPT,LLaMA-7B, ChatGLM2-6B和 FinBERT。我们微调的模型是基于LLaMA-7B。测试数据集有FPB和Twitter财经新闻数据集。首先对比了指令调优LLM与基准的表现,如下表所示,指令调优的LLaMA7B模型的性能优于其他模型,达到了最高水平准确性和F1分数。从这些结果表明,指令调优方法明显可行显著提高了模型的财务性能情绪分析。 下表展示了加入RAG模块后模型效果的提升。首先,我们的指令调优LLaMA-7B模型(没有上下文)始终超过FinBERT和LLaMA-7B的准确性和F1分数。其次,在我们的模型中引入RAG后准确度从0.86提高到0.88,并且有了改进F1得分为0.811 ~ 0.842。这证明了上下文的包含增强了LLM的能力理解提示,从而提高性能。