金融大语言模型：生成内容的准确性与现实意义

文章主题：关键词：大语言模型，金融领域，FinGPT，自动金融分析，金融大模型，金融市场，数据采集，数据工程，大语言模型训练，应用开发，量化交易策略，机器人投资顾问，金融情绪分析，低代码平台，自动投资框架，人工智能，投资决策

666AI工具大全，助力做AI时代先行者！

金融大语言模型：生成内容的准确性与现实意义点击上方“Allin君行” ，关注我们

摘要

FinGPT作为第一个开源的金融领域大语言模型，首次实现了信息端到投资端全流程自动化投研决策，具有里程碑意义。除此之外，它在机器人投顾，情绪分析和低代码开发等金融场景也实现了开源应用。

通过对FinGPT源代码的梳理和论文阅读，本文深度解析了其工作原理和边际贡献。同时，本文也指出了它存在的主要问题，并对未来发展做出了思考。

FinGPT简要介绍：

FinGPT是开源的金融领域大语言模型。它在预训练模型的基础上针对金融领域进行微调，以适应金融领域的自然语言任务。目前，FinGPT实现了端到端的全流程自动投资框架，机器人投顾，情绪分析，量化交易等功能。

FinGPT工作原理：

FinGPT的底层技术为预训练Transformer。它通过在大规模金融文本数据上进行训练，学习丰富的金融知识和语言模式。首先，FinGPT从多渠道获取金融文本和数据，经过数据清理和标记后，对预训练模型进行微调训练。最后利用训练好的大模型或API实时输出观点。

FinGPT创新贡献：

首先，作为首个打通全流程自动投资的大模型，FinGPT代表了一种未来自动投资的发展方向。其次，开源的FinGPT促进了大模型在金融领域的应用，降低了业务成本。最后，透明可访问的数据和模型参数以及轻量级的微调技术提高了大模型的普及度。

风险提示：

大语言模型虽然在内容和生成能力上取得了显著的提升，但其在生成内容的准确性和真实性方面仍存在一定的质疑。因此，我们应该将大语言模型生成的内容视为一种提示或建议，而非客观真相或事实。换言之，尽管大语言模型能够为我们提供大量信息，但我们仍需对其生成的内容进行审慎的核实和判断，以确保其可靠性和准确性。

大语言模型生成的文本倾向于流畅的词汇和句子，然而这可能无法完全符合现实世界的客观事实。这种情况可能会导致生成的内容在某种程度上缺乏准确性。

FinGPT介绍

1.1. FinGPT概述

FinGPT是一款专为金融领域量身打造的开源大型语言模型，其强大的能力源于互联网上海量数据的训练。这款模型能够生成符合金融领域特定语境的内容，为相关研究和实际应用提供了有力支持。此外，FinGPT还具备实时收集动态金融数据的能力，并能定期进行微调，以适应不断变化的市场环境。与私有模型相比，FinGPT的最大特点是可访问性和透明度。它所依赖的数据资源公开且易于获取，使得研究人员和从业者能轻松地开发属于自己的金融大语言模型。而且，FinGPT采用了先进的自动数据清洗流程和轻量级大语言模型微调技术，有效降低了开发难度，提高了开发效率。总的来说，FinGPT凭借其在金融领域的专业知识和强大性能，已经成为了金融研究和应用领域的重要工具。无论是研究人员还是从业者，都可以从FinGPT中获益，为金融领域的创新和发展贡献力量。

FinGPT已经成功实现了多種應用，涵盖了诸如機器人投資顧問、量化和交易策略、實時情緒分析和易於開發的低代碼平台等領域。

1.2. FinGPT的目的与意义

开源FinGPT的问世，为基于互联网级海量数据的金融大语言模型的普及和应用提供了可能。其加速了金融业务智能化进程，使其在投资建议、量化交易、金融研究等领域得以智能化。这不仅提升了工作效率和效果，实现了业务的规模化和运作，同时降低了业务成本，从而推动了金融行业的数字化转型。

在投资领域，FinGPT被视为智能投研发展的重要里程碑。它首个整合了从信息收集至投资决策的全自动化投资框架。尽管目前该框架的功能仍较为初级，只能提供简单的自动化投资决策与建议，但它却首次将人工智能技术广泛运用于投资策略与管理过程，实现了端到端的自动投资理念。

FinGPT工作原理

FinGPT是由四个主要部分构成的，它们分别是数据采集、数据清理、语言模型以及应用。在处理大量动态数据和复杂市场环境时，每个模块都发挥着至关重要的作用。

FinGPT的工作流程始于数据源的获取，其模型会从互联网上搜集各类文字、数据集等信息。随后，这些收集到的数据将被推送至数据工程部门，进行清洗、标记处理以及提示工程的操作。经过处理后的数据将被引导至大语言模型（LLMs）环节，用户可以在此阶段选择多种方式利用LLMs。对于符合条件的用户来说，他们既可以通过收集的数据来训练并微调微模型，也可以选择利用这些数据以及已经训练好的模型API来支持各种应用程序的开发。最后，流程的最后一环将会是应用程序的实现，包括机器人投资顾问、量化交易等领域。

2.1. 数据采集

FinGPT工作流程的起点是数据源层，它负责从各种在线来源采集大量金融数据。该层通过整合来自新闻网站、社交媒体平台、财务报表、市场趋势等数据，从而保证数据的时效性和全面性，确保用以训练模型和下游应用的数据集涵盖最新市场信息。

相比人工采集，FinGPT的数据源层可以自动化和持续性地采集各类金融数据，不受时间和体力的限制，能够最大限度地满足对高质量、高速度、高准确度数据需求。同时，跨渠道的数据融合也可以提供数据的全面性，弥补个别数据源的不足，如社媒的时效性较高但准确度难免偏颇，而官方数据准确性高但更新频率低等。

综上，FinGPT的数据源层通过采用自动化和持续化的方式采集和融合多渠道金融数据，为其后续的NLP建模和应用提供了高质量的输入基础。这是其实现全面覆盖市场变化和高敏捷性的先决条件，也是其区别于人工分析方法的重要优势之一。

2.2. 数据工程

金融市场实时运作，并且对新闻和情绪高度敏感。证券价格可以迅速根据新信息变化，处理这些信息的延迟可能导致错失机会或增加风险。因此，实时处理对于金融NLP来说是至关重要的。

FinGPT的数据源层和数据工程模块可以实时监测和采集各类金融数据，并在获取新数据的第一时间内完成清洗、编码等预处理，为NLP模型提供实时数据输入。

FinGPT的数据工程主要有以下几个目的：

1）数据清洗：实时数据由于自动采集，难免会存在各类噪声、异常值和错误，这会对后续的NLP模型产生干扰。因此，实时数据清洗涉及去除不相关数据，处理缺失值，文本规范化（如大小写），以及错误更正。

2）词编码：在实时应用中，标注词必须在处理中实时进行。FinGPT将文本流分解成更小的单元或标记，并实现词编码。

3）标注：利用事件发生后的金融市场真实反应，标注事件所对应的情绪。FinGPT使用每个新闻相关的股票价格变化百分比作为输出标签，使用阈值将标签分成三组（积极的，消极的和中立的），将它们作为新闻情感的标签。

4）提示工程：创建有效的提示，以引导语言模型的生成过程，并产生理想的输出。要求模型选择其中一个正面的，负面的和中性的作为输出，以便模型充分利用预训练信息。

2.3. 大语言模型训练/调用

数据齐备后，可以推送至大语言模型用以生成有提示意义的金融分析。FinGPT在大语言模型层主要使用了以下两种方案：

1）大语言模型API调用：现有的大语言模型API提供了基准的语言能力，FinGPT支持用户调用ChatGPT等大模型的API实现语言模型观点输出。

2）微调模型：除了调用API外，用户也可以在本地通过低秩技术微调大模型。通过LoRa，FinGPT将本地大语言模型的参数数量从61.7亿个缩小到367万个。

表3为经过微调后的FinGPT模型在情绪分类任务上与原始ChatGLM模型的对比。在ACC和F1的评价视角下，微调后模型性能都有所提升。尤其对于剔除中性化样本后的分类任务，性能提升显著。

2.4. 产品开发与应用

FinGPT在金融领域实现了一系列的应用，包括机器人顾问，量化交易，金融情绪分析，低代码开发和金融教育等。

机器人顾问：根据个人需求和偏好实时提供金融建议，提高了获取建议的便利程度，降低了获得服务的成本。FinGPT可以学习大量历史案例和研究报告，在此基础上，它可以总结出投资策略与建议。用户可以直接使用这些建议，或根据实际情况进行适当调整，这可以极大提高工作效率

量化交易：基于FinGPT的大量金融数据训练，可以发现事件的情绪对资产的影响模式，可将这种模式用到量化交易策略中，由FinGPT实时产生交易信号以自动执行交易。这种数据驱动的量化交易策略可以更快地对市场变化进行响应。

FinGPT的启发与展望

3.1. FinGPT的创新与贡献

截止目前，应用于金融领域的大语言模型很少，其中以BloombergGPT和FinGPT为私有模型和开源模型的主要代表。BloombergGPT是金融领域的第一个大语言模型，作为私有模型的代表，其有以下几个特点：

1）能力强：专有数据获得了训练金融语言模型的优势，模型专业能力突出；

2）训练昂贵：BloombergGPT需要大量的计算资源。它训练需要大约130万个GPU小时，根据AWS(Amazon web service)云2.3美元的价格计算，每次训练的成本约为300万美元，训练模型的成本非常昂贵；

3）封闭与黑盒：BloombergGPT模型的数据和训练方案由公司开发和拥有。这意味着模型的详细内容（如结构、参数、训练数据等）并不向公众开放，只有特定组织可以使用和运营。其次，私有模型需要付费才能使用。私有模型由开发组织进行产品化与商业化运营，访问的限制也较多，不利于模型的普及和平民化应用。总体而言，专有模型实现了商业化与产品化，但也保存了较高的黑盒性与封闭性，用户难以主导模型的运营与发展。

FinGPT作为开源的金融大模型，主要有以下几点创新与贡献：

1）低训练成本

金融行业是高度动态的，信息和数据以较高频率更新。BloombergGPT的定期训练成本非常昂贵，因此轻量级适应在金融领域非常有利。FinGPT可以快速微调以与新数据保持一致，而不是随着金融环境的每一次重大变化从头开始重新训练模型，估算每次训练不到300美元。

2）数据、模型平民化

BloombergGPT需要拥有特权数据访问和API才能访问。FinGPT提供了一个更容易触达的替代方案。它优先考虑模型的轻量和适应性，利用一些最好的开源大语言模型，然后将金融数据输入这些大语言模型并对进行微调。数据方面，FinGPT使用多种可自动更新的数据渠道，数据的可访问性增强。

3）端到端的架构

FinGPT采用了一个四层框架来开发金融大规模语言模型，实现了从信息端到投资端的全流程应用架构。四个层分别是数据源层->数据工程层->大语言模型层->应用层。

3.2. FinGPT目前的问题及不足

FinGPT作为一款自动化投资解决方案，其当前版本还存在一定的弱点和限制，主要体现在以下几个方面：

1）底层技术不成熟：FinGPT使用的底层技术是大语言模型。该领域尚未完全成熟且存在争议。FinGPT依赖的技术仍需不断进步与优化，其性能和稳定性还需要提高。

2）决策能力薄弱：FinGPT目前的投资决策能力主要基于其对结构化数据的分析，以及对非结构化数据的简单判断。它难以全面模拟人类投资者在不同层面上的深入分析与判断，其决策过程相对比较简单和依赖模型，缺乏人工投资者的切身判断与思考。所以，其投资决策的逻辑和深度还比较薄弱。

3）功能较单一：FinGPT当前主要面向比较简单的数据分析与建议场景，在处理复杂问题上仍有较大提高空间，应用范围还需要拓展。

3.3. FinGPT的未来发展及影响

FinGPT这种人工智能驱动的自动化投资框架，未来可能会对投资行业产生较大影响和变革。主要体现在以下几个方面：

1）传统人工投研和分析模式面临冲击。FinGPT可以自动执行大量数据分析和信息研究工作，替代人工完成数据获取、清洗、特征提取等工作，这可能会冲击传统的人工投研模式。

2. 量化交易和机器人投顾将更加普及。依托FinGPT等AI框架，个人和机构可以更容易开发自动化的量化策略和机器人投资顾问，这将推动相关应用的普及与发展。

3. 投资决策转向数据与AI驱动。FinGPT可以提供数据分析和AI建议作为投资决策的重要依据，投资者将更多依赖于数据和模型，而非主观判断，这将改变投资行业的决策模式。

4. 个性化专业服务实现规模化。FinGPT通过AI技术，可以为大量投资者或客户提供个性化的投资管理与建议。这可以实现投资专业服务的规模化，降低服务成本，惠及更多投资者。

所以，总体来说，FinGPT这类AI驱动的自动化投资框架，将在多个层面对投资行业产生比较深远的影响与改变。它们将改写相关工作模式，推动新应用和体验，提高市场质量，最终惠及更广大的投资者群体。

总结

FinGPT是金融领域的大语言模型，通过大量金融数据训练，可以产生符合金融语境的回复与生成。它改善了通用大语言模型在金融专业领域的适用性问题。除此之外，它通过实时数据采集和处理，轻量级微调技术，一定程度上调和了金融的高度动态和大模型训练高成本之间的矛盾。最后，它首次实现了全流程自动化的投资，这一点在智能投资领域具有开创性的意义。

FinGPT受限于底层技术和模型，还存在一些问题需要解决，但是它是金融AI前进道路上的重要探索，它代表了方向而不是结果。我们需要耐心跟随其发展演进。

风险提示

大语言模型虽然取得了巨大的进步和关注，但是其生成内容的准确性、真实性依旧存在争议。由大语言模型生成的内容应当被看作提示和建议，而非客观真相或事实。

大语言模型更趋于产生读起来通顺的词句，但往往不能充分符合客观事实。这可能导致其生成内容并不完全准确客观。

报告作者：

陈奥林从业证书编号 S1230523040002

陆达从业证书编号 S1230122070032

详细报告请查看2023年7月4日发布的浙商证券金融工程专题报告《大语言模型在金融领域的创新应用框架：FinGPT》

法律声明：

本公众号为浙商证券金工团队设立。本公众号不是浙商证券金工团队研究报告的发布平台，所载的资料均摘自浙商证券研究所已发布的研究报告或对报告的后续解读，内容仅供浙商证券研究所客户参考使用，其他任何读者在订阅本公众号前，请自行评估接收相关推送内容的适当性，使用本公众号内容应当寻求专业投资顾问的指导和解读，浙商证券不因任何订阅本公众号的行为而视其为浙商证券的客户。

本公众号所载的资料摘自浙商证券研究所已发布的研究报告的部分内容和观点，或对已经发布报告的后续解读。订阅者如因摘编、缺乏相关解读等原因引起理解上歧义的，应以报告发布当日的完整内容为准。请注意，本资料仅代表报告发布当日的判断，相关的研究观点可根据浙商证券后续发布的研究报告在不发出通知的情形下作出更改，本订阅号不承担更新推送信息或另行通知义务，后续更新信息请以浙商证券正式发布的研究报告为准。

本公众号所载的资料、工具、意见、信息及推测仅提供给客户作参考之用，不构成任何投资、法律、会计或税务的最终操作建议，浙商证券及相关研究团队不就本公众号推送的内容对最终操作建议做出任何担保。任何订阅人不应凭借本公众号推送信息进行具体操作，订阅人应自主作出投资决策并自行承担所有投资风险。在任何情况下，浙商证券及相关研究团队不对任何人因使用本公众号推送信息所引起的任何损失承担任何责任。市场有风险，投资需谨慎。

浙商证券及相关内容提供方保留对本公众号所载内容的一切法律权利，未经书面授权，任何人或机构不得以任何方式修改、转载或者复制本公众号推送信息。若征得本公司同意进行引用、转发的，需在允许的范围内使用，并注明出处为“浙商证券研究所”，且不得对内容进行任何有悖原意的引用、删节和修改。

关键词：大语言模型，金融领域，FinGPT，自动金融分析，金融大模型，金融市场，数据采集，数据工程，大语言模型训练，应用开发，量化交易策略，机器人投资顾问，金融情绪分析，低代码平台，自动投资框架，人工智能，投资决策

金融大语言模型：生成内容的准确性与现实意义

AI时代，拥有个人微信机器人AI助手！AI时代不落人后！

免费ChatGPT问答，办公、写作、生活好得力助手！

搜索微信号aigc666aigc999或上边扫码，即可拥有个人AI助手！

相关文章