短短4年时间,从GPT-1到GPT-4,彭博社BloombergGPT、谷歌Bard、讯飞星火认知大模型等GPT模型遍地开花……LLM逐渐发展成为一种通用技术(GPTs),相较于闪耀NLP界的Bert模型,GPT模型具有更高的性能和更广泛的应用场景。AI时代已经到来,GPT技术在未来的发展中将会继续发挥重要作用,并成为自然语言处理领域的主流技术之一。
对ChatGPT的使用体会:1、在金融情感分析方面强大到可以吊打BERT模型,理由是具有参数优势(万亿级参数)的GPT学习到了Bert(亿级参数)未知的“文本信息“;2、会加剧社会的马太效应。对具备知识功底的人来说,ChatGPT的回答大致能令人满意(不易被回答所忽悠),可以大大提高工作效率;但对于小白来说,只能从中学习得到非常有限的信息(容易被GPT忽悠)。本文主要解读ChatGPT技术在股市中应用的第一篇文章《Can ChatGPT Forecast Stock Price Movements? Return Predictability and Large Language Models》,于 2023 年 4 月 15 日预发布于 Arxiv。主要内容包括:研究结论、实验设计、实证结论三个部分。
1、研究结论
作者利用了数据运营商RavenPack提供的新闻数据,对其进行预处理,之后分别用ChatGPT、GPT-1、GPT-2、BERT-large、BERT模型对新闻数据进行评分以此构建新闻因子,之后将个股次日收益与新闻因子进行基准回归,依据回归结果构建了多空投资组合,最后得到如下结论:1、GPT-1、GPT-2 和 BERT 不能更精确的预测股票收益:这表明股票收益可预测性是复杂模型的一种能力。
2、ChatGPT的情绪评分在每日股票市场回报方面具有统计显著的预测能力:每用新闻标题数据和生成的情绪评分,我们发现ChatGPT评估与样本中股票的随后每日回报之间存在强相关性。
3、ChatGPT模型在预测股市回报方面优于现有的情绪分析方法:控制ChatGPT的情绪评分变量时,其他情感评分对每日股票市场回报的影响降至零。
4、ChatGPT的情绪评分对于小市值股票非常有效:在小市值样本回归中,GPT因子不仅显著且系数更大!
5、将LLMs与其他机器学习技术集成,是未来量化投资的重要发展方向。
2、实证分析
2.1 数据说明作者利用了两个数据集:1、美国证券交易委员会(CRSP)的每日个股收益率(研究对象为股票代码为10或11的普通股);2、数据运营商(RavenPack)的新闻标题数据,并且作者对这些标题进行了预处理和过滤使得更突出新闻的异质性(a.相关性分数为100的新闻;b.排除了被归类为“股票涨跌”的标题;c. “事件相似度天数”超过90;d.使用Optimal String Alignment度量标题相似性以此删除同一天、同一家公司相似度大于0.6的标题)。另外,ChatGPT的训练数据仅到2021年9月,文章采用的数据集范围为2021年9月——2022年12月。
RavenPack是一家新闻数据公司,国内做金融舆情的数据运营商有:万徳、同花顺Smart Tag以及数库ChinaScope(2020年底J.P. Morgan根据数库的数据写了一份A股市场的新闻因子多空策略)。 2.2 研究设计2.2.1 Prompt提示词 2.2.2 GPT示例下面是作者提问的一个例子,从回答上来看GPT的回答是相当准确的(如果是Bert模型,可能只attention到“Fined 630000” 而给标题判定为消极影响),相比RavenPack提供的是-0.52的负面情感评分。
2.2.3 GPT因子作者定义了一个“GPT因子”,其中“YES”映射为1,“UNKNOWN”映射为0,“NO”映射为-1。如果给定日期有多个公司的标题,则我们将这些分数平均。最后将这个指标与次日个股收益率进行线性回归(面板数据,固定个体、时间效应)。
注:gpt因子与GPT Response Length、Event Sentiment Score相关度分别为0.44、0.36.
3、 基准回归从论文所给图中,作者应该是构建了一个多空策略,投资收益从1增长到3.5左右。下面是回归公式:
ai、bt是个体效应和时间固定效应,xt分别是GPT情感因子、Ravenpack情感因子、Bert情感因子。表3、表4、表5分别是所有样本(60370条)、小市值样本(14262条)、非小市值(49094条)进行的面板数据回归结果。可以看到,在小市值股票中GPT因子最为显著。表7是各个情绪因子预测次日收益的均值,可以看到GPT对于正面、负面消息预测股价能取得显著收益。参考文献
[1]Alejandro Lopez-Lira and Yuehua Tang . Can ChatGPT Forecast Stock Price Movements? Return Predictability and Large Language Models.2023.04.06[2]独家解读 | 新闻分析数据哪家强?https://cloud.tencent.com/developer/article/1705568此章已毕,鄙人欲休,阁下若觉本文666
【点赞】、【在看】享于左右益友!