文章主题:AI金融报告, 抗噪的AI量价模型改进方案, 东方证券, 25页

666AI工具大全,助力做AI时代先行者!

原标题:AI+金融报告:基于抗噪的AI量价模型改进方案(附下载)

今天分享的AI+金融系列深度研究报告:《AI+金融报告:基于抗噪的AI量价模型改进方案》。

(报告出品方:东方证券)

报告共计:25页

海量/完整电子版/报告下载方式:公众号《人工智能学派》

《AI金融报告:抗噪的AI量价模型改进方案及实证分析》

引言

在我们的前期报告中,我们采用了《基于循环神经网络的多频率因子挖掘》以及《基于残差网络端到端因子挖掘模型》两种方法构建了A量价模型框架。在这个框架中,我们结合了RNN、ResNets和决策树模型,以期能够更准确地挖掘出因子,并将其应用到选股策略中。经过回测验证,我们发现该策略在样本外具有显著的选股效果,表现出了很高的预测准确性。

这套A量价模型框架主要依赖于多种不同频率的数据集来构建,包括周度(week)、日度(day)、分钟线(ms)以及Level-2(12)数据集。对于周度和分钟线数据集,我们分别将每五个交易日的日K线和每日半小时的K线整理成矩阵数据,然后将这些矩阵输入到残差网络(ResNets)中,以便提取对应时间频度的特征向量。而Level-2数据集则是通过人工合成降低频率的方法,将原始数据转化为日频因子。

AI量价模型框架主要由三个核心部分构成,它们分别是数据预处理、因子单元提取以及因子加权。首先,为了确保各个特征之间的量纲一致性并降低异常值的影响,我们需要对各种数据集中的不同特征进行去极值、标准化以及补充缺失值等操作。接下来,我们会运用RNN模型对经过预处理的四个数据集得到的时序数据进行因子单元提取。最后,我们会使用一个决策树对四个不同频率数据集生成的因子单元进行因子加权,并根据这些加权得分来选择股票。整个过程的详细步骤可以参考下图所示的流程图。

《AI金融报告:抗噪的AI量价模型改进方案及实证分析》

这套框架的特点在于,除了L2数据集采用了人工合成因子作为RNN模型的输入外,其他部分均为端到端设计,也就是说,输入数据经过简单的预处理后,完全由机器生成最终的因子。因此,在这个模型中,输入数据的信噪比、模型对噪声的敏感度以及模型的鲁棒性显得尤为关键。为了改善这些问题,可以考虑以下一些可能的优化途径。

在数据输入阶段,我们采用去极值等预处理手段,对原始数据进行平滑处理,以消除噪声影响。同时,通过在原始数据中添加扰动等数据增强方式,我们可以改变RNN参数优化的方向,进而提高模型的鲁棒性。此外,我们还利用相关算法对原始数据进行异常值检查,一旦发现异常,便将生成异常信号作为特征输入,以帮助模型更好地进行学习。

在RNN生成因子阶段,我们可以通过调整RNN的训练策略来提高模型的鲁棒性,同时降低其对噪声的敏感度。一种可行的方法是对标签进行适当的预处理,从而减轻标签噪声的影响。这样,RNN模型就能更有效地捕捉输入与输出之间的函数依赖关系,例如KD、LS和小波变换等方法。

在因子加权阶段,我们可以采用决策树可解释性方法,为输入样本和特征分配不同的权重。此外,我们还可以通过重采样等方式,降低因子噪声对输出结果的干扰。具体来说,我们可以采用double-ensemble方法来实现这一目标。

在这篇报告中,我们提出了一种针对原始模型的优化策略,该策略旨在改善整个AI量价模型框架的抗噪声性能。为了实现这一目标,我们在以下两个关键方面进行了改进:

1. 通过对抗训练的方法来对数据进行增强,并且在原损失函数加入根据增强数据设计的损失函数正则项,以寻找到一组使得模型对扰动敏感性较低的模型参数。

2. 在原始数据上对异常数据进行检验,通过相关算法识别异常数据点以辅助模型训练,降低异常数据对模型的影响。

一、对抗训练(Adversarial Training)

1.1 对抗训练简介

深度神经网络模型以其强大的拟合能力和信息提取能力在诸多领域的实际应用中取得了巨大的成功。尽管拥有近乎完美的预测能力,但是最近的一些研究发现神经网络模型在面对对抗样本(adversarial example)[1] 时它的预测能力表现的十分脆弱。给定一个能够被已经训练好的神经网络广准确预测的样本,给这个样本增加一些精心设计的微小扰动,这个扰动样本被称之为对抗样本,使得这个训练好的神经网络“对扰动样本的预测结果相较于对原始样本的预测结果发生巨大的改变。产生这个扰动的算法我们称之为对抗攻击(Adversarial Attack )算法。

比如下图所示,左图是一个原始图片(一个训练好的神经网络能够识别该图为熊猫的概率为60%即神经网络能够准确识别该图片类别),通过加入一些肉眼无法察觉的喝声之后得到下图右边的扰动图片。虽然肉眼上看原始样本和扰动样本没有任何区别,但此时神经网络识别扰动样本为长臂猿的概率为 99%,这意味着对于一个已经训练好的神经网络,且该神经网络预测能力足够强,我们仍然可以通过给原始数据加入一些扰动使得神经网络模型预测错误。

《AI金融报告:抗噪的AI量价模型改进方案及实证分析》

《AI金融报告:抗噪的AI量价模型改进方案及实证分析》

1.2 对抗训练效果测试

为了探索对抗训练对结果的提升,本节我们以数据集 day 为例,测试了相同三组 seed下对抗训练与自然训练模型输出因子取平均之后在中证全指上的选股能力,RanklC 和 RankICIR 每隔十个交易日计算一次所得 RanklC 序列均值和序列均值除以标准差,多头超额收益率按照周度调仓分二十组,相对中证全指成分股等权为基准进行测算:

《AI金融报告:抗噪的AI量价模型改进方案及实证分析》

通过上述图表结果,我们可以看出:

1. 相较于自然训练所得打分的基准,对抗训练下模型生成因子在 RankIC、RankICIR 和多 头超额等指标上均有较大幅度的提升。并且我们还发现对抗训练下模型生成因子多头组 合周均单边换手率显著下降,这意味着模型输出因子换手率与训练模型的损失函数存在 一定的关系;

2. 对抗训练和自然训练所得因子的相关系数仅只有87.57%,这意味着两种不同训练方式学 出因子存在一定的信息差异,彼此之间可以信息互补。

3. 另外一方面对比两种训练方式的多头组合净值曲线,对抗训练组整体位于自然训练组的 上方,并且 2021 年 7 月至 2022 年 4 月自然训练组因子出现失效,净值曲线整体向下倾斜,而在此段区间对抗训练组表现则相对较好。

综上我们认为对抗训练有助于模型从数据中更加充分地挖掘出有效信息,提升模型输出因子 选股能力的稳定性,并且能一定程度降低模型输出因子的换手率。

二、基于半监督模型进行异常值检验

2.1 异常信号生成简介

上一章,我们介绍了使用对抗训练的方法对数据进行增强,通过引入增强数据有关的损失函数正则项来降低神经网络模型对噪声的敏感性以及提升模型的鲁棒性来对抗数据信噪比较低的问题。另外一个角度,就是在原始数据上对数据噪声直接进行识别。

我们将每个交易日截面个股的振幅(即(最高价-最低价)/前收盘价)和个股的换手率作为 输入,利用机器学习方法将每个交易日截面所有股票相应的数据作为输入进行半监督学习,根据 机器学习模型的输出来判断该交易日个股是否属于异常,最终得到振幅和换手率对应的异常信号, 我们将这两个信号分别简称为 abn_tr 和 abn_to。首先我们考虑使用 KNN、LOF(Local Outlier Factor)【4】和 iForest(Isolation Forest)【5】这三种方法生成信号。

⚫ KNN 方法是通过寻找与数据点最临近的 k 个样本点计算它们的平均距离,根据这个平均 距离是否超过某个设定的阈值来判断是否属于异常;

⚫ LOF 方法是通过寻找与数据点最临近的 k 个样本点,通过量化指标来判定这 k 个样本周 围数据点分布密度来最终确定该样本点是否属于异常;

⚫ iForest方法则是将数据空间按照一定的准则进行切割,异常点在早期就会与大部分数据 点分隔开,通过这种方法判断数据点是否属于异常。

我们将这三种方法生成信号每日计算相关系数然后回测区间取平均,得到相关系数矩阵:

《AI金融报告:抗噪的AI量价模型改进方案及实证分析》

总体来看,对于同一个特征三种机器学习模型虽然寻找异常点逻辑不同但生成信号的相关性较高,这意味着是否异常是数据分布的固有属性,而使用的模型只影响识别异常的准确度。另外一方面对于振唱和换手率这两个特征相同模型生成的不同异常信号之间相关系数相对较低,说明这两个异常信号之间一定程度上可以信息互补。

经检验这两个信号因子在时序上进行滚动二十个交易日求平均,我们将这两个信号分别简称为 abn tr20 和 abn to20,它们本身具有较强的选股能力。下面我们列示了这通过不同模型生成的两个因子 2010年1月3日至2023 年 10 月31 日,在中证全指上对未来十日收益率的预测能力(avg 因子表示三个模型生成的因子在每个交易日截面进行方向调整之后再标准化,最后等权平均的结果),RanklC 和 RanklCIR 为每隔十个交易日计算一次 RanklC 所得序列均值和序列均值除以标准差,多头空头超额收益率按照周度调仓相对中证全指成分股等权基准进行测算。

《AI金融报告:抗噪的AI量价模型改进方案及实证分析》

通过上述 RankIC 分析的结果来看,三个模型生成的 abn_tr20 和 abn_to20 这两个因子的选 股能力较好,回测期间的表现都非常稳健,并没有出现在一段较长时间区间内出现失效风险的情况。更进一步的我们还对这两个因子进行分组测试:

《AI金融报告:抗噪的AI量价模型改进方案及实证分析》

《AI金融报告:抗噪的AI量价模型改进方案及实证分析》

单因子分组测试的结果来看,两个因子单调性较好,各分组收益具有持续且稳健的收益趋势选股效果也十分显著。另外一方面我们也可以看出各模型生成因子选股表现相当,LOF 算法生成因子表现稍弱一些,对于 abn tr20 因子 KNN 算法表现更优,而对于 abn to20 因子 iForest 因子表现更优。

2.2加人异常信号因子选股效果测试

本节我们以数据集 day 为例,测试了相同三组 seed 取平均下 RNN 是否加入异常信号因子的输出在中证全指上的选股能力:

《AI金融报告:抗噪的AI量价模型改进方案及实证分析》

通过上述图表结果我们可以看出:加入异常信号之后,模型输出因子选股能力的稳定性得到 较大幅度提升,RankIC 和 RankICIR 显著上升,而年化波动率和最大回撤显著下降。

三、各数据集因子非线性加权结果分析

这一章我们将讨论不同设定下,各数据集因子非线性加权的打分表现。为了考察增加异常信号检验因子及对抗训练对整体模型带来的增量作用,我们构建了以下几个模型:

v0:基准模型,参见报告《基于残差网络端到端因子挖掘模型》中 Model4。

Model1: 基准模型的基础上使用对抗训练算法。

Model2: Model1 的基础上加入异常信号检验因子。

并将这几个模型生成的因子分别放入中证全指、沪深 300、中证 500 和中证 1000 这四个股票池上进行回测。回测区间为 2018 年至 2023 年 10 月 31 日RanklC 和 RankICIR 为每隔十个交易日计算一次 RanklC 所得序列均值和序列均值除以标准差,多头空头超额收益率按照周度调仓相对指数成分股等权为基准进行测算。

3.1中证全指上因子测试结果

首先我们对各模型生成因子在中证全指上进行 RanklC 分析和分组测试(分成20 组),生成因子的绩效如下:

《AI金融报告:抗噪的AI量价模型改进方案及实证分析》

《AI金融报告:抗噪的AI量价模型改进方案及实证分析》

通过 RankIC 和分组测试结果来看,2018 年以来 Model1 和 Model2 较基准,RankIC 分别提 升了 0.80%和 0.74%,多头年化超额分别提升了 3.23%和 4.45%,RankICIR 和 RankIC 胜率也都 有所提高,说明异常信号因子和对抗训练算法对整个框架都有较大的增量作用。

《AI金融报告:抗噪的AI量价模型改进方案及实证分析》

各模型多头组合分年度绩效表现来看:

1. 过去六年中相对于基准 Model1 只有 2020、2021 年两年小幅跑输基准,其余四年均能大 幅跑赢基准,这说明加入异常信号检验因子对全模型能够提供稳定的增量。

2. 相对于 Model1,Model2 仅有 2019、2023 年跑输外其余四年均有正向超额,这说明对 抗训练带来的增量作用也较为稳定。

3. 相对于基准模型,Model1 和 Model2 的多头组合周均单边换手率也有所下降,2018 年以 来分别下降了 1.83%和 1.57%,2020 年以来分别下降了 1.94%和 1.82%。这意味着模型 输出因子的换手情况可能与输入的因子以及模型训练的目标存在一定的关系。

4. 在过去四年中,无论 Model1 还是 Model2 生成因子多头的超额收益均在一个小范围内波动,这意味着 Model1 和 Model2 这两个模型生成因子没有出现明显的衰减趋势,获取超 额收益的稳定性相对较好。

3.2各宽基指数上因子测试结果

本节我们对各模型生成因子在沪深 300、中证 500 和中证 1000上进行 RanklC 分析和分组测试(分成 5组),回测结果如下:

报告共计:25页

海量/完整电子版/报告下载方式:公众号《人工智能学派》返回搜狐,查看更多

责任编辑:

AI金融报告, 抗噪的AI量价模型改进方案, 东方证券, 25页

《AI金融报告:抗噪的AI量价模型改进方案及实证分析》

AI时代,拥有个人微信机器人AI助手!AI时代不落人后!

免费ChatGPT问答,办公、写作、生活好得力助手!

搜索微信号aigc666aigc999或上边扫码,即可拥有个人AI助手!