一种基于限价指令簿的动态高频量化交易方法

2023-01-15 07:55:27 来源：中国专利 TAG：

1.本发明属于量化交易技术领域，尤其涉及一种基于限价指令簿的动态高频量化交易方法。

背景技术：

2.量化投资模型是利用计算机算法进行证券交易，以获取稳定收益为目的的交易方法。随着中国金融市场规模不断壮大，与国际市场的互联互通加强，量化投资领域飞速发展，竞争渐趋激烈，金融机构和投资者面临的风险日益复杂，给金融交易领域的发展提出了诸多挑战。高频交易作为投资领域王冠上的明珠，其最大的特点是收益高，而风险却小，当然资金容量不会太大，高频策略一般不会对外募资扩大规模。
3.计算机软硬件的快速发展，使得诸如盘口五档数据、盘口十档数据、逐笔交易数据等高频时间序列的采集门槛变低，积累的数据量呈现爆发式增长，传统的金融分析方法需要满足的假设条件过于苛刻，而且应用过于广泛，市场上的产品同质化高，导致实际应用效果不理想，高频交易是一个相对狭窄的赛道，相关的研究较少，随着机器学习和人工智能技术的快速迭代升级，相关技术应用到股票的高频预测领域成为可能。
4.另一方面，在预测限价指令簿价格趋势时，根据每个时刻的数据构建标签，将此问题转为分类问题，但在构建标签时，往往会出现标签类别不平衡的问题，该问题在高频数据中比较突出。当使用类别数量相差很大的数据集进行训练与预测时，可能会出现整体准确率较高，“上涨”或“下跌”等少数类重点样本准确率很低的情况。常见的解决办法是对数据进行过采样和欠采样，然而简单的降采样和过采样效果并不理想，最终下单执行策略时，往往又是围绕“上涨”或“下跌”的样本来设计，因此，少数类样本识别精度不高，会严重影响交易策略的落地执行效果。

技术实现要素：

5.为了解决上述问题，本发明提出了一种基于限价指令簿的动态高频量化交易策略，基于限价指令簿的具体情况构造特征，将机器学习技术应用于高频预测，并采用滚动动态更新的方法，充分利用最新数据信息，从整个模型层面不断优化现有策略，以适应市场的变化。同时，提出的改进不平衡的样本生成方法，在不损失信息的情况下，能很好地平衡标签的三种状态，从而提升整个量化投资模型的预测效果。
6.本发明公开的一种基于限价指令簿的动态高频量化交易方法，包括以下步骤：
7.步骤1：数据预处理
8.将获取到的数据源进行数据清理，包括缺失值处理、离群点处理；然后，数据集成，将多个数据源中的数据结合并存放在数据库中；然后，数据规约，通过删除不相关的属性，来减少数据量，并保证信息的损失最小；最后，数据规范，根据数据的特点，将数据中不同量纲的特征进行缩放、离散化处理；
9.步骤2：样本获取
10.使用股票未来三秒中间价来刻画价格变化，并标记为“上涨”、“平稳”和“下跌”三个状态，构成样本；再使用基于改进样本不平衡方法生产平衡的生成样本，包括：生成新的样本；检查新的生成样本，排除与本类距离远的生成样本；消除噪声样本，得到亲和力强的新的生成样本，补齐样本，使与多数类样本数量一致；多次重复生成样本，筛选到亲和力最强的新的生成样本，获取到所需的平衡的生成样本；
11.步骤3：量化投资模型训练
12.训练机器学习模型，计算整体预测效果评价指标，调整模型参数，得到最优模型；
13.步骤4：量化投资模型动态高频预测
14.对时间窗口进行动态更新，采用滑动窗口方式，将获取到的平衡的生成样本，输入至含最优参数的量化投资模型，判断股票预测时间点的上涨、下跌和平稳。
15.进一步的，特征至少包括以下之一：
16.卖方的卖i价格和买方的买i价格、卖方的卖i下单数量和买方的买i下单数量、成交量、持仓量、最新成交价、不同档位买卖价差、不同档位中间价、不同档位买卖中间下单量指标、不同档位价差除以中间价、不同档位价差除以下单数量的深度、不同档位卖价与卖1价之间的价差、不同档位买1价与买价之间的价差、相邻档位之间卖价价差、相邻档位之间买价价差、所有卖价档位的均值、所有买价档位的均值、所有买方档位下单数量的均值、所有卖方档位下单数量的均值、所有档位买卖价差的累计和、所有档位买卖下单数量的累计和、所有档位的卖方下单数量加权平均价格、所有档位的买方下单数量加权平均价格、不同档位买卖双方下单数量的不平衡性特征、不同档位卖方价格的对数关于时间t的一阶导数、不同档位买方价格的对数关于时间t的一阶导数、不同档位卖方下单数量的对数关于时间t的一阶导数、不同档位买方下单数量的对数关于时间t的一阶导数、不同档位卖方价格的对数关于时间t的二阶导数、不同档位买方价格的对数关于时间t的二阶导数、不同档位卖方下单数量的对数关于时间t的二阶导数、不同档位买方下单数量的对数关于时间t的二阶导数、成交量的一阶导数、持仓量的一阶导数、所有档位买卖下单数量差累计和的一阶导数、所有档位买卖下单数量差累计和的二阶导数、所有档位的卖方下单数量加权平均价格的一阶导数、所有档位的买方下单数量加权平均价格的一阶导数。
17.进一步的，采用中间价来刻画价格变化，定义t时刻中间价的定义为：
[0018][0019][0020]
式中，为t时刻最佳卖一价，为t时刻最佳买一价，δp
t
为中间价在δt时间内的价格变化，根据δp
t
将t时刻的限价指令簿数据划分为“上涨”、“平稳”和“下跌”三个状态；当δp
t
大于等于0.4时，t时刻的标签设置为“上涨”；当δp
t
小于等于0.4时，t时刻的标签设置为“下跌”；当δp
t
处于-0.4和0.4之间时，t时刻的标签设置为“平稳”。
[0021]
进一步的，生成新的样本，包括：
[0022]
对标签的分类，按照每个类别数量的多寡，将所有样本分为少数类样本集合中数类样本集合
多数类样本集合式中n
min
为少数类样本数量，n
mid
为中数类样本数量，n
maj
为多数类样本数量；
[0023]
确定生成少数类样本的数量为生成中数类样本的数量为
[0024]
在少数类样本集合s
min
中随机抽取样本在中数类样本集合s
min
中随机抽取样本式中，n
feature
为特征数量；
[0025]
计算从s
min,i
到集合s
min
中所有样本的曼哈顿距离，并计算从s
mid,i
到集合s
mid
中所有样本的曼哈顿距离；
[0026]
找出s
min,i
到集合s
min
曼哈顿距离最短的k个邻近样本，并找出s
mid,i
到集合s
mid
曼哈顿距离最短的k个邻近样本；
[0027]
分别对s
min,i
与s
mid,i
邻近的k个样本计算均值，记为和
[0028]
生成新的样本生成新的样本和和
[0029]
重复上述步骤，直到生成个少数类样本，以及个中数类样本。
[0030]
进一步的，检查新的生成样本，排除与本类距离远的生成样本，包括：
[0031]
针对少数类生成样本，执行如下步骤：
[0032]
计算少数类生成样本到少数类样本集合s
min
中所有样本s
min,k
的曼哈顿距离，记为计算少数类生成样本到中数类样本集合s
mid
中所有样本s
mid,k
的曼哈顿距离，记为计算少数类生成样本到多数类样本集合s
maj
中所有样本s
maj,k
的曼哈顿距离，记为计算公式如下：
[0033][0034][0035]
[0036]
找出少数类生成样本到所有原样本类曼哈顿距离的最小值，分别定义如下：
[0037][0038][0039][0040]
若同时满足下面两个条件，则保留该生成样本；反之，则删除该生成样本
[0041][0042][0043]
完成上述三步之后，可得新的少数类生成样本集合，记为完成上述三步之后，可得新的少数类生成样本集合，记为样本总数合计为
[0044]
针对中数类生成样本，执行如下步骤：
[0045]
计算中数类生成样本到少数类样本集合s
min
中所有样本s
min,k
的曼哈顿距离，记为计算中数类生成样本到中数类样本集合s
mid
中所有样本s
mid,k
的曼哈顿距离，记为计算中数类生成样本到多数类样本集合s
maj
中所有样本s
maj,k
的曼哈顿距离，记为计算公式如下：
[0046][0047][0048][0049]
找出中数类生成样本到所有原样本类曼哈顿距离的最小值，分别定义如下：
[0050]
[0051][0052][0053]
若同时满足下面两个条件，则保留该生成样本；反之，则删除该生成样本：
[0054][0055][0056]
完成上述三步之后，可得新的中数类生成样本集合，记为完成上述三步之后，可得新的中数类生成样本集合，记为样本总数合计为
[0057]
进一步的，消除噪声样本，得到亲和力强的新的生成样本，补齐样本，使与多数类样本数量一致，包括：
[0058]
计算新的少数类生成样本与所有少数类原样本之间的距离和，以及新的中数类生成样本与所有中数类原样本之间的距离和：
[0059][0060][0061]
找出亲和力强的新的生成样本，将按照从小到大的顺序排列，得到对应保留排名前n
maj-n
min
的新的少数类生成样本；将分别按照从小到大的顺序排列，得到对应保留排名前n
maj-n
mid
的新的中数类生成样本；
[0062]
计算所有新的生成样本的亲和力，定义如下：
[0063][0064]
重复上述步骤n(n≥100)次，计算每次d
sum
值，选出最小的d
sum
，筛选到亲和力最强
的新的生成样本，即为所需生成样本。
[0065]
进一步的，机器学习模型中的量化投资模型训练模块综合xgboost模型、pca模型和svm模型的优点，向xgboost模型、pca模型和svm模型的分类器模型输入步骤2生成的平衡样本，输出下一个交易日上涨、下跌与持平的预测结果，然后评估预测效果，调整模型参数使模型性能达到最优。
[0066]
进一步的，xgboost模型、pca模型和svm模型的分类预测结果通过下式得到最终的预测结果：
[0067]
pred＝λ1×
pred
xgbboosτ
λ2×
pred
pca
λ3×
pred
svm
[0068]
其中λ1、λ2、λ3分别为xgboost模型、pca模型和svm模型预测值的权重，初始值分别为1/3、1/3、1/3，再通过遗传算法进行调整，得到最佳权重值；
[0069]
遗传算法步骤具体为：将三种模型的权重作为遗传算法搜索的自变量，确定遗传算法的最大迭代次数，通过初始化、变异、交叉和选择操作，逐代优化三个权重，使适应度函数达到最大值。
[0070]
本发明的有益效果如下：
[0071]
1)传统的金融分析方法需要满足的假设条件过于苛刻，而且应用过于广泛，市场上的产品同质化高，导致实际应用效果不理想，高频交易是一个相对狭窄的领域，相关的研究较少，本发明提出的基于限价指令簿的具体情况构造特征，将机器学习技术应用于高频预测，基于机器学习和人工智能技术的快速迭代升级，股票的高频预测成为可能。
[0072]
2)提出了一种改进样本不平衡策略。常见的解决办法是对数据进行过采样和欠采样，然而简单的降采样和过采样效果并不理想，最终下单执行策略时，往往又是围绕“上涨”或“下跌”的样本来设计的，少数类样本识别精度不高，会严重影响交易策略的落地执行效果。本发明提出的改进不平衡的样本生成方法，在不损失信息的情况下，能很好的平衡标签的三种状态，从而提升整个量化投资模型的预测效果。
[0073]
3)使用三种机器学习模型进行训练和预测，并使用遗传算法对三种机器学习模型的预测结果进行优化，这样可以综合三种机器学习模型的优点，并通过遗传算法使得三种机器学习模型的预测结果有机结合，得到最佳预测结果。
附图说明
[0074]
图1本发明的方法流程图；
[0075]
图2本发明对时间窗口进行动态更新示意图。
具体实施方式
[0076]
下面结合附图对本发明作进一步的说明，但不以任何方式对本发明加以限制，基于本发明教导所作的任何变换或替换，均属于本发明的保护范围。
[0077]
如附图1所示，本实施例设计实现了一种基于限价指令簿的动态高频交易量化交易策略，包括四个步骤，分别为数据预处理、样本获取、量化投资模型训练、量化投资模型动态高频预测。
[0078]
步骤1：数据预处理
[0079]
从wind资讯(金融数据和分析工具服务商)获取历史交易数据，将获取到的数据源
进行数据清理，包括缺失值处理、离群点处理等；然后，数据集成，将多个数据源中的数据结合并存放在数据库中；然后，数据规约，通过删除不相关的属性，来减少数据量，并保证信息的损失最小。最后，数据规范，根据数据的特点，将数据中不同量纲的特征进行缩放、离散化处理等，以便于后续的综合分析。
[0080]
步骤2：样本获取
[0081]
本发明基于市场的微观结构数据构建特征，使用股票未来三秒中间价来刻画价格变化，并标记为“上涨”、“平稳”和“下跌”三个状态，构成样本。再通过本发明提出的一种新的基于改进样本不平衡方法，首先，生成新的样本；然后，检查新的生成样本，排除与本类距离远的生成样本；进一步地，消除噪声样本，得到亲和力强的新的生成样本，补齐样本，使与多数类样本数量一致；最后多次重复生成样本，筛选到亲和力最强的新的生成样本，获取到所需的平衡的生成样本，进入步骤3。
[0082]
步骤3：量化投资模型训练
[0083]
训练机器学习模型，计算整体预测效果评价指标，调整模型参数，得到最优模型。
[0084]
步骤4：量化投资模型动态高频预测
[0085]
本发明对时间窗口进行动态更新，采用滑动窗口方式，将获取到的平衡的生成样本，输入至含最优参数的量化投资模型，判断股票预测时间点的上涨、下跌和平稳。
[0086]
以下详细叙述实施过程：
[0087]
步骤1：数据预处理
[0088]
包括数据获取、数据清理、数据集成、数据规约。
[0089]
步骤1.1：数据获取
[0090]
从wind金融终端获取数据。包括日期、时间、成交价、成交量、总量、额、属性(持仓增减)、买1价、买1量、买2价、买2量、买3价、买3量、买4价、买4量、买5价、买5量、买6价、买6量、买7价、买7量、买8价、买8量、买9价、买9量、买10价、买10量、卖1价、卖1量、卖2价、卖2量、卖3价、卖3量、卖4价、卖4量,卖5价、卖5量、卖6价、卖6量、卖7价、卖7量、卖8价、卖8量、卖9价、卖9量、卖10价、卖10量、bs方向。
[0091]
步骤1.2：数据清洗
[0092]
步骤1.2.1：缺失值的处理。考虑删除或者填充，若需要填充的变量是连续型，一般采用均值法和随机差值进行填充，若变量是离散型，通常采用中位数或哑变量进行填充。
[0093]
步骤1.2.2：离群点处理。找出处于特定分布区域或范围之外的数据，根据异常点的数量和影响考虑是否将该条记录删除，或者用平均值或中位数替代异常点。
[0094]
步骤1.3：数据集成
[0095]
将多个数据源中的数据结合并存放在数据库中，并解决冗余问题以及数据值冲突问题。
[0096]
步骤1.4：数据规约
[0097]
通过删除不相关的属性，来减少数据量，并保证信息的损失最小。
[0098]
步骤1.5：数据规范
[0099]
根据数据的特点，将数据中不同量纲的特征进行缩放、离散化处理等
[0100]
步骤2：样本获取
[0101]
步骤2.1：特征构建
[0102]
在市场的微观结构数据中，之前一个时间段的交易状态与当前时刻的量价状态往往是相关的。本发明在构造基于现价指令簿某时刻的特征时，尽量使特征能够寻找到影响量价、订单流量和时间之间相互影响的一阶、二阶等因素。本发明使用level2十档行情数据，即限价指令簿中有10档买卖双方的价格和下单数量，下表中n＝10。
[0103]
构建的特征如表1所示：
[0104]
表1特征构建集合
[0105]
[0106][0107]
步骤2.2：标签分类方法
[0108]
本发明采用中间价来刻画价格变化，定义t时刻中间价的定义为：
[0109][0110][0111]
式中，为t时刻最佳卖一价，为t时刻最佳买一价，δp
t
为中间价在δt时间内的价格变化，根据δp
t
将t时刻的限价指令簿数据划分为“上涨”、“平稳”和“下跌”三个状态。当δp
t
大于等于0.4时，t时刻的标签设置为“上涨”；当δp
t
小于等于0.4时，t时刻的标签设置为“下跌”；当δp
t
处于-0.4和0.4之间时，t时刻的标签设置为“平稳”。
[0112]
步骤2.3：分类不平衡问题处理
[0113]
为更好的预测，大多数分类算法都试图生成纯样本学习，并尽可能确定每个类别的边界，接近边界的生成样本往往比远离边界的生成样本更容易分类。因此，本发明提出了一种新的基于改进样本不平衡方法能够清晰定义边界的不平衡问题处理方法，详细步骤如下所示：
[0114]
步骤2.3.1：生成新的样本
[0115]
根据步骤2.2对标签的分类，按照每个类别数量的多寡，可将所有样本分为少数类样本集合中数类样本集合多数类样本集合式中n
min
为少数类样本数量，n
mid
为中数类样本数量，n
maj
为多数类样本数量；
[0116]
步骤2.3.1.1：确定生成少数类样本的数量为生成中数类样本的数量为
[0117]
步骤2.3.1.2：在少数类样本集合s
min
中随机抽取样本中随机抽取样本在中数类样本集合s
min
中随机抽取样本中随机抽取样本式中，n
feature
为特征数量；
[0118]
步骤2.3.1.3：计算从s
min,i
到集合s
min
中所有样本的曼哈顿距离，并计算从s
mid,i
到集合s
mid
中所有样本的曼哈顿距离；
[0119]
步骤2.3.1.4：找出s
min,i
到集合s
min
曼哈顿距离最短的k个邻近样本，并找出s
mid,i
到集合s
mid
曼哈顿距离最短的k个邻近样本；
[0120]
步骤2.3.1.5：分别对s
min,i
与s
mid,i
邻近的k个样本计算均值，记为和
[0121]
步骤2.3.1.6：生成新的样本步骤2.3.1.6：生成新的样本和和
[0122]
步骤2.3.1.7：重复步骤2.3.1.2-步骤2.3.1.6，直到生成个少数类样本，以及个中数类样本。
[0123]
步骤2.3.2：检查新的生成样本，排除与本类距离远的生成样本
[0124]
针对所有少数类生成样本，执行如下步骤：
[0125]
步骤2.3.2.1：计算少数类生成样本到少数类样本集合s
min
中所有样本s
min,k
的曼哈顿距离，记为计算少数类生成样本到中数类样本集合s
mid
中所有样本s
mid,k
的曼哈顿距离，记为计算少数类生成样本到多数类样本集合s
maj
中所有样本s
maj,k
的曼哈顿距离，记为计算公式如下：
[0126][0127][0128][0129]
步骤2.3.2.2：找出少数类生成样本到所有原样本类曼哈顿距离的最小值，分别定义如下：
[0130][0131][0132][0133]
步骤2.3.2.3：若同时满足下面两个条件，则保留该生成样本；反之，则删除该生成样本。
[0134][0135][0136]
步骤2.3.2.4：完成上述三步之后，可得新的少数类生成样本集合，记为
样本总数合计为
[0137]
针对中数类生成样本，执行如下步骤：
[0138]
步骤2.3.2.5：计算中数类生成样本到少数类样本集合s
min
中所有样本s
min,k
的曼哈顿距离，记为计算中数类生成样本到中数类样本集合s
mid
中所有样本s
mid,k
的曼哈顿距离，记为计算中数类生成样本到多数类样本集合s
maj
中所有样本s
maj,k
的曼哈顿距离，记为计算公式如下：
[0139][0140][0141][0142]
步骤2.3.2.6：找出中数类生成样本到所有原样本类曼哈顿距离的最小值，分别定义如下：
[0143][0144][0145][0146]
步骤2.3.2.7：若同时满足下面两个条件，则保留该生成样本；反之，则删除该生成样本。
[0147][0148][0149]
步骤2.3.2.4：完成上述三步之后，可得新的中数类生成样本集合，记为样本总数合计为
[0150]
步骤2.3.3：进一步地，消除噪声样本，得到亲和力强的新的生成样本，补齐样本，
使与多数类样本数量一致。
[0151]
步骤2.3.3.1：计算新的少数类生成样本与所有少数类原样本之间的距离和，以及新的中数类生成样本与所有中数类原样本之间的距离和
[0152][0153][0154]
步骤2.3.3.2：找出亲和力强的新的生成样本，将按照从小到大的顺序排列，得到对应保留排名前n
maj-n
min
的新的少数类生成样本；将分别按照从小到大的顺序排列，得到对应保留排名前n
maj-n
mid
的新的中数类生成样本。
[0155]
步骤2.3.3.3：计算所有新的生成样本的亲和力，定义如下：
[0156][0157]
步骤2.3.4：重复上述步骤2.3.1-步骤2.3.3n(n≥100)次，计算每次d
sum
值，选出最小的d
sum
，筛选到亲和力最强的新的生成样本，即为所需生成样本。
[0158]
步骤3：量化投资模型训练
[0159]
量化投资模型训练的模型采用分类器，其环境为python语言，训练模型使用机器学习包scikit-learn里面的xgboost模型、pca模型和svm模型。
[0160]
xgboost对子树每次做分裂候选时，是使用的gain增益，而不是普通的gini指数或者均方差，是一种优化过的误差计算，并将树模型的复杂度加入到正则项中，参与到损失函数，避免过拟合问题。
[0161]
主成分分析(pca)是一种统计分析与简化数据集矩阵的方法。pca利用正交变换对变量观测值进行线性变换，产生一系列线性不相关变量，即主成分，从而达到变量降维的目的，其可用于消除金融时序数据多元回归方程多重共线性问题。
[0162]
svm(支持向量机)建立在结构风险最小化理论的基础上，使用核函数连续变化，通过最小化泛化误差上界来估计函数，可以较好地处理高维数据，泛化性能较好。svm以训练误差为优化问题约束条件，将置信范围值最小化作为优化目标，将低维空间数据通过核函数转换为高维空间数据，从而实现高维空间分类。因此，svm在小样本、动态变化数据预测上能力更强。
[0163]
量化投资模型训练模块综合xgboost模型、pca模型和svm模型的优点，向xgboost
模型、pca模型和svm模型的分类器模型输入步骤2生成的平衡样本，输出下一个交易日上涨、下跌与持平的预测结果，然后评估预测效果，调整模型参数使模型性能达到最优。
[0164]
xgboost模型、pca模型和svm模型的分类预测结果通过下式得到最终的预测结果：
[0165]
pred＝λ1×
pred
xgbboost
λ2×
pred
pca
λ3×
pred
svm
[0166]
其中λ1、λ2、λ3分别为xgboost模型、pca模型和svm模型预测值的权重，初始值分别为1/3、1/3、1/3，再通过遗传算法进行调整，得到最佳权重值。遗传算法搜索模型具体为：将三种模型的权重作为遗传算法搜索的自变量，采用遗传算法中的差分进化算法，确定遗传算法的最大迭代次数，通过初始化、变异、交叉和选择操作，逐代优化三个权重，使适应度函数(最终预测结果)达到最大值。
[0167]
求解最佳权重值的问题类似于0-1背包问题，适应度函数f即pred，在一些实施例中采用蛙跳算法进行求解。适应度函数其中pred1、pred2、pred3分别为xgboost模型、pca模型和svm模型预测值。
[0168]
在遗传算法的每次迭代后得到对应的适应度函数f值，当达到遗传算法的最大迭代次数时，系统获得最大的适应度函数f值以及该值对应的权重。
[0169]
蛙跳算法具体步骤为：
[0170]
步骤1初始化青蛙种群；
[0171]
步骤2将青蛙族群划分成族群；
[0172]
步骤3计算每支青蛙的适应度；
[0173]
步骤4对种群进行更新(全局)：
[0174]
步骤4.1根据适应度划分了族群；
[0175]
步骤4.2对子族群进行更新(局部)；
[0176]
步骤4.2.1确定全局最优可行解ug，子族群最优可行解ub和最差解uw；
[0177]
步骤4.2.2根据适应度函数更新最差解uw得到新解uq；
[0178]
步骤4.2.3判断更新后的解uq是否优于原uw，如果优于则替换原最差解，否则随机产生一个新的解替换原最差解；
[0179]
步骤4.3对更新后的了族群进行混合，取代原族群；
[0180]
步骤5输出全局最优可行解ug。
[0181]
在预测效果评估方面，本发明重点考察上涨和下跌的预测表现，计算方法如下：
[0182][0183][0184][0185]
[0186][0187]
其中，precision
up
为上涨类别的预测精准度；recall
up
为上涨类别的预测召回率；tp
up
为实际标签和预测标签均为上涨的样本数量；fp
up
为实际标签为下跌或平稳，但预测标签为上涨的样本数量；fn
up
为实际标签为上涨，但是预测标签为下跌或平稳的样本数量；precision
down
为下跌类别的预测精准度；recall
down
为下跌类别的预测召回率；tp
down
为实际标签和预测标签均为下跌的样本数量；fp
down
为实际标签为上涨或平稳，但预测标签为下跌的样本数量；fn
down
为实际标签为下跌，但是预测标签为上涨或平稳的样本数量；α
evaluation
为整体预测效果评价指标。
[0188]
步骤3.1：训练模型，计算整体预测效果评价指标α
evaluation
，
[0189]
步骤3.2：调整模型参数，若α
evaluation
》γ，则训练的模型满足要求，则将得到的最优模型参数提供给步骤4。
[0190]
步骤4：量化投资模型动态高频预测
[0191]
为充分利用历史数据信息，保证预测效果，本发明对时间窗口进行动态更新，采用滑动窗口方式，及时加入最新数据，剔除最旧数据，且保持新添加的数据量和剔除的数据量相等。如图2所示，针对t时刻，本发明使用t时刻前的一个小时数据作为原始样本数据，并用步骤2的方法通过原始样本数据获取到所需平衡的生成样本，用步骤3的方法训练模型，训练时间长度为1分钟，用于预测t 1分钟至t 6分钟区间内每三秒的价格变化趋势。本发明每隔5分钟滑动一次窗口，针对t 5*n分钟时刻，采用同样的方法进行动态高频预测。
[0192]
动态高频预测模块操作过程为：
[0193]
步骤4.1：获取平衡的生成样本。使用t时刻前的一个小时数据作为原始样本数据，并用步骤2的方法通过原始样本数据获取到所需平衡的生成样本。
[0194]
步骤4.2：训练量化投资模型，获取最优模型参数。通过步骤3的方法训练模型，训练时间长度为1分钟，即t时刻到t 1分钟时刻区段内用于训练。
[0195]
步骤4.3：动态高频预测。将获取到的平衡的生成样本，输入至含最优参数的量化投资模型，判断股票预测时间点的上涨、下跌和平稳，并据此决定下单的操作。
[0196]
本发明的有益效果如下：
[0197]
1)传统的金融分析方法需要满足的假设条件过于苛刻，而且应用过于广泛，市场上的产品同质化高，导致实际应用效果不理想，高频交易是一个相对狭窄的领域，相关的研究较少，本发明提出的基于限价指令簿的具体情况构造特征，将机器学习技术应用于高频预测，基于机器学习和人工智能技术的快速迭代升级，股票的高频预测成为可能。
[0198]
2)提出了一种改进样本不平衡策略。常见的解决办法是对数据进行过采样和欠采样，然而简单的降采样和过采样效果并不理想，最终下单执行策略时，往往又是围绕“上涨”或“下跌”的样本来设计的，少数类样本识别精度不高，会严重影响交易策略的落地执行效果。本发明提出的改进不平衡的样本生成方法，在不损失信息的情况下，能很好的平衡标签的三种状态，从而提升整个量化投资模型的预测效果。
[0199]
3)使用三种机器学习模型进行训练和预测，并使用遗传算法对三种机器学习模型的预测结果进行优化，这样可以综合三种机器学习模型的优点，并通过遗传算法使得三种
机器学习模型的预测结果有机结合，得到最佳预测结果。
[0200]
本文所使用的词语“优选的”意指用作实例、示例或例证。本文描述为“优选的”任意方面或设计不必被解释为比其他方面或设计更有利。相反，词语“优选的”的使用旨在以具体方式提出概念。如本技术中所使用的术语“或”旨在意指包含的“或”而非排除的“或”。即，除非另外指定或从上下文中清楚，“x使用a或b”意指自然包括排列的任意一个。即，如果x使用a；x使用b；或x使用a和b二者，则“x使用a或b”在前述任一示例中得到满足。
[0201]
而且，尽管已经相对于一个或实现方式示出并描述了本公开，但是本领域技术人员基于对本说明书和附图的阅读和理解将会想到等价变型和修改。本公开包括所有这样的修改和变型，并且仅由所附权利要求的范围限制。特别地关于由上述组件(例如元件等)执行的各种功能，用于描述这样的组件的术语旨在对应于执行所述组件的指定功能(例如其在功能上是等价的)的任意组件(除非另外指示)，即使在结构上与执行本文所示的本公开的示范性实现方式中的功能的公开结构不等同。此外，尽管本公开的特定特征已经相对于若干实现方式中的仅一个被公开，但是这种特征可以与如可以对给定或特定应用而言是期望和有利的其他实现方式的一个或其他特征组合。而且，就术语“包括”、“具有”、“含有”或其变形被用在具体实施方式或权利要求中而言，这样的术语旨在以与术语“包含”相似的方式包括。
[0202]
本发明实施例中的各功能单元可以集成在一个处理模块中，也可以是各个单元单独物理存在，也可以多个或多个以上单元集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。所述集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中。上述提到的存储介质可以是只读存储器，磁盘或光盘等。上述的各装置或系统，可以执行相应方法实施例中的存储方法。
[0203]
综上所述，上述实施例为本发明的一种实施方式，但本发明的实施方式并不受所述实施例的限制，其他的任何背离本发明的精神实质与原理下所做的改变、修饰、代替、组合、简化，均应为等效的置换方式，都包含在本发明的保护范围之内。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：一种定性与定量结合的漏洞威胁程度排序方法及系统与流程

一种基于限价指令簿的动态高频量化交易方法

相关文献

最热文献