一种基于shapelet和pso特征选择的时序数据分类方法
- 国知局
- 2024-11-06 15:06:54
本发明涉及数据处理,尤其涉及一种基于shapelet和pso特征选择的时序数据分类方法。
背景技术:
1、目前,在信号处理领域中,时域信息常采用基于shapelet的时序分类方法来实现特征提取,即通过识别时间序列中的重要子序列(称为shapelet)进行分类来实现特征提取。此时,shapelet是一种具有高区分能力的时间序列子序列,其能够捕捉时间序列的关键特征,并用于区分不同类别的时间序列。
2、然而,在现有技术中,基于shapelet的时序分类方法一般使用滑动窗口法在每个时间序列上提取所有可能的子序列作为候选特征,并使用信息增益作为评估标准来选择最具有区分能力的shapelet。
3、但是,一旦原始时间序列过长,则使得候选子序列的数量过多,导致求解过程比较复杂且精度较差。另外,在候选特征的评估标准方面还有待提高及优化。
4、因此,为了解决上述问题,迫切需要一种新的时序数据分类方法,能显著减少候选子序列的数量,并降低计算复杂度的同时,提高特征评估标准。
技术实现思路
1、本发明实施例所要解决的技术问题在于,提供一种基于shapelet和pso特征选择的时序数据分类方法,能显著减少候选子序列的数量,并降低计算复杂度的同时,提高特征评估标准。
2、为了解决上述技术问题,本发明实施例提供了一种基于shapelet和pso特征选择的时序数据分类方法,所述方法包括以下步骤:
3、s1、获取原始时间序列,并初始化分割数量为、shaplet候选集为空、子序列集合为空和子序列长度范围为[];
4、s2、根据所述分割数量,将所述原始时间序列进行分割,以得到个子序列,并将所得个子序列加入到所述子序列集合中;
5、s3、判断所述shaplet候选集中子序列的当前数量是否小于所述分割数量;若是,则执行步骤s4;若否,则跳转至步骤s7;
6、s4、根据公式和计算出所述子序列集合中所有子序列的拟合误差和,并进一步选出当前拟合误差和最大的子序列;其中,每一子序列均定义为 m;和分别为所述子序列集合中子序列 m的起点编码和终点编码;为所述子序列集合中子序列 m中所有计算点的总数;和和分别为所述子序列集合中子序列 m的起点值和终点值;所述子序列集合中子序列 m中第个计算点的值;
7、s5、在当前所选拟合误差和最大的子序列中,确定拟合误差最大的点,并以所确定的拟合误差最大的点为中心,将当前所选拟合误差和最大的子序列进行左右拆分,得到两个均具有拟合误差最大的点的拆分序列,且进一步从所得的两个拆分序列中,将长度位于所述子序列长度范围内的拆分序列加入到所述shaplet候选集中;
8、s6、从所述子序列集合中,删除当前所选拟合误差和最大的子序列并更新,返回步骤s3;
9、s7、输出最终的shapelet候选集。
10、其中,所述方法进一步包括:
11、将所输出的最终的shapelet候选集中各子序列分别到所述原始时间序列之间的最小距离为候选特征,以形成特征组合,并采用粒子群优化算法,对所述特征组合求最优解,且进一步根据最优解,从所输出的最终的shapelet候选集中,选出相应的子序列为最优特征输出;其中,所述粒子群优化算法中,其采用的适应度函数是基于分类准确率和特征选择数量来构建得到的。
12、其中,通过公式,计算出所输出的最终的shapelet候选集中各子序列分别到所述原始时间序列之间的最小距离;其中,
13、为所述原始时间序列;为所述原始时间序列的长度,为的长度;为所述原始时间序列的一个起始索引为,长度为的子序列;
14、其表示所述原始时间序列子序列之间的距离。
15、其中,所述特征组合的表达式为。
16、其中,所述采用粒子群优化算法,对所述特征组合求最优解,且进一步根据最优解,从所输出的最终的shapelet候选集中,选出相应的子序列为最优特征输出的具体步骤包括:
17、步骤b1:设置粒子群优化算法的基本参数,包括种群规模、最大迭代次数、粒子速度的最大值和最小值、个体最优位置权重、全局最优位置权重、以及惯性权重;
18、步骤b2:在特征空间内随机初始化粒子的位置和速度;其中,每个粒子的位置表示一个特征子集,且位置的每一维对应一个特征的选择状态;若选择状态取值为0,则表示未选中;反之,若选择状态取值为1,则表示选中;
19、步骤b3:采用特征选择数量和分类准确率来构建粒子群优化算法的适应度函数为,并采用该适应度函数,计算每个粒子的初始适应度值,且进一步将每个粒子的当前位置和适应度值作为该粒子的初始个体最优位置和最优适应度值;其中,为分类准确率;为特征总数量,其为所输出的最终的shapelet候选集中子序列的总数,取固定值;为特征选择数量;和用于平衡特征选择数量和分类准确率的重要参数,二者取(0,1)之间的固定值;
20、步骤b4:根据当前粒子的位置、速度、个体最优位置和全局最优位置,更新每个粒子的速度;其中,速度更新公式为;位置更新公式为;为粒子在迭代时的速度;粒子在迭代时的位置;为粒子在迭代时的速度;粒子在迭代时的位置;为粒子的个体最优位置;为全局最优位置;和分别为两个在[0,1]之间的随机数;
21、步骤b5:使用当前粒子选择的特征子集作为输入特征,训练全卷积神经网络分类模型,并记录每个粒子在训练后的分类准确率;
22、步骤b6:使用分类准确率作为适应度函数的返回值,结合特征选择数量计算适应度值,并更新个体最优位置和全局最优位置;
23、步骤b7:当达到最大迭代次数或适应度值达到预设阈值时,终止搜索过程,并进一步最终选择全局最优粒子对应的特征子集,作为最终的特征选择结果输出;
24、步骤b8:根据最终的特征选择结果,从所输出的最终的shapelet候选集中,选出相应的子序列为最优时域特征输出。
25、其中,所述方法进一步包括:
26、将所述原始时间序列转换为频域数据,并将该频域数据与输出的最优时域特征通过特征拼接的方式进行融合,且进一步利用融合后的特征,构建全卷积神经网络fcn分类模型;其中,所述全卷积神经网络fcn分类模型由3层一维卷积层加归一化层和relu激活层组成,且其卷积层的卷积核大小设置依次为8、5、3,过滤器大小设置依次为128、256、128。
27、本发明实施例还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如前述的基于shapelet和pso特征选择的时序数据分类方法。
28、本发明实施例又提供了一种存储计算机可执行指令的存储介质,所述计算机可执行指令在由计算机处理器执行时用于执行如前述的基于shapelet和pso特征选择的时序数据分类方法。
29、实施本发明实施例,具有如下有益效果:
30、1、相对于传统的shaplet生成方法,本发明于引入了一种时间特征候选生成方法,选择了一些直观的时间序列子序列作为时间特征,并通过选择时间序列中的关键点来生成候选shapelet,可以显著减少候选子序列的数量,降低计算复杂度的同时模型的解释性有所提高;
31、2、与传统依赖暴力搜索和信息增益的方法相比,本发明采用粒子群优化算法,通过群体的协同搜索,从包含重要感知点(即拟合误差最大的点)的shapele候选集中精选出最优时域特征,不仅提高了shapele特征评估标准,还进一步的减少了计算复杂度;
32、3、本发明将最优时域特征与频域特征相结合用于分类,增强了特征的表达多样性。
本文地址:https://www.jishuxx.com/zhuanli/20241106/325386.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。