技术新讯 > 计算推算,计数设备的制造及其应用技术 > 一种多元时序关联规则挖掘方法、分类方法及装置 > 正文

一种多元时序关联规则挖掘方法、分类方法及装置

国知局
2024-07-31 23:01:24

本发明涉及多变量时间序列的数据挖掘，特别是涉及时间序列特征提取方法，其主要应用于下游的多变量时间序列分类任务，尤其涉及一种多元时序关联规则挖掘方法、分类方法及装置。

背景技术：

1、大量多变量时间序列数据出现在各个领域，如：生物学，医疗和金融等，因此多变量时间序列数据分类受到广泛的关注。其中，特征为数据挖掘中的重要技术，吸引了很多研究者的关注，并在过去的十几年里产生了一些相关的研究成果。

2、多变量时间序列的特征提取方法主要可以分为两类：传统的特征提取方法和基于深度神经网络的特征提取方法。对于传统的特征提取方法，yong等学者提出了基于傅里叶变换的多变量时间序列特征提取方法。he等学者提出了主成分分析方法对多变量时间序列数据进行降维，从而提取特征。对于基于深度神经网络的特征提取方法，zhang等学者注意力原型网络来对多变量时间序列进行特征提取。

3、为了解决传统特征提取过程繁杂以及基于深度学习的时间序列分类方法可解释性差等问题，学者们提出了时间序列鉴别性子序列shapelet概念。abdullah等学者通过从原始的时间序列中提取时间序列的鉴别性子序列shapelet来提高时间序列的分类准确率。li等学者通过梯度下降优化来学习shapelet。he等学者对多变量时间序列的中来自不同变量的shapelets进行简单组合作为一个规则，利用规则对多变量时间序列进行分类。

4、然而，现有的多变量时间序列的特征提取方法存在以下问题：(1)现有的大多数多变量时间序列分类方法缺乏可解释性，难以将其利用到具有高可解释要求的环境中。(2)到目前为止，很少有研究工作考虑多变量时间序列中不同变量之间的时序关系，缺乏对多变量时间序列的时序关系进行挖掘的研究。(3)大多数基于优化学习的时间序列shapelet提取方法难以保证shapelet的形状与原始的子序列相似，违背了shapelet的本意。

技术实现思路

1、为了克服现有技术中的不足，本发明提供了一种多元时序关联规则挖掘方法、分类方法及装置。

2、本发明采用的技术方案如下：

3、第一方面公开了一种多元时序关联规则挖掘方法，包括：

4、利用卷积神经网络并行地从多变量时间序列的每个变量序列中提取鉴别子序列shapelets，shapelets用以表征每个变量序列的鉴别性特征；

5、根据shapelets在原始序列中的出现时间，推断出不同shapelets之间的时序关系；

6、基于shapelets之间的时序关系，构建一个时序依赖关系图，并利用图卷积神经网络捕获shapelets之间的时序依赖关系对shapelets进行优化，其中，时序依赖关系图中每个节点表示一个shapelet，每条有向边表示一个shapelet的起始时间早于被指向的shapelet的起始时间或者二者的起始时间相同；

7、根据优化后的shapelets以及shapelets之间的时序关系进行时序关联规则挖掘。

8、在一种实施方式中，shapelets在原始序列中的出现时间通过时间位置概率向量进行记录，时间位置概率向量的计算方式为；

9、

10、其中为对使用长为l步长为1的滑动窗口划分为p个子序列并联变表示，wf和wg为可学习参数，用于将和映射到相同的特征空间中，为在样本xi中的时间位置概率向量，为以样本xi为条件生成的第j个属于变量v的shapelet，xi表示第i个样本。

11、在一种实施方式中，在根据优化后的shapelets以及shapelets之间的时序关系进行时序关联规则的挖掘时，采用生成对抗网络，具体为：使用时序关联规则生成器g生成时序关联规则，引入规则鉴别器d与时序关联规则生成器g进行对抗训练来保证挖掘的时序关联规则的可靠性，其通过损失函数lg进行优化，损失函数lg的公式为：

12、

13、规则鉴别器d由一个卷积神经网络层和两个全连接层构成，并通过最小化损失函数ld进行优化，损失函数ld的公式为：

14、

15、其中n为训练数据集中样本数量，k表示第k个时序关联规则，ri,k是以样本xi为条件生成的时序关联规则，是原始样本xi中长度为l起始时间与规则ri,k中shapelets起始时间相同的子序列。

16、在一种实施方式中，所述方法还包括利用时序关联规则进行特征转换，具体为：

17、根据多变量时间序列与时序关联规则之间的相似性，将原始多变量时间序列转换到新的特征向量空间。

18、在一种实施方式中，根据多变量时间序列与时序关联规则之间的相似性，将原始多变量时间序列转换到新的特征向量空间，包括：

19、将原始多变量时间序列划分为多个子序列，其中划分的子序列的数量与多变量时间序列的变量数量相同；

20、采用卷积神经网络将划分后的子序列映射到与该子序列对应的shapelet等长度的特征空间；

21、根据时序关联规则中shapelets之间的时序关系，在卷积神经网络处理后的子序列中搜索与时序关联规则最相似的子序列，并进行相似性距离计算；

22、根据相似性距离的计算结果，将原始多变量时间序列转换到新的特征向量空间。

23、基于同样的发明构思，本发明第二方面提供了一种多变量时间序列的分类方法，基于第一方面所述的方法实现，分类方法包括：

24、获取时序关联规则，将待分类多变量时间序列转换为新的特征表示；

25、将转换后的特征表示送入到训练好的分类模型中，得到多变量时间序列的分类结果，其中，训练好的分类模型采用基于自适应卷积神经网络模型，由经过时序关联规则转换后的特征表示进行训练后获得。

26、在一种实施方式中，分类模型的获得方式为：

27、获得原始多变量时间序列样本，将获得的原始多变量样本进行预处理；

28、将预处理后的多变量时间序列样本进行时序关联规则挖掘；

29、利用挖掘得到的时序关联规则将原始的多变量时间序列样本转换为新的特征表示；

30、获取并行自适应的卷积神经网络分类模型，将转换后的特征输入所述并行自适应卷积神经网络模型进行训练，得到训练好的分类模型。

31、基于同样的发明构思，本发明第三方面提供了一种多变量时间序列的分类装置，包括：

32、获取模块，用于获取时序关联规则，将待分类多变量时间序列转换为新的特征表示；

33、处理模块，用于将转换后的特征表示送入到训练好的分类模型中，得到多变量时间序列的分类结果，其中，训练好的分类模型采用基于自适应卷积神经网络模型，由经过时序关联规则转换后的特征表示进行训练后获得。

34、基于同样的发明构思，本发明第四方面提供了一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现第二方面所述的多变量时间序列的分类方法。

35、基于同样的发明构思，本发明第五方面提供了一种计算机设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现第二方面所述的多变量时间序列的分类方法。

36、本发明实施例提供的多元时序关联规则挖掘方法、多变量时间序列分类方法及装置，通过时间位置概率向量来记录shapelets在其原始时间序列中的位置信息，并利用图卷积神经网络来捕获时序依赖，并提出基于快速卷积的相似性度量方法来计算原始的多变量时间序列与时序关联规则之间的相似性距离。与现有技术相比，本发明的有益效果为：

37、(1)第一个提出的针对多变量时间序列数据的时序关联规则挖掘方法。

38、(2)对多变量时间序列中不同变量间的时序关系进行挖掘，提高了分类模型的分类准确率。

39、(3)提出基于快速卷积的相似性度量方法来计算原始的多变量时间序列与时序关联规则之间的相似性距离，减少数据转换过程中的时间消耗。

40、(4)利用时序关联规则来构建分类模型，这使得该算法能够应用到具有高可解释性的环境中。