一种时序数据的分类方法、分类模型的训练方法及装置与流程
- 国知局
- 2024-08-08 16:52:30
本技术涉及数据分析,特别是涉及一种时序数据的分类方法、分类模型的训练方法及装置。
背景技术:
1、时序数据是随时间变化而变化的数据,例如记录监控指标在多个时刻下的数值形成一条时序数据。其中,监控指标可以是:中央处理器(central processing unit,cpu)使用率、网络流量或者用户活跃度等。时序数据具有维度高、非线性、非平稳以及存在噪声干扰等特点,使得对时序数据的分析和处理极具挑战性。
2、对时序数据进行分类,是对时序数据进行异常检测等分析过程中的首要任务,对时序数据进行智能化分类,能够获得时序数据所属的类型,即依据时序数据的变化特征或者模式,将时序数据划分为周期型、平稳型和无规律波动型等。时序数据的类型,能够体现时序数据的内在结构,以便获得时序数据的变化规律和异常,为后续的分析和决策提供依据。
3、目前,对时序数据的分类方法主要是基于特征的分类方法,即,先由人工对时序数据进行特征提取,然后将提取的特征输入机器学习模型,由机器学习模型确定时序数据所属的类型。该方式需要人为提取特征,而且提取的特征的质量直接影响了分类的准确性,因此该方法的分类准确性高度依赖人工经验和知识,导致分类准确率较低;而且特征提取工程的工作量大,需要消耗大量的人力和时间,导致分类效率较低。
技术实现思路
1、本技术实施例的目的在于提供一种时序数据的分类方法、分类模型的训练方法及装置,以实现提高对时序数据的分类准确率和效率。具体技术方案如下:
2、本技术实施例的第一方面,提供了一种时序数据的分类方法,所述方法包括:
3、获取在第一时段内对待分类监控指标进行监控得到的第一时序数据;
4、通过时间序列模型基于自身的隐藏状态,对所述第一时序数据进行特征提取,得到所述第一时序数据的全局特征,所述隐藏状态基于上一次输入所述时间序列模型的第二时序数据得到,所述第二时序数据为在第二时段内对所述待分类监控指标进行监控得到的时序数据;
5、利用卷积神经网络对所述第一时序数据进行特征提取,得到所述第一时序数据的局部特征;
6、基于所述第一时序数据的全局特征和局部特征,确定所述第一时序数据所属的变化类型。
7、可选的,所述基于所述第一时序数据的全局特征和局部特征,确定所述第一时序数据所属的变化类型,包括:
8、对所述第一时序数据的全局特征和局部特征进行拼接,得到拼接特征;
9、将所述拼接特征映射到指定维度,并对指定维度的特征进行归一化处理,得到所述第一时序数据属于每种预设变化类型的概率。
10、可选的,在所述获取在第一时段内对待分类监控指标进行监控得到的第一时序数据之前,所述方法还包括:
11、获取在预设的待分类时间区间内对所述待分类监控指标进行监控得到的待分类时序数据;
12、将所述待分类时间区间划分为多个时段,得到每个时段内的子时序数据;
13、所述获取在第一时段内对待分类监控指标进行监控得到的第一时序数据,包括:
14、按照各时段在所述待分类时间区间内的排列顺序,将每个时段作为所述第一时段,并将该时段内的子时序数据作为所述第一时序数据;
15、在所述基于所述第一时序数据的全局特征和局部特征,确定所述第一时序数据所属的变化类型之后,所述方法还包括:
16、基于所述多个时段内的子时序数据所属的变化类型,确定所述待分类时序数据所属的变化类型。
17、可选的,每个子时序数据所属的变化类型包括该子时序数据属于各种预设变化类型的概率;所述基于所述多个时段内的子时序数据所属的变化类型,确定所述待分类时序数据所属的变化类型,包括:
18、针对每种预设变化类型,基于所述多个时段内的子时序数据属于该预设变化类型的概率,确定所述待分类时序数据属于该预设变化类型的概率;
19、从所述待分类时序数据属于各预设变化类型的概率中,选择最大概率对应的预设变化类型,作为所述待分类时序数据所属的变化类型。
20、可选的,所述基于所述多个时段内的子时序数据属于该预设变化类型的概率,确定所述待分类时序数据属于该预设变化类型的概率,包括:
21、将所述多个时段内的子时序数据属于该预设变化类型的概率的平均值,作为所述待分类时序数据属于该预设变化类型的概率。
22、可选的,所述时间序列模型为长短期记忆网络lstm,所述卷积神经网络为全卷积网络fcn。
23、可选的,各种预设变化类型包括:周期型、平稳型和无规律波动型,其中,周期型用于表示时序数据具有变化周期,且不同变化周期内的数据的相似度高于预设相似度阈值,平稳型用于表示时序数据的方差小于预设第一方差阈值,无规律波动型用于表示时序数据的方差大于预设第二方差阈值。
24、本技术实施例的第二方面,提供了一种分类模型的训练方法,包括:
25、获取在每个样本时段内对样本监控指标进行监控得到的样本时序数据;
26、通过时间序列模型基于自身的隐藏状态,对每个样本时序数据进行特征提取,得到每个样本时序数据的全局特征,所述隐藏状态基于上一次输入所述时间序列模型的样本时序数据得到;
27、利用卷积神经网络对每个样本时序数据进行特征提取,得到每个样本时序数据的局部特征;
28、基于每个样本时序数据的全局特征和局部特征,确定每个样本时序数据所属的变化类型;
29、基于各样本时序数据所属的变化类型以及各样本时序数据对应的训练标签,计算损失值,并利用所述损失值调整所述时间序列模型的网络参数和所述卷积神经网络的网络参数,并返回所述获取在每个样本时段内对样本监控指标进行监控得到的样本时序数据的步骤,直至所述时间序列模型和所述卷积神经网络收敛,其中,所述训练标签用于表示样本时序数据实际所属的变化类型。
30、可选的,所述基于每个样本时序数据的全局特征和局部特征,确定每个样本时序数据所属的变化类型,包括:
31、针对每个样本时序数据,对该样本时序数据的全局特征和局部特征进行拼接,得到拼接特征;
32、将所述拼接特征映射到指定维度,并对指定维度的特征进行归一化处理,得到该样本时序数据属于每种预设变化类型的概率。
33、可选的,所述获取在每个样本时段内对样本监控指标进行监控得到的样本时序数据,包括:
34、获取在预设的样本时间区间内对所述样本监控指标进行监控得到的区间时序数据;
35、将所述样本时间区间划分为多个样本时段,得到每个样本时段内的样本时序数据。
36、可选的,每个样本时序数据所属的变化类型包括该样本时序数据属于各种预设变化类型的概率,每个样本时序数据对应的训练标签为该样本时序数据所属的区间时序数据对应的训练标签;所述基于各样本时序数据所属的变化类型以及各样本时序数据对应的训练标签,计算损失值,包括:
37、针对每种预设变化类型,基于各样本时序数据属于该预设变化类型的概率,确定所述区间时序数据属于该预设变化类型的概率;
38、基于所述区间时序数据属于各预设变化类型的概率以及所述区间时序数据对应的训练标签,计算损失值。
39、可选的,所述基于各样本时序数据属于该预设变化类型的概率,确定所述区间时序数据属于该预设变化类型的概率,包括:
40、将各样本时序数据属于该预设变化类型的概率的平均值,作为所述区间时序数据属于该预设变化类型的概率。
41、可选的,所述时间序列模型为长短期记忆网络lstm,所述卷积神经网络为全卷积网络fcn。
42、可选的,各种预设变化类型包括:周期型、平稳型和无规律波动型,其中,周期型用于表示时序数据具有变化周期,且不同变化周期内的数据的相似度高于预设相似度阈值,平稳型用于表示时序数据的方差小于预设第一方差阈值,无规律波动型用于表示时序数据的方差大于预设第二方差阈值。
43、本技术实施例的第三方面,提供了一种时序数据的分类装置,所述装置包括:
44、获取模块,用于获取在第一时段内对待分类监控指标进行监控得到的第一时序数据;
45、全局特征提取模块,用于通过时间序列模型基于自身的隐藏状态,对所述第一时序数据进行特征提取,得到所述第一时序数据的全局特征,所述隐藏状态基于上一次输入所述时间序列模型的第二时序数据得到,所述第二时序数据为在第二时段内对所述待分类监控指标进行监控得到的时序数据;
46、局部特征提取模块,用于利用卷积神经网络对所述获取模块获取的所述第一时序数据进行特征提取,得到所述第一时序数据的局部特征;
47、确定模块,用于基于所述全局特征提取模块提取的所述第一时序数据的全局特征和所述局部特征提取模块提取的局部特征,确定所述第一时序数据所属的变化类型。
48、可选的,所述确定模块,具体用于:
49、对所述第一时序数据的全局特征和局部特征进行拼接,得到拼接特征;
50、将所述拼接特征映射到指定维度,并对指定维度的特征进行归一化处理,得到所述第一时序数据属于每种预设变化类型的概率。
51、可选的,所述装置还包括:
52、所述获取模块,还用于在所述获取在第一时段内对待分类监控指标进行监控得到的第一时序数据之前,获取在预设的待分类时间区间内对所述待分类监控指标进行监控得到的待分类时序数据;
53、划分模块,用于将所述待分类时间区间划分为多个时段,得到每个时段内的子时序数据;
54、所述获取模块,具体用于:
55、按照各时段在所述待分类时间区间内的排列顺序,将每个时段作为所述第一时段,并将该时段内的子时序数据作为所述第一时序数据;
56、所述确定模块,还用于在所述基于所述第一时序数据的全局特征和局部特征,确定所述第一时序数据所属的变化类型之后,基于所述多个时段内的子时序数据所属的变化类型,确定所述待分类时序数据所属的变化类型。
57、可选的,每个子时序数据所属的变化类型包括该子时序数据属于各种预设变化类型的概率;所述确定模块,具体用于:
58、针对每种预设变化类型,基于所述多个时段内的子时序数据属于该预设变化类型的概率,确定所述待分类时序数据属于该预设变化类型的概率;
59、从所述待分类时序数据属于各预设变化类型的概率中,选择最大概率对应的预设变化类型,作为所述待分类时序数据所属的变化类型。
60、可选的,所述确定模块,具体用于:
61、将所述多个时段内的子时序数据属于该预设变化类型的概率的平均值,作为所述待分类时序数据属于该预设变化类型的概率。
62、可选的,所述时间序列模型为长短期记忆网络lstm,所述卷积神经网络为全卷积网络fcn。
63、可选的,各种预设变化类型包括:周期型、平稳型和无规律波动型,其中,周期型用于表示时序数据具有变化周期,且不同变化周期内的数据的相似度高于预设相似度阈值,平稳型用于表示时序数据的方差小于预设第一方差阈值,无规律波动型用于表示时序数据的方差大于预设第二方差阈值。
64、本技术实施例的第四方面,提供了一种分类模型的训练装置,包括:
65、获取模块,用于获取在每个样本时段内对样本监控指标进行监控得到的样本时序数据;
66、全局特征提取模块,用于通过时间序列模型基于自身的隐藏状态,对所述获取模块获取的每个样本时序数据进行特征提取,得到每个样本时序数据的全局特征,所述隐藏状态基于上一次输入所述时间序列模型的样本时序数据得到;
67、局部特征提取模块,用于利用卷积神经网络对所述获取模块获取的每个样本时序数据进行特征提取,得到每个样本时序数据的局部特征;
68、确定模块,用于基于每个样本时序数据的全局特征和局部特征,确定每个样本时序数据所属的变化类型;
69、训练模块,用于基于所述确定模块确定的各样本时序数据所属的变化类型以及各样本时序数据对应的训练标签,计算损失值,并利用所述损失值调整所述时间序列模型的网络参数和所述卷积神经网络的网络参数,并调用所述获取模块执行所述获取在每个样本时段内对样本监控指标进行监控得到的样本时序数据的步骤,直至所述时间序列模型和所述卷积神经网络收敛,其中,所述训练标签用于表示样本时序数据实际所属的变化类型。
70、可选的,所述确定模块,具体用于:
71、针对每个样本时序数据,对该样本时序数据的全局特征和局部特征进行拼接,得到拼接特征;
72、将所述拼接特征映射到指定维度,并对指定维度的特征进行归一化处理,得到该样本时序数据属于每种预设变化类型的概率。
73、可选的,所述获取模块,具体用于:
74、获取在预设的样本时间区间内对所述样本监控指标进行监控得到的区间时序数据;
75、将所述样本时间区间划分为多个样本时段,得到每个样本时段内的样本时序数据。
76、可选的,每个样本时序数据所属的变化类型包括该样本时序数据属于各种预设变化类型的概率,每个样本时序数据对应的训练标签为该样本时序数据所属的区间时序数据对应的训练标签;所述训练模块,具体用于:
77、针对每种预设变化类型,基于各样本时序数据属于该预设变化类型的概率,确定所述区间时序数据属于该预设变化类型的概率;
78、基于所述区间时序数据属于各预设变化类型的概率以及所述区间时序数据对应的训练标签,计算损失值。
79、可选的,所述训练模块,具体用于:
80、将各样本时序数据属于该预设变化类型的概率的平均值,作为所述区间时序数据属于该预设变化类型的概率。
81、可选的,所述时间序列模型为长短期记忆网络lstm,所述卷积神经网络为全卷积网络fcn。
82、可选的,各种预设变化类型包括:周期型、平稳型和无规律波动型,其中,周期型用于表示时序数据具有变化周期,且不同变化周期内的数据的相似度高于预设相似度阈值,平稳型用于表示时序数据的方差小于预设第一方差阈值,无规律波动型用于表示时序数据的方差大于预设第二方差阈值。
83、本技术实施例的第五方面,提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;
84、存储器,用于存放计算机程序;
85、处理器,用于执行存储器上所存放的程序时,实现第一方面或第二方面任一项所述的方法。
86、本技术实施的第六方面,还提供了一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面或第二方面任一项所述的方法。
87、在本技术实施的第七方面,还提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述第一方面或第二方面任一项所述的方法。
88、本技术实施例提供的时序数据的分类方法、分类模型的训练方法及装置,通过时间序列模型基于自身的隐藏状态对第一时序数据进行特征提取,由于隐藏状态基于上一次输入时间序列模型的第二时序数据得到,因此时间序列模型在对第一时序数据进行特征提取时,不仅考虑第一时序数据本身的变化趋势,还考虑了待分类监控指标在其他时段的时序数据的变化趋势,使得提取到的第一时序数据的全局特征能够体现待分类监控指标的全局变化趋势。而且通过卷积神经网络提取的第一时序数据的局部特征,更能体现第一时序数据本身的变化趋势,因此结合第一时序数据的全局特征和局部特征,对第一时序数据进行分类具有较高的准确度。而且本技术实施例在分类过程中,可以自动提取时序数据的特征,与人工提取特征的方式相比,避免了对人工经验和知识的依赖,提高了分类的准确率和效率。
本文地址:https://www.jishuxx.com/zhuanli/20240808/270927.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。