技术新讯 > 计算推算,计数设备的制造及其应用技术 > 一种基于扩散模型的时序数据生成方法和系统  >  正文

一种基于扩散模型的时序数据生成方法和系统

  • 国知局
  • 2024-08-05 12:04:51

本发明属于时序数据建模领域,尤其涉及一种基于扩散模型的时序数据生成方法和系统。

背景技术:

1、时序数据建模是指对随时间变化的数据进行分析、预测或探索的过程。这类数据在诸多领域都具有重要意义,例如交通流预测、工业状态监测、气象学、金融市场等。随着传感器技术、物联网以及信息技术的发展和进步,时序数据的获取变得更加普遍。因此,如何有效地对时序数据进行建模和分析成为了当今数据科学与工程领域的重要课题之一。人工智能和大数据技术的不断发展使得时序数据建模变得更加智能化和高效率,诸如循环神经网络(recurrent neural network,rnn)、长短期记忆网络(long short term memory,lstm)等深度学习模型被引入到时序数据建模领域,以更好地捕捉数据的复杂时序特征。

2、然而,时序数据建模在实际使用中,非常依赖时序数据集的质量和数量。在数据采集阶段,由于时序数据的环境设定不同,存在着大量的不确定因素,比如数据某一时间点或时间段出现缺失值,变量在极端条件下的难以测量,数据的积累时间不足等,同时通常时序数据受到严格的隐私保护。这些原因导致了高质量时序数据样本稀缺、样本分布完备性差以及样本蕴含机理知识匮乏等问题,进而导致时序数据的可用性受限,这难以支撑构建准确和鲁棒的时序数据模型。因此,如何有效地提高时序数据的可用性,进而提升时序模型的预测和识别功能是时序数据建模的痛点和难点,亟待研究人员的解决。

技术实现思路

1、针对现有技术的不足,本发明提供一种基于扩散模型的时序数据生成方法和系统,通过扩散模型对已有的少量完整时序数据进行学习,进而实现生成虚拟时序数据和填补非完整时序数据的缺失区域两大任务,进而提高时序数据集的质量和数量。

2、本发明的目的通过如下的技术方案来实现:

3、一种基于扩散模型的时序数据生成方法,该方法包括如下步骤:

4、步骤一:获取具有n个完整时序样本的数据集;

5、步骤二:构建去噪网络,所述去噪网络包括一个全连接网络和一个unet网络,所述全连接网络用于时间编码,输入为时间步,输出为时间编码向量;所述unet网络包括三个下采样模块、两个中间连接模块和三个上采样模块,输入为时间编码向量和加噪后的时序样本数据,输出为噪声;每个下采样模块和上采样模块由两个残差层、一个自注意力层和一个二维卷积层依次连接构成,而每个中间连接模块则由一个残差层、一个自注意力层和一个残差层依次连接构成;所有残差层的结构相同,均由两个卷积层顺序连接而成,且第一个卷积层的输出结果与时间编码向量拼接后作为第二个卷积层的输入;每个卷积层的结果在输入激活函数前,首先与该卷积层的输入数据相加;每个自注意力层采用四头注意力机制,用于捕获时序数据的时间关联性;所述unet网络引入跳跃连接机制,对于倒数第i个上采样模块,i=1,2,3,其输入为上一个模块的输出和第i个下采样模块的输出的和;

6、步骤三:对步骤一的数据集中的样本进行加噪后,输入去噪网络中,对所述去噪网络进行训练,得到训练后的去噪网络;

7、步骤四:利用训练后的去噪网络进行虚拟时序数据的生成和插补。

8、进一步地,所述步骤一包括如下子步骤:

9、(1.1)使用z-score方法对传感器系统采集到的原始时序数据的已知区域xknown进行数据归一化:

10、

11、其中,mean(xknown)和std(xknown)分别代表xknown的均值和标准差;

12、(1.2)采用滑动窗口法对归一化后的数据进行序列化,得到具有n个时序样本的数据集d,并将其分为含有完整时序样本的数据集dcom和含有不完整时序样本的数据集dincom,并将含有完整时序样本的数据集dcom用于训练去噪网络;

13、其中,滑动窗口采样后得到的样本数量n为:

14、

15、其中,τ为采样长度,η为采样步长偏移量。

16、进一步地,所述步骤三具体包括如下子步骤:

17、(3.1)从含有完整时序样本的数据集中采样得到样本x0,将其经过t步加噪后得到xt:

18、

19、αt=1-βt

20、

21、其中,ε服从标准高斯分布,βt是每一步的方差;

22、(3.2)将各个时间步t下得到的xt输入到去噪网络中,基于目标函数l对所述去噪网络进行训练;其中目标函数l为:

23、

24、其中,ε表示标准高斯噪声数据,εθ(xt,t)为去噪网络输出的噪声,表示期望值。

25、进一步地,所述步骤四中,利用训练后的网络进行虚拟时序数据的生成,具体包括如下子步骤:

26、(1)从高斯隐空间中采样得到令t=t,t-1,...,2,1;

27、(2)将不完整的时序数据输入训练后的去噪网络,得到去噪网络输出的噪声εθ(xt,t);

28、(3)根据下式计算反向去噪过程的高斯分布均值μθ(xt,t):

29、

30、(4)设置反向去噪过程的高斯分布方差σt,并从标准正态分布中采样得到z,根据下式得到xt-1:

31、xt-1=μθ(xt,t)+σtz

32、(5)重复步骤(2)~(4),最终得到x0,即为生成的虚拟时序数据。

33、进一步地,所述步骤四中,利用训练后的网络进行时序数据插补,具体包括如下子步骤:

34、(1)首先从高斯隐空间中采样得到令t=t,t-1,...,2,1;

35、(2)从包含不完整时序样本的数据集dincom采样得到xm,从标准正态分布中采样得到z1,依据下式得到加噪t-1后的数据

36、

37、(3)从标准正态分布中采样得到z2,依据下式得到

38、

39、(4)从xm提取出掩码m,其形状和xm相同,计算公式如下。

40、

41、(5)依据掩码m从中提取出非缺失区域的数据和从中提取出缺失区域的数据,并将两者进行相加得到xt-1:

42、

43、其中,⊙代表哈达玛积;

44、(6)重复步骤(2)~(5),循环结束后得到x0,即为为最终填补完成的虚拟时序数据。

45、进一步地,所述步骤四中,为了使生成的未知区域和原数据已知区域更加协调且包含更多条件信息,对于步骤(4)推理得到的每个xt-1,利用下式将其扩散回xt,然后再重复步骤(1)~(5)u次:

46、

47、其中,代表高斯分布。

48、一种基于扩散模型的时序数据生成系统,包括一个或多个处理器,用于实现上述的基于扩散模型的时序数据生成方法。

49、一种电子设备,包括:一个或多个处理器;

50、存储装置,用于存储一个或多个程序,当一个或多个程序被所述电子设备执行时,使得所述电子设备实现如上述的基于扩散模型的时序数据生成方法。

51、一种计算机可读存储介质,其上存储有程序,该程序被处理器执行时,实现上述的基于扩散模型的时序数据生成方法。

52、本发明的有益效果如下:

53、本发明通过训练基于unet框架的扩散模型来有效捕捉时序数据长期趋势和短期波动的动态信息,扩散模型主要包括前向加噪和反向去噪两个过程。前向加噪过程是指通过不断地往原始时序样本集中添加噪声,直至其成为完全高斯噪声,反向去噪过程则是通过训练一个unet网络来逐步去除加噪数据中的噪声,直至生成一个虚拟时序样本。本发明能够提升时序数据模型的预测精度和鲁棒性。

本文地址:https://www.jishuxx.com/zhuanli/20240802/260986.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。