技术新讯 > 计算推算,计数设备的制造及其应用技术 > 一种时间序列中缺失数据的预测方法、装置、设备及介质与流程  >  正文

一种时间序列中缺失数据的预测方法、装置、设备及介质与流程

  • 国知局
  • 2024-07-31 23:25:33

本技术涉及数据,尤其是涉及一种时间序列中缺失数据的预测方法、装置、设备及介质。

背景技术:

1、现在常用的缺失数据填充方法基于机器学习算法方式对缺失数据进行预测并填充。常见的机器学习填充方法包括基于最近邻方法(knn),循环神经网络(rnn),随机森林和矩阵分解的缺失值填充算法等。

2、然而时间序列除了存在缺失数据外,以金融数据为例,由于数据产生环境复杂不统一等原因,序列中往往还存在噪声和异常值等问题,这些干扰会极大地影响机器学习模型的预测效果。

技术实现思路

1、有鉴于此,本技术的目的在于提供一种时间序列中缺失数据的预测方法、装置、设备及介质,以解决时间序列中存在干扰导致机器学习模型对缺失数据的预测效果不佳的问题。

2、本技术实施例提供了一种时间序列中缺失数据的预测方法,所述预测方法包括:

3、根据目标时间序列中缺失的数据值对应的缺失时间位置,将所述目标时间序列拆分为至少一个第一子时间序列和至少一个第二子时间序列;其中,所述目标时间序列是按照数据值产生的时间确定时间位置并按照时间位置排列而形成的数列;所述目标时间序列中存在至少一个缺失的数据值;

4、针对每个第一子时间序列,使用该第一子时间序列构建相应的第一数据预测模型;

5、基于该第一子时间序列之外的其他子时间序列对该第一数据预测模型进行模型评估,得到该第一数据预测模型的评估指标值;

6、根据每个第一数据预测模型的评估指标值,从第一数据预测模型中确定出目标数据预测模型;

7、针对每个缺失时间位置,基于与该缺失时间位置邻近的第一子时间序列构建出的第一数据预测模型以及所述目标数据预测模型,对该缺失时间位置的数据值进行预测。

8、进一步的,根据目标时间序列中缺失的数据值对应的缺失时间位置,将所述目标时间序列拆分为至少一个第一子时间序列和至少一个第二子时间序列,包括:

9、针对每个缺失时间位置,若该缺失时间位置在所述目标时间序列前后不存在连续的其他缺失时间位置,则将该缺失时间位置作为一个断点;

10、若该缺失时间位置在所述目标时间序列前后存在连续的其他缺失时间位置,则将连续的多个缺失时间位置作为一个断点;

11、根据断点将所述目标时间序列切分为多个子时间序列;

12、根据所述多个子时间序列的序列长度,将每个子时间序列确定为第一子时间序列或第二子时间序列。

13、进一步的,所述根据所述多个子时间序列的序列长度,将每个子时间序列确定为第一子时间序列或第二子时间序列,包括:

14、将所述多个子时间序列中序列长度大于预设长度阈值的序列确定为第一子时间序列;

15、将所述多个子时间序列中序列长度小于等于预设长度阈值的序列确定为第二子时间序列。

16、进一步的,所述根据所述多个子时间序列的序列长度,将每个子时间序列确定为第一子时间序列或第二子时间序列,还包括:

17、当所述多个子时间序列中序列长度均大于预设长度阈值时,或者当所述多个子时间序列中序列长度均小于等于预设长度阈值时,比较所述多个子时间序列的序列长度;

18、将所述多个子时间序列中序列长度最长的前m个子时间序列确定为第一子时间序列,将剩余的子时间序列确定为第二子时间序列。

19、进一步的,所述针对每个缺失时间位置,基于与该缺失时间位置邻近的第一子时间序列构建出的第一数据预测模型以及所述目标数据预测模型,对该缺失时间位置的数据值进行预测,包括:

20、针对每个缺失时间位置,从所述第一子时间序列中筛选出位于该缺失时间位置的左侧且与该缺失时间位置相邻的第一子时间序列,并将筛选出的第一子时间序列构建的第一数据预测模型确定为第一候选数据预测模型;

21、从所述目标数据预测模型中筛选出构建模型的第一子时间序列位于该缺失时间位置左侧的数据预测模型,并将筛选出的数据预测模型确定为第二候选数据预测模型;

22、将所述第一候选数据预测模型和所述第二候选数据预测模型进行合并去重;

23、分别使用合并去重后得到的每个数据预测模型对该缺失时间位置的数据值进行预测,得到每个数据预测模型的预测值;

24、将每个数据预测模型的预测值的平均值确定为该缺失时间位置对应的数据值。

25、进一步的,所述基于该第一子时间序列之外的其他子时间序列对该第一数据预测模型进行模型评估,得到该第一数据预测模型的评估指标值,包括:

26、从所述其他子时间序列中筛选出位于该第一数据预测模型对应的第一子时间序列之后的子时间序列,并作为待预测子时间序列;其中,所述其他子时间序列为第二子时间序列,或者所述其他子时间序列为其他第一子时间序列和第二子时间序列;

27、使用该第一数据预测模型分别对每个待预测子时间序列进行模拟预测,得到每个待预测子时间序列对该第一数据预测模型的评估指标值;

28、将每个待预测子时间序列对该第一数据预测模型的评估指标值的平均值,确定为该第一数据预测模型的评估指标值。

29、进一步的,所述根据每个第一数据预测模型的评估指标值,从第一数据预测模型中确定出目标数据预测模型,包括:

30、根据每个第一数据预测模型的评估指标值,从第一数据预测模型中筛选出表现最好的前n个数据预测模型作为所述目标数据预测模型。

31、进一步的,所述基于该第一子时间序列之外的其他子时间序列对该第一数据预测模型进行模型评估,得到该第一数据预测模型的评估指标值,还包括:

32、针对每个缺失时间位置,从所述第二子时间序列中筛选出距离该缺失时间位置最近的多个目标第二子时间序列;

33、使用该第一数据预测模型分别对每个目标第二子时间序列进行模拟预测,得到每个目标第二子时间序列对该第一数据预测模型的评估指标值;

34、将每个目标第二子时间序列对该第一数据预测模型的评估指标值的平均值,确定为该第一数据预测模型针对该缺失时间位置的评估指标值。

35、进一步的,所述根据每个第一数据预测模型的评估指标值,从第一数据预测模型中确定出目标数据预测模型,还包括:

36、针对每个缺失时间位置,根据每个第一数据预测模型针对该缺失时间位置的评估指标值,筛选出针对该缺失时间位置表现最好的前n个第一数据预测模型作为所述目标数据预测模型,以对该缺失时间位置的数据值进行预测。

37、本技术实施例还提供了一种时间序列中缺失数据的预测装置,所述预测装置包括:

38、拆分模块,用于根据目标时间序列中缺失的数据值对应的缺失时间位置,将所述目标时间序列拆分为至少一个第一子时间序列和至少一个第二子时间序列;其中,所述目标时间序列是按照数据值产生的时间确定时间位置并按照时间位置排列而形成的数列;所述目标时间序列中存在至少一个缺失的数据值;

39、建模模块,用于针对每个第一子时间序列,使用该第一子时间序列构建相应的第一数据预测模型;

40、评估模块,用于基于该第一子时间序列之外的其他子时间序列对该第一数据预测模型进行模型评估,得到该第一数据预测模型的评估指标值;

41、确定模块,用于根据每个第一数据预测模型的评估指标值,从第一数据预测模型中确定出目标数据预测模型;

42、预测模块,用于针对每个缺失时间位置,基于与该缺失时间位置邻近的第一子时间序列构建出的第一数据预测模型以及所述目标数据预测模型,对该缺失时间位置的数据值进行预测。

43、本技术实施例还提供一种电子设备,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过总线通信,所述机器可读指令被所述处理器执行时执行如上述的一种时间序列中缺失数据的预测方法的步骤。

44、本技术实施例还提供一种计算机可读存储介质,该计算机可读存储介质上存储有计算机程序,该计算机程序被处理器运行时执行如上述的一种时间序列中缺失数据的预测方法的步骤。

45、本技术实施例提供的一种时间序列中缺失数据的预测方法、装置、设备及介质,通过使用拆分得到的一部分子时间序列构建数据预测模型,再使用另一部分子时间序列进行模型评估,能够筛选出表现更好的数据预测模型;考虑到时序数据的趋势性,针对每个缺失时间位置,还结合位置信息筛选出邻近子时间序列构建出的数据预测模型;综合这两类数据预测模型进行缺失数据的预测,能够提高预测效果,得到更准确的预测结果。

46、其中,选择长度较长、更为完整的子时间序列用于构建数据预测模型,能够保证构建出的模型的效果;无需额外数据,而是使用拆分出的长度较短的子时间序列用于模型评估,能够充分利用原始数据且保证评估结果更有针对性。

47、此外,本技术还通过针对每个缺失时间位置选取出预测表现最好的数据预测模型作为目标数据预测模型,用于后续针对该缺失时间位置的数据预测,能够得到更准确的预测结果,适用于趋势更加复杂多变的时间序列。

48、为使本技术的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。

本文地址:https://www.jishuxx.com/zhuanli/20240730/197487.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。