技术新讯 > 计算推算,计数设备的制造及其应用技术 > 一种模型优化方法、装置及存储介质  >  正文

一种模型优化方法、装置及存储介质

  • 国知局
  • 2024-07-31 23:11:51

本发明涉及一种模型优化方法、装置及存储介质,属于机器学习。

背景技术:

1、传统的数据预测模型在处理大规模数据集时面临着计算复杂度高和对异常样本敏感的问题,这限制了其在实际应用中的有效性。异常样本(离群点)是那些显著偏离其他观测值的样本,它们可能由于测量或记录错误、数据传输错误或者是自然的个体差异而产生,这些异常样本会对模型的训练产生不利影响,导致模型泛化能力及预测精度下降。

技术实现思路

1、本发明目的在于克服现有技术中的不足,提供一种模型优化方法、装置及存储介质,通过计算留一误差和异常指数,识别并删除异常样本和无贡献样本,提高模型的泛化能力和预测精度,并通过使用矩阵变换和批量减量学习方法进一步提高了模型的效率和准确性,降低了计算复杂度。

2、为达到上述目的,本发明是采用下述技术方案实现的:

3、第一方面,本发明提供了一种模型优化方法、装置及存储介质,包括:

4、获取数据样本集,并基于数据样本集对待优化数据预测模型进行训练,得到数据样本集的预测结果;

5、基于数据样本集的预测结果及待优化数据预测模型,计算数据样本集的留一误差和异常指数;

6、根据数据样本集的留一误差和异常指数,判断数据样本集中的样本是否为异常样本或无贡献样本,并基于判断结果得到异常样本集和无贡献样本集;

7、基于矩形变换,将异常样本集和无贡献样本集从待优化数据预测模型的系数矩阵中移除,得到新的系数矩阵,并更新待优化数据预测模型的权重参数向量和目标值向量;

8、利用新的系数矩阵以及更新后的权重参数向量和目标值向量,得到优化后的权重参数,并根据优化后的权重参数,得到优化后的数据预测模型。

9、可选的,所述待优化数据预测模型为最小二乘支持向量机模型。

10、可选的,所述计算数据样本集的留一误差的方法包括:

11、基于数据样本集的预测结果及待优化数据预测模型,得到待优化数据预测模型的系数矩阵及数据样本集每个样本对应的权重参数;

12、基于所述系数矩阵及数据样本集每个样本对应的权重参数,计算数据样本集的留一误差,公式如下:

13、

14、其中:表示第i个样本的留一误差,表示第i个样本的训练得到的预测结果,表示去除第i个样本后训练得到的预测结果,ωi表示第i个样本对应的待优化数据预测模型的权重参数,表示待优化数据预测模型的系数矩阵的逆矩阵中第i行第i列的数值。

15、可选的,所述异常指数的计算公式包括:

16、

17、其中,yi表示第i个样本目标值,di表示第i个样本的异常指数。

18、可选的,所述根据数据样本集的留一误差和异常指数,判断数据样本集中的样本是否为异常样本或无贡献样本,包括:

19、获取数据样本集中所有样本异常指数的平均值μ和标准差σ;

20、基于所有样本异常指数的平均值μ和标准差σ,得到第一比较阈值μ+cσ,其中c是一个常数;

21、若样本的异常指数超过第一比较阈值,则该样本是异常样本;

22、若样本的异常指数未超过第一比较阈值,则该样本不是异常样本;

23、获取第二比较阈值;

24、若样本的留一误差超过第二比较阈值,则该样本不是无贡献样本;

25、若样本的留一误差未超过第二比较阈值,则该样本是无贡献样本。

26、可选的,所述基于矩形变换,将异常样本集和无贡献样本集从待优化数据预测模型的系数矩阵中移除,得到新的系数矩阵,包括:

27、获取待优化数据预测模型的系数矩阵ω;

28、基于异常样本集和无贡献样本集,得到异常样本和无贡献样本的索引集合i;

29、创建列表i',所述列表i'包括正常样本的索引和索引集合i;

30、循环遍历待优化数据预测模型的系数矩阵ω的每个元素,将系数矩阵ω中位置为[i'[i]][i'[j]]的元素赋值给新的系数矩阵ω’中位置为[i][j]的元素,得到新的系数矩阵ω’;

31、基于新的系数矩阵ω’,得到缩减样本集。

32、可选的,所述更新待优化数据预测模型的权重参数向量和目标值向量的方法包括:

33、构造掩模向量mi;

34、基于掩模向量mi对待优化数据预测模型的权重参数向量和目标值向量进行更新,得到更新后的权重参数向量和更新后的目标值向量,公式分别如下:

35、ω'=[ωi:mi=1]t

36、y'=[yi:mi=1]t

37、mi={0 if i∈i else 1}

38、其中,ω'和y'分别代表更新后的权重参数向量和更新后的目标值向量,ω'=[ωi:mi=1]t表示当mi=1时,第y个样本对应的待优化数据预测模型的权重参数包含在更新后的权重参数向量中,y'=[yi:mi=1]t表示当mi=1时,第i个样本目标值包含在更新后的目标值向量中,yi表示第i个样本目标值,ωi表示第i个样本对应的待优化数据预测模型的权重参数,i表示异常样本和无贡献样本的索引集合。

39、可选的,所述利用新的系数矩阵以及更新后的权重参数向量和目标值向量,得到优化后的权重参数,包括:

40、基于新的系数矩阵ω’得到系数部分逆矩阵d-1;

41、将更新后的权重参数向量和更新后的目标值向量添加偏置项,并利用系数部分矩阵d进行方程求解,得到优化后的权重参数,公式如下:

42、

43、其中:b和0为常数,即添加的偏置项,k为异常样本和无贡献样本的总数量,n为数据样本集的总数量。

44、第二方面,本发明提供了一种模型优化装置,包括:

45、数据获取模块,用于获取数据样本集;

46、训练模块,用于基于数据获取模块获取的数据样本集对待优化数据预测模型进行训练,得到数据样本集的预测结果;

47、筛选模块,用于计算数据样本集的留一误差和异常指数;还用于根据数据样本集的留一误差和异常指数,判断数据样本集中的样本是否为异常样本或无贡献样本,并基于判断结果得到异常样本集和无贡献样本集;

48、矩阵变换模块,用于基于矩形变换,将异常样本集和无贡献样本集从待优化数据预测模型的系数矩阵中移除,得到新的系数矩阵,并更新待优化数据预测模型的权重参数向量和目标值向量;

49、优化模型获取模块,用于利用新的系数矩阵以及更新后的权重参数向量和目标值向量,得到优化后的权重参数,并根据优化后的权重参数,得到优化后的数据预测模型。

50、第三方面,本发明提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时,实现如权利要求第一方面所述的模型优化方法的步骤。

51、与现有技术相比,本发明所达到的有益效果:

52、本发明通过计算留一误差和异常指数,精确识别并删除数据样本集中的异常样本和无贡献样本,提高模型的泛化能力和预测精度,并通过使用矩阵变换和批量减量学习方法进一步提高了模型的效率和准确性,降低了计算复杂度。

本文地址:https://www.jishuxx.com/zhuanli/20240730/196347.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。