技术新讯 > 计算推算,计数设备的制造及其应用技术 > 一种归因方法、装置、设备、介质、产品与流程  >  正文

一种归因方法、装置、设备、介质、产品与流程

  • 国知局
  • 2024-09-14 15:02:50

本技术涉及计算机,尤其涉及一种归因方法、装置、设备、介质、产品。

背景技术:

1、在线算法服务通常可以使用机器学习模型、模型需要的特征、以及模型的前后处理逻辑进行实现。其中,机器学习模型用于描述一种数据处理过程,如预测快递的送达时间等处理。模型需要的特征是指需要由该机器学习模型进行处理的数据,也就是该机器学习模型的输入数据,如{快递下单时间、目的地、出发地、天气、……}这一数据。模型的前处理逻辑用于通过将某些数据进行一定处理,如归一化处理等,以得到该机器学习模型的输入数据。模型的后处理逻辑用于针对该机器学习模型的输出数据进行一定处理,如取整处理等。

2、实际上,模型需要的特征可能会影响在线算法服务的效果,比如,当某个特征出现问题时,可能会导致该在线算法服务的效果不及预期,如此使得如何定位出有问题的特征成为一个亟待解决的技术问题。

技术实现思路

1、为了解决上述技术问题,本技术提供了一种归因方法、装置、设备、介质、产品,能够快速地定位出有问题的特征。

2、为了实现上述目的,本技术提供的技术方案如下:

3、本技术提供一种归因方法,所述方法包括:

4、接收流式数据,所述流式数据包括依次排列的多个特征组,所述特征组为机器学习模型的输入数据;

5、利用滚动窗口对所述流式数据进行统计分析,得到多个滚动窗口的分析结果;对于任一所述滚动窗口,该滚动窗口中存在多个所述特征组,该滚动窗口的分析结果用于描述该滚动窗口中特征的分布状态;

6、利用滑动窗口对所述多个滚动窗口的分析结果进行分析处理,得到所述滑动窗口的分析结果;所述滑动窗口中存在多个所述滚动窗口,所述滑动窗口的分析结果用于描述所述滑动窗口中特征的分布状态;

7、依据所述滑动窗口的分析结果,确定异常特征。

8、在一种可能的实施方式下,所述滑动窗口的分析结果包括至少一个特征对应的分析结果;对于任一所述特征,该特征对应的分析结果用于描述该特征在所述滑动窗口中所处的分布状态;

9、所述异常特征的确定过程,包括:

10、对于任一所述特征,若确定该特征对应的分析结果不满足该特征对应的分布约束配置,则将该特征确定为异常特征;所述分布约束配置是依据所述机器学习模型的训练集所确定的。

11、在一种可能的实施方式下,所述将该特征确定为异常特征之后,所述方法还包括:

12、触发该特征的告警提示流程。

13、在一种可能的实施方式下,所述得到所述滑动窗口的分析结果之后,所述方法还包括:

14、若确定所述流式数据的处理结果满足预设异常条件,则通过预设可视化方式展示所述滑动窗口的分析结果以及所述多个滚动窗口的分析结果;所述处理结果是利用所述机器学习模型所得到的。

15、在一种可能的实施方式下,对于任一所述滚动窗口,该滚动窗口的分析结果包括n个特征在该滚动窗口下的离散化分布,n为正整数;第n个特征在该滚动窗口下的离散化分布是通过将该滚动窗口内多个特征组中第n个特征的特征值进行离散化处理所得到的,n为正整数,n≤n。

16、在一种可能的实施方式下,所述滑动窗口的个数为m个,m为正整数;

17、第m个滑动窗口的分析结果包括n个特征的分布环比结果和/或分布同比结果,m为正整数,m≤m,n为正整数;

18、第n个特征的分布环比结果是依据所述第n个特征在所述第m个滑动窗口下的离散化分布与所述第n个特征在第m-1个滑动窗口下的离散化分布之间的差异所确定的,n为正整数,n≤n,m≥2;

19、第n个特征的分布同比结果是依据所述第n个特征在所述第m个滑动窗口下的离散化分布与所述第n个特征在所述第m个滑动窗口对应的历史滑动窗口下的离散化分布之间的差异所确定的,n为正整数,n≤n,m≥1;所述第m个滑动窗口的使用时间与所述历史滑动窗口的使用时间之间存在预先设定的对应关系。

20、在一种可能的实施方式下,所述机器学习模型的输入数据用于描述多个特征所处状态;所述分析结果用于描述所述多个特征中目标特征的分布状态;所述目标特征的重要程度不低于所述多个特征中除了所述目标特征以外的其他特征的重要程度;对于任一所述特征,该特征的重要程度是依据所述机器学习模型中与该特征相关的模型参数所确定的。

21、本技术提供了一种归因装置,包括:

22、数据接收单元,用于接收流式数据,所述流式数据包括依次排列的多个特征组,所述特征组为机器学习模型的输入数据;

23、第一分析单元,用于利用滚动窗口对所述流式数据进行统计分析,得到多个滚动窗口的分析结果;对于任一所述滚动窗口,该滚动窗口中存在多个所述特征组,该滚动窗口的分析结果用于描述该滚动窗口中特征的分布状态;

24、第二分析单元,用于利用滑动窗口对所述多个滚动窗口的分析结果进行分析处理,得到所述滑动窗口的分析结果;所述滑动窗口中存在多个所述滚动窗口,所述滑动窗口的分析结果用于描述所述滑动窗口中特征的分布状态;

25、异常确定单元,用于依据所述滑动窗口的分析结果,确定异常特征。

26、本技术提供了一种电子设备,所述设备包括:处理器和存储器;

27、所述存储器,用于存储指令或计算机程序;

28、所述处理器,用于执行所述存储器中的所述指令或计算机程序,以使得所述电子设备执行本技术提供的归因方法。

29、本技术提供了一种计算机可读介质,所述计算机可读介质中存储有指令或计算机程序,当所述指令或计算机程序在设备上运行时,使得所述设备执行本技术提供的归因方法。

30、本技术提供了一种计算机程序产品,其包括承载在非暂态计算机可读介质上的计算机程序,该计算机程序包含用于执行本技术提供的归因方法的程序代码。

31、与相关技术相比,本技术至少具有以下优点:

32、本技术提供的技术方案中,对于需要由在线算法服务中机器学习模型进行处理的流式数据来说,先利用尺寸较小的滚动窗口对该流式数据进行实时地统计分析,得到多个滚动窗口的分析结果,以使各滚动窗口的分析结果能够表示出相应滚动窗口中特征的分布状态;再利用尺寸较大的滑动窗口对这些滚动窗口的分析结果进行分析处理,如整合处理等,得到该滑动窗口的分析结果,以使该滑动窗口的分析结果用于描述该滑动窗口中特征的分布状态,从而使得该滑动窗口的分析结果能够在一定程度上表示出该流式数据中特征的分布状态;然后,依据该滑动窗口的分析结果,确定异常特征,以使该异常特征能够表示出该流式数据中存在问题的特征,如分布异常的特征等,如此能够实现快速地定位出有问题的特征。

33、其中,因滚动窗口的尺寸比较小,以使滚动窗口中的数据个数比较少,从而使得基于滚动窗口的统计分析的耗时比较短,如此有利于提高效率以及提高实时性;还因该滚动窗口的分析结果是通过针对该滚动窗口中存在多个特征组进行统计分析所得到的,以使该滚动窗口的分析结果的数据量远远低于该多个特征组的数据量,从而使得所有滚动窗口的分析结果的数据量远远低于该流式数据的数据量,进而使得基于这些滚动窗口的分析结果所实现的滑动窗口分析过程只需处理少量数据即可,如此能够有效地避免当直接针对滑动窗口中大量的原始数据进行分析而导致的缺陷,如耗时长等缺陷,从而能够有效地提高归因效率,进而有利于更好地实现快速地定位出有问题的特征。

34、另外,本技术借助滚动窗口和滑动窗口实现对流式数据的实时分析,如此有利于提高归因实时性,从而能够尽可能早地定位出有问题的特征。

本文地址:https://www.jishuxx.com/zhuanli/20240914/296760.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。