一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

数据异常的识别方法、系统、电子设备和介质与流程

2022-06-05 01:16:48 来源:中国专利 TAG:


1.本发明涉及计算机技术领域,尤其涉及一种数据异常的识别方法、系统、电子设备和介质。


背景技术:

2.当下在ota行业中,采用数据驱动业务是一种行业趋势。基于海量的用户基础属性、交易和浏览等行为数据,我们通过数据清洗、聚合、挖掘构建基于用户的画像标签。在生成画像标签的过程中,数据是否能够准确、高效的进入下游流程是需要重点关注的问题。
3.当前对于用户画像数据异常监控的策略主要存在以下的问题:
4.第一,画像标签繁多,相互独立,且量纲不统一,难以使用单一维度的标准进行量化并异常检验;
5.第二,衡量画像标签变化的指标体系,通常为天粒度数据,且具备一定时效性,因此在异常检验中可采集的样本数据较少,无法使用大数据分析方法,需要从传统统计学方法入手解决;
6.第三,多个画像标签的变化指标数据并不都服从于确定性的参数假设,难以基于参数检验的方法对数据进行假设,并进行异常检验。
7.因当前对于用户画像数据异常监控的策略存在上述问题,所以,往往带来用户画像的异常数据识别与监控不准确的问题。


技术实现要素:

8.本发明要解决的技术问题是为了克服现有技术中用户画像的异常数据识别准确率低的缺陷,提供一种数据异常的识别方法、系统、电子设备和介质。
9.本发明是通过下述技术方案来解决上述技术问题:
10.本发明提供一种数据异常的识别方法,所述识别方法包括:
11.获取用户画像数据的指标参数;所述指标参数用于表征用户画像数据变化的参数;
12.判断所述指标参数是否符合正态分布,若是,则对所述指标参数进行参数异常检验,以识别出异常数据,若否,则对所述指标参数采用进行非参数异常检验,以识别出异常数据。
13.较佳地,在判断出所述指标参数不符合正态分布之后,所述识别方法包括:
14.将所述指标参数进行变换以生成目标参数,并返回所述判断所述指标参数是否符合正态分布的步骤。
15.较佳地,在识别出异常数据的步骤之后,所述识别方法还包括:
16.判断所述异常数据是否符合预设要求,若是,则对所述异常数据进行过滤;
17.和/或,触发所述用户画像数据的熔断,并发送告警信号。
18.较佳地,所述指标参数包括用户画像数据的更新率、用户画像数据的变更率、用户
画像数据的删除率、用户画像数据的向前kl散度以及用户画像数据的向后kl散度。
19.本发明提供一种数据异常的识别系统,所述识别系统包括:
20.获取模块,用于获取用户画像数据的指标参数;所述指标参数用于表征用户画像数据变化的参数;
21.第一判断模块,用于判断所述指标参数是否符合正态分布,若是,则对所述指标参数进行参数异常检验,以识别出异常数据,若否,则对所述指标参数采用进行非参数异常检验,以识别出异常数据。
22.较佳地,所述识别系统包括:
23.变换模块,用于将所述指标参数进行变换以生成目标参数,并返回所述判断所述指标参数是否符合正态分布的步骤。
24.较佳地,所述识别系统还包括:
25.第三判断模块,用于判断所述异常数据是否符合预设要求,若是,则对所述异常数据进行过滤;
26.和/或,告警模块,用于触发所述用户画像数据的熔断,并发送告警信号。
27.较佳地,所述指标参数包括用户画像数据的更新率、用户画像数据的变更率、用户画像数据的删除率、用户画像数据的向前kl散度以及用户画像数据的向后kl散度。
28.本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如前述的数据异常的识别方法。
29.本发明还提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现如前述的数据异常的识别方法。
30.本发明的积极进步效果在于:
31.本发明提供了一种数据异常的识别方法、系统、电子设备和介质,数据异常的识别方法通过判断用户画像数据的指标参数是否符合正态分布,根据判断结果采取不同的异常检验方法,从而提高了用户画像的异常数据识别准确率。
附图说明
32.图1为本发明实施例1的数据异常的识别方法的流程图;
33.图2为本发明实施例1中的指标参数示意图;
34.图3为本发明实施例2的数据异常的识别系统的流程图;
35.图4为本发明实施例3的电子设备的结构示意图。
具体实施方式
36.下面通过实施例的方式进一步说明本发明,但并不因此将本发明限制在所述的实施例范围之中。
37.实施例1
38.如图1所示,本实施例公开了一种数据异常的识别方法,所述识别方法包括:
39.步骤101、获取用户画像数据的指标参数;所述指标参数用于表征用户画像数据变化的参数;
40.其中,所述指标参数包括用户画像数据的更新率、用户画像数据的变更率、用户画像数据的删除率、用户画像数据的向前kl散度以及用户画像数据的向后kl散度。
41.本方案中,用户画像数据的更新率、用户画像数据的变更率、用户画像数据的删除率为数据量变化指标,用户画像数据的向前kl散度以及用户画像数据的向后kl散度为数据内容变化指标。具体地,如图2所示,用户画像数据的更新率表征为相较于t-2数据,t-1数据中新增的主键(以uid为例)数量占比;用户画像数据的变更率表征为相较于t-2数据,t-1数据中uid标签值数据变化的uid数量占比;用户画像数据的删除率表征为相较于t-2数据,t-1数据中删除的uid数量占比;前向kl散度:相较于t-2数据,t-1数据的分布变化值:
[0042][0043]
后向kl散度:相较于t-1数据,t-2数据的分布变化值:
[0044][0045]
其中,kl散度也即相对熵,衡量的是两个概率分布间差异的非对称性度量,其通常用于表示理论分布拟合真实分布时产生的信息损耗。其具备非负性、非对称性、0避免性和0趋势性。一般而言,kl散度值越大,代表两个概率分布间的差异越大,因此在这里,我们可以使用该指标去表示t-1和t-2两日的数据分布,即数据内容维度的变化。
[0046]
本方案中,用户画像数据因考虑时效性,可以选用过去14天的数据作为样本数据,如选择过去14天或30天的用户画像数据作为真实样本分布数据。
[0047]
步骤102、判断所述指标参数是否符合正态分布,若是,则执行步骤103;若否,则执行步骤104;
[0048]
步骤103、对所述指标参数进行参数异常检验,以识别出异常数据;
[0049]
具体地,可使用正态分布的3sigma准则进行异常检验,即数据以99.73%的概率落在(μ-3δ,μ 3δ)。还可根据业务实际情况自行调整阈值,如2sigma、4sigma等。
[0050]
步骤104、对所述指标参数采用进行非参数异常检验,以识别出异常数据。
[0051]
具体地,非参数异常检验可采用分位数异常值检验,如,通过截取样本的上下2.5%的分位数点,作为异常值的临界点。本方案中,可以依照业务实际情况,去调整临界的分位数点,作为异常检测的阈值。对所述指标参数采用进行非参数异常检验可以作为参数异常检测方法的补充。
[0052]
本方案,据异常的识别方法通过判断用户画像数据的指标参数是否符合正态分布,根据判断结果采取不同的异常检验方法,从而避免了当用户画像数据的指标参数不符合正态分布时采用直接采用多项式拟合存在过拟合的系统风险,进而提高了用户画像的异常数据识别准确率。
[0053]
在一可实施的方式中,在判断出所述指标参数不符合正态分布之后,所述识别方法包括:
[0054]
将所述指标参数进行变换以生成目标参数,并返回步骤102。
[0055]
具体地,可以经过box-cox将所述指标参数进行变换以使得指标参数服从正态分
布。
[0056]
本方案,通过box-cox将所述指标参数进行变换以使得指标参数服从正态分布,从而使得一些初始不符合正态分布的用户画像数据经过变化之后符合正态分布。进而可以对所述指标参数进行参数异常检验,从而提高了用户画像的异常数据识别准确率。
[0057]
在一可实施的方式中,在识别出异常数据的步骤之后,所述识别方法还包括:
[0058]
判断所述异常数据是否符合预设要求,若是,则对所述异常数据进行过滤。
[0059]
具体地,判断所述异常数据是否符合业务生产,若判断出该异常数据对业务生产产生的实际影响非常小。本方案中,可以采用具体的规则进行判断,具体规则如下:
[0060]
当指标参数的变化指标的过去预设天数内的中位数与当前值均小于预设阈值时,我们将对其进行过滤,不将其认作为异常数据。例如,当变化指标的过去14天中位数与当前值均小于0.05时,我们将对其进行过滤,不将其认作为异常数据。
[0061]
本方案中,通过判断所述异常数据符合预设要求后对异常数据进行过滤。从而使得一部分满足实际需求的用户画像数据不被识别为异常数据,满足了实际需求,进而提高了用户画像的异常数据识别准确率。
[0062]
在一可实施的方式中,在识别出异常数据的步骤之后,所述识别方法还包括:
[0063]
触发所述用户画像数据的熔断,并发送告警信号。
[0064]
具体地,当任意一个指标参数判定为数据异常时,触发数据的熔断,发送告警信号。本方案中,发送告警信号可以以发送邮件的方式进行警告。分发给各个用户画像数据的用户,帮助其快速感知数据异常,并进行相对应的归因分析与数据修正。
[0065]
实施例2
[0066]
如图3所示,本实施例公开了一种数据异常的识别系统,所述识别系统包括:
[0067]
获取模块1,用于获取用户画像数据的指标参数;所述指标参数用于表征用户画像数据变化的参数;
[0068]
其中,所述指标参数包括用户画像数据的更新率、用户画像数据的变更率、用户画像数据的删除率、用户画像数据的向前kl散度以及用户画像数据的向后kl散度。
[0069]
本方案中,用户画像数据的更新率、用户画像数据的变更率、用户画像数据的删除率为数据量变化指标,用户画像数据的向前kl散度以及用户画像数据的向后kl散度为数据内容变化指标。具体地,如图2所示,用户画像数据的更新率表征为相较于t-2数据,t-1数据中新增的主键(以uid为例)数量占比;用户画像数据的变更率表征为相较于t-2数据,t-1数据中uid标签值数据变化的uid数量占比;用户画像数据的删除率表征为相较于t-2数据,t-1数据中删除的uid数量占比;前向kl散度:相较于t-2数据,t-1数据的分布变化值:
[0070][0071]
后向kl散度:相较于t-1数据,t-2数据的分布变化值:
[0072][0073]
其中,kl散度也即相对熵,衡量的是两个概率分布间差异的非对称性度量,其通常
用于表示理论分布拟合真实分布时产生的信息损耗。其具备非负性、非对称性、0避免性和0趋势性。一般而言,kl散度值越大,代表两个概率分布间的差异越大,因此在这里,我们可以使用该指标去表示t-1和t-2两日的数据分布,即数据内容维度的变化。
[0074]
本方案中,用户画像数据因考虑时效性,可以选用过去14天的数据作为样本数据,如选择过去14天或30天的用户画像数据作为真实样本分布数据。
[0075]
第一判断模块2,用于判断所述指标参数是否符合正态分布,若是,则调用第一检验模块3;若否,则执行调用第二检验模块4;
[0076]
第一检验模块3,用于对所述指标参数进行参数异常检验,以识别出异常数据;
[0077]
具体地,可使用正态分布的3sigma准则进行异常检验,即数据以99.73%的概率落在(μ-3δ,μ 3δ)。还可根据业务实际情况自行调整阈值,如2sigma、4sigma等。
[0078]
第二检验模块4,用于对所述指标参数采用进行非参数异常检验,以识别出异常数据。
[0079]
具体地,非参数异常检验可采用分位数异常值检验,如,通过截取样本的上下2.5%的分位数点,作为异常值的临界点。本方案中,可以依照业务实际情况,去调整临界的分位数点,作为异常检测的阈值。对所述指标参数采用进行非参数异常检验可以作为参数异常检测方法的补充。
[0080]
本方案,据异常的识别方法通过判断用户画像数据的指标参数是否符合正态分布,根据判断结果采取不同的异常检验方法,从而避免了当用户画像数据的指标参数不符合正态分布时采用直接采用多项式拟合存在过拟合的系统风险,进而提高了用户画像的异常数据识别准确率。
[0081]
在一可实施的方式中,在判断出所述指标参数不符合正态分布之后,所述识别系统包括:
[0082]
将所述指标参数进行变换以生成目标参数,并调用第一判断模块2。
[0083]
具体地,可以经过box-cox将所述指标参数进行变换以使得指标参数服从正态分布。
[0084]
本方案,通过box-cox将所述指标参数进行变换以使得指标参数服从正态分布,从而使得一些初始不符合正态分布的用户画像数据经过变化之后符合正态分布。进而可以对所述指标参数进行参数异常检验,从而提高了用户画像的异常数据识别准确率。
[0085]
在一可实施的方式中,所述识别系统还包括:
[0086]
第二判断模块5,用于判断所述异常数据是否符合预设要求,若是,则对所述异常数据进行过滤。
[0087]
具体地,判断所述异常数据是否符合业务生产,若判断出该异常数据对业务生产产生的实际影响非常小。本方案中,可以采用具体的规则进行判断,具体规则如下:
[0088]
当指标参数的变化指标的过去预设天数内的中位数与当前值均小于预设阈值时,我们将对其进行过滤,不将其认作为异常数据。例如,当变化指标的过去14天中位数与当前值均小于0.05时,我们将对其进行过滤,不将其认作为异常数据。
[0089]
本方案中,通过判断所述异常数据符合预设要求后对异常数据进行过滤。从而使得一部分满足实际需求的用户画像数据不被识别为异常数据,满足了实际需求,进而提高了用户画像的异常数据识别准确率。
[0090]
在一可实施的方式中,所述识别系统还包括:
[0091]
告警模块6,用于触发所述用户画像数据的熔断,并发送告警信号。
[0092]
具体地,当任意一个指标参数判定为数据异常时,触发数据的熔断,发送告警信号。本方案中,发送告警信号可以以发送邮件的方式进行警告。分发给各个用户画像数据的用户,帮助其快速感知数据异常,并进行相对应的归因分析与数据修正。
[0093]
实施例3
[0094]
图4为本发明实施例3提供的一种电子设备的结构示意图。所述电子设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现实施例1所提供的数据异常的识别方法。图4显示的电子设备40仅仅是一个示例,不应对本发明实施例的功能和使用范围带来任何限制。
[0095]
如图4所示,电子设备40可以以通用计算设备的形式表现,例如其可以为服务器设备。电子设备40的组件可以包括但不限于:上述至少一个处理器41、上述至少一个存储器42、连接不同系统组件(包括存储器42和处理器41)的总线43。
[0096]
总线43包括数据总线、地址总线和控制总线。
[0097]
存储器42可以包括易失性存储器,例如随机存取存储器(ram)421和/或高速缓存存储器422,还可以进一步包括只读存储器(rom)423。
[0098]
存储器42还可以包括具有一组(至少一个)程序模块424的程序/实用工具425,这样的程序模块424包括但不限于:操作系统、一个或者多个应用程序、其它程序模块以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。
[0099]
处理器41通过运行存储在存储器42中的计算机程序,从而执行各种功能应用以及数据处理,例如本发明实施例1所提供的数据异常的识别方法。
[0100]
电子设备40也可以与一个或多个外部设备44(例如键盘、指向设备等)通信。这种通信可以通过输入/输出(i/o)接口45进行。并且,模型生成的设备40还可以通过网络适配器46与一个或者多个网络(例如局域网(lan),广域网(wan)和/或公共网络,例如因特网)通信。如图所示,网络适配器46通过总线43与模型生成的设备40的其它模块通信。应当明白,尽管图中未示出,可以结合模型生成的设备40使用其它硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理器、外部磁盘驱动阵列、raid(磁盘阵列)系统、磁带驱动器以及数据备份存储系统等。
[0101]
应当注意,尽管在上文详细描述中提及了电子设备的若干单元/模块或子单元/模块,但是这种划分仅仅是示例性的并非强制性的。实际上,根据本发明的实施方式,上文描述的两个或更多单元/模块的特征和功能可以在一个单元/模块中具体化。反之,上文描述的一个单元/模块的特征和功能可以进一步划分为由多个单元/模块来具体化。
[0102]
实施例4
[0103]
本实施例提供了一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现实施例1所提供的数据异常的识别方法。
[0104]
其中,可读存储介质可以采用的更具体可以包括但不限于:便携式盘、硬盘、随机存取存储器、只读存储器、可擦拭可编程只读存储器、光存储器件、磁存储器件或上述的任意合适的组合。
[0105]
在可能的实施方式中,本发明还可以实现为一种程序产品的形式,其包括程序代
码,当所述程序产品在终端设备上运行时,所述程序代码用于使所述终端设备执行实现实施例1所提供的数据异常的识别方法。
[0106]
其中,可以以一种或多种程序设计语言的任意组合来编写用于执行本发明的程序代码,所述程序代码可以完全地在用户设备上执行、部分地在用户设备上执行、作为一个独立的软件包执行、部分在用户设备上部分在远程设备上执行或完全在远程设备上执行。
[0107]
虽然以上描述了本发明的具体实施方式,但是本领域的技术人员应当理解,这仅是举例说明,本发明的保护范围是由所附权利要求书限定的。本领域的技术人员在不背离本发明的原理和实质的前提下,可以对这些实施方式做出多种变更或修改,但这些变更和修改均落入本发明的保护范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献