技术新讯 > 计算推算,计数设备的制造及其应用技术 > 一种基于时序特征的异常用户发现方法、系统及存储介质与流程  >  正文

一种基于时序特征的异常用户发现方法、系统及存储介质与流程

  • 国知局
  • 2024-11-25 15:05:20

本发明涉及机器学习,尤其涉及一种基于时序特征的异常用户发现方法、系统及存储介质。

背景技术:

1、在构建和维护数据资产库的过程中,确保数据的质量和可靠性至关重要。无效数据的存在不仅会损害数据的完整性,还会影响其实用性。为了提高数据资产库的整体效能,必须采取措施识别并剔除无效数据,从而确保数据的准确性和可靠性。在虚拟社区中,大量无效数据通常由异常行为用户产生。目前基于机器学习的垃圾用户检测方法并没有考虑到时间特性,通常随着时间的推移,模型的检测能力会有所下降。首先现有技术缺乏对此类用户发布无效数据的成因分析;其次,现有技术需要对特征库进行维护,没有考虑到此类用户在时间流上的特性;最后,现有技术对此类用户与正常用户之间的差异性特征提取有待改进。

技术实现思路

1、本发明的目的在于克服现有技术的不足,提供一种基于时序特征的异常用户发现方法、系统及存储介质。

2、本发明的目的是通过以下技术方案来实现的:本发明第一方面提供:一种基于时序特征的异常用户发现方法,包括以下步骤:

3、根据时间序列量化用户行为相似度特征和用户基础特征,所述用户行为相似度特征包括用户行为关注度、用户行为活跃度、用户行为响应速度;

4、基于用户行为相似度特征和用户基础特征建立异常用户分类模型;

5、使用异常用户分类模型判断目标用户是否为异常用户,去除数字资产库中异常用户的无效数据。

6、优选的,设在虚拟社区某一功能下,任意用户 u的用户行为集合为 c,则有:

7、其中,按时间序列顺序排列,第一用户行为 c1的时间点量化值为 t1、第二用户行为 c2的时间点量化值为 t2、第用户行为的时间点量化值为;对于用户行为集合 c存在对应的时间点量化值集合 t:

8、其中,;当用户行为集合 c存在 n个用户行为在时间序列中连续,且行为特征相似时,计算用户行为相似度s:

9、。

10、优选的,第一用户行为 c1的关注度量化值为 l1、第二用户行为 c2的关注度量化值为 l2、第用户行为的关注度量化值为;对于用户行为集合 c存在对应的关注度量化值集合 l:,则任意用户 u的用户行为关注度 arr为:

11、。

12、优选的,用户行为活跃度 liveness:

13、。

14、优选的,第一用户行为 c1与其前一用户行为之间的时间差为、第二用户行为 c2与其前一用户行为之间的时间差为、第用户行为与其前一用户行为之间的时间差为;对于用户行为集合 c存在对应的响应速度量化值集合:,任意用户 u的用户行为响应速度为:

15、。

16、优选的,所述的异常用户分类模型由 m个基模型组成,在构建过程中不断减小预测值与真实值之间的损失,当达到预设损失时完成构建;第 m个基模型对第 i个样本的预测值用以下公式表示:

17、

18、其中为第 m-1个基模型的预测值,为第 m个基模型的预测值;

19、异常用户分类模型的目标函数的计算公式如下:

20、

21、其中, n为样本数,为样本真实值与预测值的损失函数;是目标函数的正则化项,值为所有基模型的复杂度之和;

22、根据公式(5)确定公式数和泰勒定理转化损失函数得到:

23、

24、其中,为第 m-1个基模型的预测值与真实值的损失函数,为第 m个基模型的损失函数的一阶导数, h i为第 m个基模型的损失函数的二阶导数;然后对目标函数进行简化得到:

25、

26、通过求解每一个基模型的损失函数的一阶导数和二阶导数,使目标函数的值最小,得到每一个基模型的,然后逐步优化迭代最终得到异常用户分类模型。

27、优选的,所述的异常用户分类模型为分布式梯度提升模型xgboost。

28、本发明第二方面提供:一种基于时序特征的异常用户发现系统,用于实现如上述任一种基于时序特征的异常用户发现方法,包括:

29、特征量化模块,用于根据时间序列量化用户行为相似度特征和用户基础特征,所述用户行为相似度特征包括用户行为关注度、用户行为活跃度、用户行为响应速度;

30、模型建立模块,用于基于用户行为相似度特征和用户基础特征建立异常用户分类模型;

31、异常用户判断模块,用于使用异常用户分类模型判断目标用户是否为异常用户,去除数字资产库中异常用户的数据。

32、本发明第三方面提供:一种计算机可读存储介质,所述的计算机可读存储介质中存储有计算机可执行指令,所述计算机可执行指令被处理器加载并执行时,实现上述任一种基于时序特征的异常用户发现方法。

33、本发明的有益效果是:

34、1)通过基于时间序列的用户行为相似度特征与用户基础特征,建立基于时序特征的异常用户分类模型,从而提高异常用户的检测准确度,解决该类用户的发现问题。对异常用户的发现,可降低数据资产库在采集开源数据时,无效数据对数据资产库的影响。

技术特征:

1.一种基于时序特征的异常用户发现方法,其特征在于:包括以下步骤:

2.根据权利要求1所述的基于时序特征的异常用户发现方法,其特征在于:设在虚拟社区某一功能下,任意用户u的用户行为集合为c,则有:

3.根据权利要求2所述的基于时序特征的异常用户发现方法,其特征在于:第一用户行为c1的关注度量化值为l1、第二用户行为c2的关注度量化值为l2、第用户行为的关注度量化值为;对于用户行为集合c存在对应的关注度量化值集合l:,则任意用户u的用户行为关注度arr为:

4.根据权利要求2所述的基于时序特征的异常用户发现方法,其特征在于:用户行为活跃度liveness:

5.根据权利要求2所述的基于时序特征的异常用户发现方法,其特征在于:第一用户行为c1与其前一用户行为之间的时间差为、第二用户行为c2与其前一用户行为之间的时间差为、第用户行为与其前一用户行为之间的时间差为;对于用户行为集合c存在对应的响应速度量化值集合:,任意用户u的用户行为响应速度为:

6.根据权利要求1所述的基于时序特征的异常用户发现方法,其特征在于:所述的异常用户分类模型由m个基模型组成,在构建过程中不断减小预测值与真实值之间的损失,当达到预设损失时完成构建;第m个基模型对第i个样本的预测值用以下公式表示:

7.根据权利要求1-6任一项所述的基于时序特征的异常用户发现方法,其特征在于:所述的异常用户分类模型为分布式梯度提升模型xgboost。

8.一种基于时序特征的异常用户发现系统,其特征在于:用于实现如权利要求1-7任一项所述的基于时序特征的异常用户发现方法,包括:

9.一种计算机可读存储介质,其特征在于:所述的计算机可读存储介质中存储有计算机可执行指令,所述计算机可执行指令被处理器加载并执行时,实现如权利要求1-7任一项所述的基于时序特征的异常用户发现方法。

技术总结本发明公开了一种基于时序特征的异常用户发现方法、系统及存储介质,属于机器学习技术领域。方法包括:根据时间序列量化用户行为相似度特征和用户基础特征,所述用户行为相似度特征包括用户行为关注度、用户行为活跃度、用户行为响应速度;基于用户行为相似度特征和用户基础特征建立异常用户分类模型;使用异常用户分类模型判断目标用户是否为异常用户,去除数字资产库中异常用户的无效数据。通过基于时间序列的用户行为相似度特征与用户基础特征,建立基于时序特征的异常用户分类模型,从而提高异常用户的检测准确度,解决该类用户的发现问题。对异常用户的发现,可降低数据资产库在采集开源数据时,无效数据对数据资产库的影响。技术研发人员:汤娟,宁彬彬,徐强,李捷,李林莉受保护的技术使用者:四川九洲电器集团有限责任公司技术研发日:技术公布日:2024/11/21

本文地址:https://www.jishuxx.com/zhuanli/20241125/336071.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。