基于图相似度的张量恢复异常检测方法
- 国知局
- 2024-08-02 15:01:01
本发明涉及复杂网络和异常检测,尤其涉及一种基于图相似度的张量恢复异常检测方法。
背景技术:
1、随着互联网技术的不断进步和智能移动终端设备的广泛普及,网络安全的重要性不断成为人们关注的焦点。表明新兴网络攻击的严重性日益增加。
2、在现实世界中,我们可以使用复杂网络来描述相互影响和相互关联的关系。这些网络可以被看作是由多个层次组成的多层网络,其中每个层次代表不同的时间点、空间范围或其他因素导致的变化。在这种多层网络中,节点表示不同的个体,而边表示个体之间的关系。每个层次可以具有不同的拓扑结构和连接方式,反映了网络在不同条件下的变化。在过去几十年中,异常现象在网络系统入侵检测、网络流量数据监控、银行业欺诈检测、通信网络中的虚假用户和虚假事件识别以及医疗状况监测等领域引起了越来越多的关注。为了解决异常检测问题,在网络建模过程中采用张量表征方法。张量具有更为灵活和多维的数据表示方式,在处理多模态、高阶、动态、多层次结构的数据中具有显著的优势,为异常检测提供了更为灵活、全面和强大的工具。
技术实现思路
1、本发明的目的在于提供一种基于图相似度的张量恢复异常检测方法,可以更有效的检测网络流量中的异常;本发明方法可分为两个子问题,分别是张量恢复子问题和异常检测子问题。张量恢复子问题,通过构造三个子空间的相似度张量推断数据的流形结构和张量分解技术,分离出网络流量中无异常的流量数据;异常检测子问题,将异常数据从恢复的流量数据中分离,从而识别网络流量中的异常。
2、为实现上述目的,本发明的技术方案是:一种基于图相似度的张量恢复异常检测方法,包括如下步骤:
3、s1、获取网络流量数据;
4、s2、张量恢复:通过构造三个子空间的相似度张量推断网络流量数据的流形结构和张量分解技术,分离出网络流量数据中无异常的流量数据;
5、s3、异常检测:将异常数据从步骤s2恢复的流量数据中分离,识别网络流量数据中的异常。
6、在本发明一实施例中,步骤s2实现方式为:
7、s21、网络流量数据分为源节点、目的节点和时间三种基础结构,分三个方向对网络流量数据进行切片,得到三个子空间矩阵,计算每个切片的特征向量中心性;
8、s22、通过pearson相关系数来衡量同一方向任意两个切片矩阵特征向量中心性之间的相似程度,以利用网络流量数据之间的相似度来构建数据之间的连接关系,推断网络流量数据的流形结构;
9、s23、使用pearson相关系数构建相似度张量和张量分解重建原始网络流量数据为低秩正态数据;相似度张量记录了节点之间的相似性,张量分解能够将原始张量分解为多个低维张量的乘积,通过重构张量,恢复出无异常的张量,得到低秩正态数据。
10、在本发明一实施例中,步骤s3实现方式为:通过比较步骤s23获得的低秩正态数据和原始网络流量数据之间的差异,即可识别网络流量数据中的异常。
11、在本发明一实施例中,所述步骤s21具体实现如下:
12、首先将网络流量数据的张量进行切片,将张量按不同的切片方向得到(i3,i2,i1)个矩阵三个方向切片的对应的维度分别为(源节点,目的节点)、(源节点,时间)、(目的节点,时间);对切片后的矩阵进行特征分解得到对应的特征值和特征向量:
13、aiv=λv
14、由于切片后得到的矩阵不一定为方阵,对于非方阵的特征值和特征向量求解采用广义特征值求解:
15、
16、其中,ai为不同切片方向得到的矩阵,λ是特征值,v是对应的特征向量;然后在所有特征值中,选取最大的特征值λmax,以及对应的特征向量vmax,这个特征向量代表网络中各节点的特征向量中心性得分;最后标准化特征向量:
17、
18、在本发明一实施例中,所述步骤s22中,pearson相关系数定义为:
19、
20、其中,n是向量中元素的数量,∑xy是向量x和y中对应元素乘积的和,∑x和∑y分别是向量x和y中所有元素的和,∑x2和∑y2分别是向量x和y中所有元素平方的和;计算任意两个特征向量中心性之间的pearson相关系数,得到三个大小与初始网络流量数据的张量三个维度大小相同的pearson相关系数张量w1,w2,w3,并将其构造成一个相似度张量
21、在本发明一实施例中,所述步骤s23具体实现如下:
22、对原始的网络流量数据的张量矩阵进行tucker分解:
23、
24、其中是原始张量,是核心张量,u,v,x是张量在第1,2,3个模态上的因子矩阵;符号×1、×2、×3表示张量与矩阵之间的乘积;为得到核心张量以及因子矩阵,基于最小化原始张量与分解结果之间的重构误差同时加上正则化项控制模型复杂度得到tucker分解的优化问题,在tucker分解优化问题中加入拉普拉斯平滑减少噪声的同时保留数据的主要结构信息,具体如下:
25、首先,定义张量的重构误差:
26、
27、其中是原始张量,是核心张量,u,v,x是张量在第1,2,3个模态上的因子矩阵;
28、然后,添加正则化项控制模型的复杂度,正则化项表示为:
29、
30、其中,||·||f表示f-范数,δ为正则项参数,将拉普拉斯矩阵加入该正则化以保持因子矩阵的局部结构,保持数据在流形结构上的光滑性,首先,根据相似度张量构建拉普拉斯矩阵l,并标准化拉普拉斯矩阵:
31、
32、其中i是单位矩阵,d是度矩阵,wi是不同切片方向的相似度矩阵;所以优化问题最后表示为:
33、
34、接着利用拉普拉斯矩阵l对因子矩阵进行平滑处理;对于核心张量的偏导:
35、
36、因子矩阵u偏导:
37、
38、同理,可得另外两个因子矩阵偏导:
39、
40、
41、使用共轭梯度法分别求解的最小二乘估计近似解;
42、最后基于共轭梯度法求解结果,计算重构张量
43、在本发明一实施例中,所述共轭梯度法求解过程如下:
44、定义四个函数:对于u,v,x:
45、
46、
47、
48、
49、首先计算残差向量然后令q0=r0;
50、定义迭代过程:进行下列循环:
51、计算系数其中ql是ql矩阵化的结果;
52、更新变量xl+1=xl+αlql;
53、更新变量
54、计算系数
55、在本发明一实施例中,步骤s3中,识别网络流量数据中的异常的计算公式表示为:
56、
57、||e||0≤e
58、其中,为达到最小值时的变量取值,||·||0为0范数即张量中非零元素的个数,e为最多异常个数,e即为最后的异常数据矩阵。
59、本发明还提供了一种基于图相似度的张量恢复异常检测系统,包括存储器、处理器以及存储于存储器上并能够被处理器运行的计算机程序指令,当处理器运行该计算机程序指令时,能够实现如上述所述的方法步骤。
60、本发明还提供了一种计算机可读存储介质,其上存储有能够被处理器运行的计算机程序指令,当处理器运行该计算机程序指令时,能够实现如上述所述的方法步骤。
61、相较于现有技术,本发明具有以下有益效果:
62、1、从节点相似度的角度出发,充分考虑不同节点在网络流量中的重要性,能够较好的检测网络流量中的异常。
63、2、将相似度和张量分解技术相结合,通过计算得到的相似度张量更新分解的张量,使得张量分解的精度更高,张量恢复的准确性也更高,可以更好的检测网络流量中的异常。
本文地址:https://www.jishuxx.com/zhuanli/20240801/244654.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表