一种基于大数据的网络流量信息管理系统的制作方法
- 国知局
- 2024-07-31 22:59:58
本发明涉及大数据库,具体涉及一种基于大数据的网络流量信息管理系统。
背景技术:
1、随着网络技术的快速发展,网络流量数据呈现出爆炸性增长的趋势,这些网络流量数据包含了大量的信息,因此,现在就需要基于大数据的网络流量数据去解析整合,提取网络流量数据中的有价值的信息。
2、现有公开号为cn111049818b的一种基于网络流量大数据的异常信息发现方法,通过数据融合的方式对网络流量大数据进行扩展维度,利用人工智能分析增加大数据挖掘的深度,并且通过制定规则做到对异常信息的自动化发现。
3、但是,对比文件中的内容仅仅只是对网络流量大数据进行进一步的扩展维度,对出现异常值的数据组只是通过制定规则粗略的概况,没有对数据组的数值进行解析,而且没有进一步对出现异常值的数据组进行分析,没有对该组数据中出现的异常值进行求证工作。
技术实现思路
1、本发明的目的在于提供一种基于大数据的网络流量信息管理系统,没有对数据组的数值进行解析,而且没有进一步对出现异常值的数据组进行分析,没有对该组数据中出现的异常值进行求证工作的问题。
2、本发明的目的可以通过以下技术方案实现:
3、包括数据采集模块、数据处理模块、数据分析模块、数据存储模块、数据判定模块和数据提取模块,具体步骤如下:
4、数据采集模块用于从网络设备和服务器中进行收集网络流量数据;
5、数据处理模块用于对收集到的网络流量数据进行预处理,预处理的具体过程为:
6、s1,对网络流量数据进行过滤,得到有价值的数据;
7、s2,对数据统一的表现形式进行格式规范化;
8、s3,对数据集中识别和删除相关的重复记录;
9、s4,对数据进行预检测,检测出具有异常值的数据组;
10、数据处理模块对异常数据分析过程如下:
11、对多组数据数值进行计算判定差值α,通过公式计算所得判定差值α与判定阈值进行比较,判定每组数据是否存在异常值,若其中一组数据判定差值小于或者等于判定阈值,则判定该组数据不存在异常值;
12、若其中一组数据判定差值大于判定阈值,则判定该组数据存在异常值,对存在异常值的数据组进行求证,对判定结果的准确性进行校验;
13、通过公式:,n表示为该组数据点的数量,xi表示为每个数据点的数值,μ表示为每组数据数值的平均值;
14、数据存储模块对预处理后的数据信息进行存储;
15、数据分析模块用于对存储后的数据信息进行分析,将数据信息解析处理,得到用户的属性信息。
16、作为本发明进一步的方案:数据处理模块对存在异常值的数据组分析过程如下:
17、通过建立二维坐标系的方式,将多组数据数值在二维坐标系上进行标记并分析,得到多组数据相互之间的偏移值,将偏移值与判定标准值进行标记,若得到存在异常值的数据组中偏移值大于判定标准值,则判定通过计算判定差值α的方式对数据组进行判定异常值的结论准确;
18、若得到存在异常值的数据组中偏移值小于或者等于判定标准值,则判定通过计算判定差值α的方式对数据组进行判定异常值的结论不准确,判断出现异常值的数据组中的异常值是否为缺失值。
19、数据处理模块将多组数据数值在二维坐标系上进行标记并分析,通过计算获取多组数据相互之间的偏移值,将获取后的偏移值进行从小到大的顺序进行排列得到偏移值的中位数,将获取得到的中位数作为判定标准值。
20、作为本发明进一步的方案:数据分析模块对存在异常值的数据组进行分析,通过数据判定模块判定该组数据中的异常值是否为缺失值,具体过程如下:
21、a1,通过数据采集模块从数据存储模块中再次获取每组数据数值,利用数据处理模块对每组数据中的数值进行计算,将利用公式计算得到的比值作为求证帧值w;
22、a2,通过求证帧值w与求证阈值k作差,将所得到的差值与求证判定值c进行比较,通过数据判定模块判定异常值是否为缺失值;
23、若求证帧值w与阈值k所做差值大于判定值c,则判定该组数据出现异常值结果不是缺失值;
24、若求证帧值w与阈值k所做差值小于或者等于判定值c,则判定该组数据出现异常值结果是缺失值。
25、作为本发明进一步的方案:通过公式:,α表示为数据判定差值,z表示为每组数据数值代表值,p为每组数据中数值进行求和所得的平均值。
26、作为本发明进一步的方案:数据提取模块将数据存储模块中经过预处理后的数据信息进行提取,将提取后的数据信息通过数据分析模块进行解析,将解析后的数据信息进行标签备注,并且通过数据存储模块进行存储。
27、作为本发明进一步的方案:通过数据提取模块提取数据存储模块内标签备注后的数据信息,利用数据分析模块解析标签备注后的数据信息,从标签备注后的数据信息中提取出地理位置信息,在地理位置信息的基础上进行周期性监测采集,整合后得到空间数据;
28、通过数据处理模块将空间数据放入到四叉树内,通过数据分析模块对四叉树上的每个节点内的图元信息进行进一步的解析,获取不同地理区域中用户的信息属性,通过对用户的信息属性整合分析,得到用户的兴趣和行为特征,用户的信息属性包括有用户社交关系,用户访问领域和用户访问时间。
29、作为本发明进一步的方案:通过数据分析模块利用四叉树分析整合法对周期性监测采集得到的数据信息进行整合,具体过程如下:
30、b1,将周期性监测采集后的数据信息进行预处理,具体处理过程如上述s4中方法所示;
31、b2,将所监测到的数据放入到四叉树中的子节点中,每一个子节点作为一个区间,制定相关的四叉树分叉规则;
32、b3,将四叉树分叉规则制定为对四叉树上的每个子节点中的元素数量进行限制,若一个子节点区间内的元素数量超过该区间内预设值k的情况下,就会进行分裂成其他四个子节点区间;
33、b4,通过公式对四叉树上的子节点区间内的预设值k进行计算,公式为,m表示为系统内存量系数,u表示为处理器能力系数,r表示为周期监测采集后的数据总数,、表示为预设比例系数,将所求得的预设值k作为四叉树上每个子节点中的区间元素数量限制值;
34、b5,将四叉树中每个节点区间内部的数据信息作为一个地理区域内的图元信息。
35、本发明进一步的方案:通过数据监测模块对用户信息属性进行实时监测,具体过程如下:
36、j1,通过数据分析模块对用户之间共同点的寻找,构建用户之间的社交关系网;
37、j2,通过数据采集模块获取一名或者多名用户访问领域频率的次数,统计用户访问的频率次数,将用户访问频率较多的区域规定为特定区域;
38、j3,在j2的基础上,通过数据分析模块对特定区域内的用户访问时长进行解析处理,得到该区域内用户的兴趣和行为特征。
39、本发明进一步的方案:通过数据采集模块获取每周期内用户访问页面的类型,访问不同类型页面的时长数值,通过数据处理模块将获取得到的用户访问时长进行划分为多组等时间段,通过数据监测模块对用户在不同时间段内访问页面的频率进行监测,通过数据判定模块对用户的兴趣和行为特征进行判定,具体过程如下:
40、通过建立若干个三维坐标系,每个三维坐标系代表为不同类型页面,x轴表示为用户访问页面的时长数值,y轴表示为用户访问页面的频率,z轴表示为访问页面的用户数量,将通过数据监测模块获取所得到的访问频率数值、用户访问页面的类型和用户访问不同类型页面的时长数值分别在三维坐标上进行标点,通过计算得到三维坐标系上三角形的面积大小进行判定用户的兴趣和行为特征;
41、将计算所得到的多组三角形面积数值进行求和取平均值,将所得到的平均值作为判定阈值,若三角形面积大于或者等于判定阈值,则判定为用户最感兴趣的页面类型;若三角形面积小于判定阈值,则判定为用户不感兴趣的页面类型。
42、本发明的有益效果:
43、(1)本发明通过数据处理模块用于对收集到的网络流量数据进行预处理,对网络流量数据进行过滤,得到有价值的数据,对数据统一的表现形式进行格式规范化,对数据集中识别和删除相关的重复记录,对数据进行预检测,检测出具有异常值的数据组,对多组数据数值进行计算判定差值α,通过公式计算所得判定差值α与判定阈值进行比较,判定每组数据是否存在异常值,若其中一组数据判定差值小于或者等于判定阈值,则判定该组数据不存在异常值;若其中一组数据判定差值大于判定阈值,则判定该组数据存在异常值,对存在异常值的数据组进行求证,对判定结果的准确性进行校验公式为,通过建立二维坐标系的方式,将多组数据数值在二维坐标系上进行标记并分析,对所判定的结果进行求证,对该组数据出现异常值是否为缺失值进行分析,避免将缺失值误判为异常值处理,提高对数据检测的准确性;
44、(2)本发明对经过预处理后的网络数据进行解析,并将解析后的结果进行相应的标签备注,对解析后的数据信息进行处理,提取数据信息内的地理位置信息,再在地理位置信息的基础上进行周期性监测采集,整合后得到空间数据,对四叉树上的每个节点内的图元信息进行进一步的解析,获取不同地理区域中用户的信息属性,通过对用户的信息属性整合分析,得到用户的兴趣和行为特征,用户的信息属性包括有用户社交关系,用户访问领域和用户访问时间,通过提取用户的兴趣和行为特征,可以为用户提供相应的推荐,快速地满足用户需求。
本文地址:https://www.jishuxx.com/zhuanli/20240730/195648.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表