基于多途径分类识别和网络拓扑结构的关键节点检测方法与流程
- 国知局
- 2024-11-21 11:59:19
本发明涉及的是一种网络安全领域的技术,具体是一种基于多途径分类识别和网络拓扑结构的关键节点检测方法。
背景技术:
1、现有基于模型的行为分析和分类技术的缺陷和不足包括数据源/分类器单一、特征提取不充分、缺乏集成学习方法、网络拓扑结构分析不足等问题,亟需改进以提升分类准确性和鲁棒性。
技术实现思路
1、本发明针对现有技术存在的上述不足,提出一种基于多途径分类识别和网络拓扑结构的关键节点检测方法,从多种数据源中提取app行为的关键特征,并构建矩阵特征数据库的同时,针对不同类型的特征设计多个分类器,从多个维度进行精准分类识别。为了进一步提升分类性能,将通过采用集成学习方法,将不同的分类器的输出结果进行有效融合,以此增强整体的分类准确性和鲁棒性。此外,针对特征数据构建网络图结构,深入分析网络中的节点和边之间的关系。
2、本发明是通过以下技术方案实现的:
3、本发明涉及一种基于多途径分类识别和网络拓扑结构的关键节点检测方法,包括:
4、步骤1、采集并整合网络数据信息,经数据清洗和预处理后,建立数据模型和元数据标准并构建用户和实体之间的关系图谱,具体包括:
5、1.1、从多个网络信息数据源采集原始数据。
6、所述的网络信息数据源,包括但不限于社交媒体、应用日志、网络流量等。
7、所述的采集,采用但不限于网络爬虫、api调用等方式,优选为每10秒抓取一次数据,每天凌晨2点到4点进行数据采集,api调用认证使用api秘钥。
8、所述的采集,优选每分钟不超过60次请求。
9、1.2、将不同的网络信息数据整合,确保时间格式统一,基于时间戳和用户id进行匹配合并以去除冗余信息。
10、所述的时间格式是指:yyyy-mm-dd hh:mm:ss。
11、所述的时间戳,误差不超过5秒。
12、1.3、使用均值填补法对原始数据进行清洗,去除噪声数据、缺失值和异常值,确保数据的准确性和完整性。
13、所述的去除噪声数据是指:使用3σ原则,即超过3个标准差原则对异常值进行检测,利用正则表达式去除不必要的特殊字符。
14、1.4、利用z-score对清洗后的数据进行标准化设置,具体为:(x-μ)/σ、利用min-max进行归一化设置,范围设为[0,1]。基于信息增益选择前20个特征工程参数,生成适合后续分析的特征数据。
15、1.5、基于预处理后的数据,建立关系型数据库模型,定义数据标准;
16、1.6、构建关系图谱:选择neo4j作为图数据库,选择user节点、entity节点作为节点类型,边类型有user_follows_user、user_interacts_entity,user节点的属性包括userid(整数)、username(字符串)、created_at(日期)等,interaction边的属性包括interactiontype(字符串)、timestamp(日期),将数据模型中的用户和实体数据构建成关系图谱,方便分析用户和实体之间的关系。
17、步骤2、从步骤1构建得到的数据模型和关系图谱中提取出因子特征并构建因子特征库,具体包括:
18、2.1、从数据模型和关系图谱中提取出关键特征,包括:节点属性、边属性、以及节点和边之间的关系特征。提取活跃度(interaction_count)、注册时长(days_since_registration)、好友数量(friend_count)等作为用户节点特征提取的属性;提取交互频率(interaction_frequency)、交互类型(interaction_type)等属性作为边特征提取;关系特征提取共现次数(节点在同一上下文中出现的次数)和邻居节点特征(邻居节点的平均属性值)。
19、2.2、构建因子特征库:将提取出的特征进行汇总和存储,构建得到结构化的因子特征库并使用数据库表进行存储。
20、所述的数据库表的列包括:特征名称、特征值、特征类型,使用z-score标准化对提取的特征进行标准化处理,确保特征值在统一范围内,基于信息增益评分选择前50个最重要的特征。
21、步骤3、构造多因子模型,采用监督学习的算法以特征样本进行训练,具体包括:
22、3.1、选择适合的特征进行模型训练,80%数据集用于训练,20%数据集用于测试,使用使用scikit-learn进行数据集划分。
23、3.2、选择随机森林监督学习算法进行模型训练。
24、3.3、对训练后的模型进行评估,计算准确率、精确率、召回率和f1分数,进行参数调优。
25、步骤4、在在线阶段,通过训练后的模型进行实时行为数据的分类。
技术特征:1.一种基于多途径分类识别和网络拓扑结构的关键节点检测方法,其特征在于,包括:
2.根据权利要求1所述的基于多途径分类识别和网络拓扑结构的关键节点检测方法,其特征是,所述的步骤1,具体包括:
3.根据权利要求1所述的基于多途径分类识别和网络拓扑结构的关键节点检测方法,其特征是,所述的步骤2,具体包括:
4.根据权利要求3所述的基于多途径分类识别和网络拓扑结构的关键节点检测方法,其特征是,所述的数据库表的列包括:特征名称、特征值、特征类型,使用z-score标准化对提取的特征进行标准化处理,确保特征值在统一范围内,基于信息增益评分选择前50个最重要的特征。
5.根据权利要求1所述的基于多途径分类识别和网络拓扑结构的关键节点检测方法,其特征是,所述的步骤3,具体包括:
6.一种实现权利要求1-5中任一所述方法的基于多途径分类识别和网络拓扑结构的关键节点检测系统,其特征在于,包括:数据采集与预处理单元、特征提取与构建单元、模型训练与评估单元以及实时分类与监控单元,其中:数据采集与预处理单元根据原始数据源信息,进行数据采集、清洗和预处理处理,得到结构化数据,特征提取与构建单元根据结构化数据,进行特征提取与因子特征库的构建,得到因子特征库,模型训练与评估单元根据因子特征库,进行多因子模型的构建、训练和评估,得到训练后的模型,实时分类与监控单元单元根据训练后的模型,进行实时行为数据的分类和监控,得到实时分类结果和监控报警信息。
技术总结一种基于多途径分类识别和网络拓扑结构的关键节点检测方法,从多种数据源中提取APP行为的关键特征,并构建矩阵特征数据库的同时,针对不同类型的特征设计多个分类器,从多个维度进行精准分类识别。为了进一步提升分类性能,将通过采用集成学习方法,将不同的分类器的输出结果进行有效融合,以此增强整体的分类准确性和鲁棒性。此外,针对特征数据构建网络图结构,深入分析网络中的节点和边之间的关系。技术研发人员:陈伟,孙毅,齐凤林,韩卓烨,王天栋,林伟,杨伟,刘文斌受保护的技术使用者:上海市刑事科学技术研究院技术研发日:技术公布日:2024/11/18本文地址:https://www.jishuxx.com/zhuanli/20241120/333723.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表