一种基于改进支持向量机的动态威胁图谱生成方法及系统与流程
- 国知局
- 2024-09-14 14:35:09
本发明涉及信息安全,特别涉及一种基于改进支持向量机的动态威胁图谱生成方法及系统。
背景技术:
1、随着互联网应用技术的不断发展,以及以高级持续性威胁技术(apt)为典型代表的新型威胁、攻击的不断增长,相当一大部分政企单位大量业务都会直接连接互联网开展相关的工作。然而网络安全趋势逐年变得严峻,互联网网络攻击事件频发,威胁着当前网络空间安全。安全从业人员为了从之前的重大网络攻击事件中汲取经验,会仔细分析之前事件,并给出相关报告。
2、另一方面,威胁图谱技术在知识搜索、融合、推理及可视化方面都具有优势,已经成功在多个领域进行运用。在当前复杂的网络空间安全背景之下,如何从众多的攻击中,自动化、智能化的分析出报告中的关键指纹,从而构建威胁情报知识图谱就成了信息安全领域一个重要的研究课题。
3、为了降低规则检测的误报率,提高现有威胁的检出效率,本发明提出了一种基于改进支持向量机的动态威胁图谱生成方法及系统。
技术实现思路
1、本发明为了弥补现有技术的缺陷,提供了一种简单高效的基于改进支持向量机的动态威胁图谱生成方法。
2、本发明是通过如下技术方案实现的:
3、一种基于改进支持向量机的动态威胁图谱生成方法,其特征在于:从文本及机器数据中智能化的提取关键知识信息,基于改进的支持向量机算法构建动态的威胁图谱生成引擎,产出综合且关联的情报图谱数据,使威胁图谱系统主动识别未知攻击;
4、包括以下步骤:
5、步骤s1、知识学习(knowledge catch)
6、以互联网上公开或者半公开的文本数据为原始语料进行数据读取,并对读取的数据进行分类与清洗,最后对清洗后的情报数据进行半自动化的人工标注,构建初级的情报语料库;
7、步骤s2、行为实体建模(behavior modeling)
8、基于情报语料库进行威胁知识抽取与数据分类统计,实现数据聚类分析,得到威胁情报数据;构建威胁知识预测模型,并利用支持向量机算法对情报数据进行训练;
9、抽取威胁知识时,以时间维度为序列,对事件、风险和威胁知识进行抽取;基于事件、风险和威胁知识三元组构建威胁知识预测模型;
10、步骤s3、生成动态威胁图谱(threat mapping)
11、针对步骤s2中经过行为实体建模之后得到的威胁情报数据进行威胁刻画,构建威胁图谱。
12、所述步骤s1中,在对读取的数据进行清洗的过程中引入白名单机制;将爬取与收集回来的文本数据经过白名单过滤后输出使用。
13、所述步骤s1中,公开或者半公开的文本数据包括但不限于公开的漏洞库,公开的黑客组织的微博以及黑客组织公开的微博数据;
14、公开或者半公开的文本数据的白名单至少包含以下维度:
15、1)漏洞情报库白名单维度:漏洞编号(vulnumber)、漏洞内容(vuldesc)、漏洞等级(vullevel)、漏洞披露时间(vulcommitdate)、漏洞更新时间(vulupdate)和漏洞提交者(vulcommitauthor);
16、2)黑客组织白名单维度:微博id(authorid)、黑客组织id(hackersid)、黑客组织发布的内容数据(hackerspublishdesc)、订阅用户的id(seedid)、已经阅读数量(readcount)、黑客组织评论过的内容(hackerscommits)和黑客组织关注过的用户id(hackersfocususerid)。
17、所述步骤s1中,公开的漏洞库包括但不限于cve漏洞库和synk漏洞库;
18、针对公开的漏洞库,编写网络爬虫以xml的形式进行分类爬取;数据结构包含漏洞编号vulnumber、漏洞内容vuldesc、漏洞等级vullevel、漏洞披露时间vulcommitdate、漏洞更新时间vulupdate和漏洞提交者vulcommitauthor6个字段,得到漏洞集合e=(vulnumber,vuldesc,vullevel,vulcommitdate,vulupdate,vulcommitauthor);
19、将黑客组织则标记为v,构造黑客组织集合p,v∈p;爬取黑客组织v历史上曾经发布过的历史数据,以及每一条数据对应于每条情报点赞过、转发过以及评论过的微博用户id,即点击过对应威胁情报的微博用户id,作为后续威胁图谱数据;
20、经过白名单过滤后得到情报知识库集合(e,p),生成mi维向量,mi为当前白名单维度。
21、所述步骤s2中,由于支持向量机算法在预测模型时存在训练过程参数选取盲目性的问题,构建威胁知识预测模型时,采用粒子群优化算法对所选的参数进行优化,从而提高预测模型准确度;
22、具体步骤如下:
23、步骤s2.1、将情报知识库与内置的特征库进行特征码匹配,若匹配成功,则终止匹配过程,并将匹配结果数据标记存储;若特征库中所有的特征均匹配失败,则终止匹配;
24、步骤s2.2、读取预制的模型训练样本集,将抽取的事件、风险和威胁知识三元组作为初始训练参数完成对支持向量机模型的第一次训练,得到初始预测模型;
25、所述支持向量机模型采用次梯度下降算法,公式如下:
26、
27、其中,m为事件集合,当前白名单维度mi为事件集合m中的第i个元素;xi为第i个风险元素,yi为第i个威胁知识,n为循环次数;
28、步骤s2.3、继续读取模型训练样本集,并利用初始预测模型完成测试样本的态势值预测,得到初始预测结果;
29、步骤s2.4、采用粒子群算法对预测结果进行修正;
30、所述粒子群算法的适应度评价函数r公式如下:
31、
32、其中,f1n为初始预测结果,f2n为测试样本集中的真实态势值;
33、所述适应度评价函数r用于计算初始预测结果与测试样本集中真实态势值的误差;当适应度评价函数r满足整个收敛条件时,则初始预测模型即为最终预测模型,否则粒子群算法迭代并将第二组训练参数传递给支持向量机模型,由支持向量机模型重新读取训练样本集进行第二次训练得到第二代预测模型,再利用测试样本集检验第二代预测模型精度;以此类推,直至得到满足适应度评价函数r收敛条件的最终预测模型为止;输出预测结果。
34、所述步骤s2中,通过轮训算法则采用加权轮询的方式,对知识构建的过程进行调度。
35、所述步骤s3中,以安全事件为本体,通过对整个攻击过程的抽象,以包括但不限于攻击域名及ip在内的实体信息为元祖,依据威胁情报领域的特征与规则,自上而下创建威胁情报领域本体结构,对威胁情报本体提出6个威胁信息组件,分别为安全事件、威胁主体、攻击指标、可观测对象、攻击方法和攻击目标。
36、通过基于多因素的威胁情报命名实体识别模型与基于图神经网络的威胁情报实体关系抽取模型,得到威胁情报文本的实体与关系三元组(事件、风险和威胁知识),将得到的三元组存入图数据库中,生成威胁图谱。
37、一种基于改进支持向量机的动态威胁图谱生成系统,其特征在于:包括知识学习模块,行为实体建模模块,动态威胁图谱生成模块和逻辑存储模块;
38、所述知识学习模块以互联网上公开或者半公开的文本数据为原始语料进行数据读取,并对读取的数据进行分类与清洗,最后对清洗后的情报数据进行半自动化的人工标注,构建初级的情报语料库;
39、所述行为实体建模模块包括威胁知识抽取子模块、威胁知识构建子模块和任务调度子模块;
40、所述威胁知识抽取子模块基于情报语料库进行威胁知识抽取与数据分类统计,实现数据聚类分析,得到威胁情报数据;
41、所述威胁知识构建子模块负责构建威胁知识预测模型,并利用支持向量机算法对情报数据进行训练;
42、所述任务调度子模块通过轮训算法则采用加权轮询的方式,对知识构建的过程进行调度;
43、所述威胁知识抽取子模块抽取威胁知识时,以时间维度为序列,对事件、风险和威胁知识进行抽取;基于事件、风险和威胁知识三元组构建威胁知识预测模型;
44、所述动态威胁图谱生成模块针对经过行为实体建模之后得到的威胁情报数据进行威胁刻画,构建威胁图谱;
45、所述逻辑存储模块包含分布式mysql数据库集群和分布式的hbase数据库两种类型的存储模式;分布式mysql数据库集群用于保存模型训练的样本集以及对于攻击的判定结果;分布式的hbase数据库用于保存信号捕获量相关信息。
46、所述知识学习模块中设置有白名单机制,将爬取与收集回来的文本数据经过白名单过滤后输出使用;
47、所述公开或者半公开的文本数据包括但不限于公开的漏洞库,公开的黑客组织的微博以及黑客组织公开的微博数据;
48、公开或者半公开的文本数据的白名单至少包含以下维度:
49、1)漏洞情报库白名单维度:漏洞编号(vulnumber)、漏洞内容(vuldesc)、漏洞等级(vullevel)、漏洞披露时间(vulcommitdate)、漏洞更新时间(vulupdate)和漏洞提交者(vulcommitauthor);
50、2)黑客组织白名单维度:微博id(authorid)、黑客组织id(hackersid)、黑客组织发布的内容数据(hackerspublishdesc)、订阅用户的id(seedid)、已经阅读数量(readcount)、黑客组织评论过的内容(hackerscommits)和黑客组织关注过的用户id(hackersfocususerid);
51、公开的漏洞库包括但不限于cve漏洞库和synk漏洞库;
52、针对公开的漏洞库,编写网络爬虫以xml的形式进行分类爬取;数据结构包含漏洞编号vulnumber、漏洞内容vuldesc、漏洞等级vullevel、漏洞披露时间vulcommitdate、漏洞更新时间vulupdate和漏洞提交者vulcommitauthor6个字段,得到漏洞集合e=(vulnumber,vuldesc,vullevel,vulcommitdate,vulupdate,vulcommitauthor);
53、将黑客组织则标记为v,构造黑客组织集合p,v∈p;爬取黑客组织v历史上曾经发布过的历史数据,以及每一条数据对应于每条情报点赞过、转发过以及评论过的微博用户id,即点击过对应威胁情报的微博用户id,作为后续威胁图谱数据;
54、经过白名单过滤后得到情报知识库集合(e,p),生成mi维向量,mi为当前白名单维度。
55、所述威胁知识构建子模块采用粒子群优化算法对所选的参数进行优化,从而提高预测模型准确度;
56、具体步骤如下:
57、步骤s2.1、将情报知识库与内置的特征库进行特征码匹配,若匹配成功,则终止匹配过程,并将匹配结果数据标记存储;若特征库中所有的特征均匹配失败,则终止匹配;
58、步骤s2.2、读取预制的模型训练样本集,将抽取的事件、风险和威胁知识三元组作为初始训练参数完成对支持向量机模型的第一次训练,得到初始预测模型;
59、所述支持向量机模型采用次梯度下降算法,公式如下:
60、
61、其中,m为事件集合,当前白名单维度mi为事件集合m中的第i个元素;xi为第i个风险元素,yi为第i个威胁知识,n为循环次数;
62、步骤s2.3、继续读取模型训练样本集,并利用初始预测模型完成测试样本的态势值预测,得到初始预测结果;
63、步骤s2.4、采用粒子群算法对预测结果进行修正;
64、所述粒子群算法的适应度评价函数r公式如下:
65、
66、其中,f1n为初始预测结果,f2n为测试样本集中的真实态势值;
67、所述适应度评价函数r用于计算初始预测结果与测试样本集中真实态势值的误差;当适应度评价函数r满足整个收敛条件时,则初始预测模型即为最终预测模型,否则粒子群算法迭代并将第二组训练参数传递给支持向量机模型,由支持向量机模型重新读取训练样本集进行第二次训练得到第二代预测模型,再利用测试样本集检验第二代预测模型精度;以此类推,直至得到满足适应度评价函数r收敛条件的最终预测模型为止;输出预测结果。
68、所述动态威胁图谱生成模块以安全事件为本体,通过对整个攻击过程的抽象,以包括但不限于攻击域名及ip在内的实体信息为元祖,依据威胁情报领域的特征与规则,自上而下创建威胁情报领域本体结构,对威胁情报本体提出6个威胁信息组件,分别为安全事件、威胁主体、攻击指标、可观测对象、攻击方法和攻击目标。
69、本发明的有益效果是:该基于改进支持向量机的动态威胁图谱生成方法及系统,将原有依赖专家规则的方式转化为无规则的威胁图谱生成引擎,从而降低了规则检测的误报率,提高了现有威胁的检出效率,有效保证了云中心整体业务的稳定性。
本文地址:https://www.jishuxx.com/zhuanli/20240914/294895.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表