一种基于APT知识图谱关联数据的大语言模型增强方法与流程
- 国知局
- 2024-09-19 14:23:47
本发明属于网络安全,具体涉及一种基于apt知识图谱关联数据的大语言模型增强方法。
背景技术:
1、随着互联网和信息技术的快速发展,高级持续性威胁(advanced persistentthreats, apt)的攻击模式越来越复杂和难以防范。这种类型的攻击通常涉及多个攻击阶段,包括初始感染、横向移动和数据窃取等,且常常使用高度定制化的攻击手段。因此,传统的安全防护手段,如防火墙和入侵检测系统,已经难以满足现代网络安全的需求。探究人工智能技术、威胁情报(cyber threat intelligence,cti)和知识图谱(konwledge graph,kg)的结合应用,对于更高效、智能的方式实现构建大规模apt威胁知识图谱的研究及应用具有重要意义。
2、进入大语言模型(llms)时代,大语言模型如gpt-4、chatglm等已经证明在多个任务和场景下具有出色的性能。与传统模型相比,llms能够自动从大量网络数据中提取出有意义的特征和模式,从而帮助安全分析人员更有效地识别和防止潜在的威胁。例如,通过llms,我们可以构建出能够自动识别和分类网络行为的系统,进而发现异常行为和潜在的威胁。与此同时,llms还能帮助我们深入理解攻击者的行为模式和攻击链,从而为防护策略的制定提供了宝贵的参考。
3、现有技术中,将知识图谱与大型语言模型结合的方法主要包括:
4、(1)知识图谱实体和关系的预训练集成:使用知识图谱的实体和关系作为预训练的一部分,或者在模型的词表中加入知识图谱的实体token。清华大学的ernie模型在传统的transformer encoder的基础上,加入了一种可以进行知识融合的encoder模块,从而可以将知识图谱中实体的嵌入向量输入到llms中进行增强融合。这种方法能够使模型在预训练阶段更好地学习和理解知识图谱中的结构化信息,从而提高模型在自然语言理解和生成任务中的性能。
5、(2)知识图谱子图的融合与嵌入:利用图神经网络算法,将知识图谱的子图与llms进行融合和嵌入。例如,cokebert提出一种表示学习算法和语义信息结合,而非直接使用知识图谱表示的方法。通过将知识图谱的结构信息嵌入到模型的表示空间中,模型能够更好地捕捉实体之间的关系和上下文信息,提高对复杂语境的理解能力。
6、(3)知识图谱引导语言模型训练:在语言模型的训练中引入知识图谱的指导,以提升语言模型的理解与生成能力。例如,在预训练文本中遮盖实体而非仅遮盖词汇,从而迫使模型关注实体之间的关系和语境。例如,百度的ernie1.0中,知识图谱对预训练文本中的实体进行了遮盖,而非仅是词汇遮盖。
7、但是,llms通常是通过大量的互联网文本进行预训练的,而这些文本可能包含了互联网上广泛存在的偏见、虚构的信息或误导性的内容。模型在学习这些数据时,可能会捕捉到这些偏见,导致生成文本时出现“幻觉”。llms的“幻觉”问题是指这些模型在生成文本时可能表现出一种虚构或不准确的现实感觉,导致生成的内容具有虚构性、虚幻性或误导性。这种“幻觉”可以表现为模型生成的文本内容在逻辑上看起来合理,但实际上却包含不准确的信息、虚构的事件,甚至是与事实不符的情节。这是因为大语言模型是通过学习大量文本中的关联性来理解语言的,它基于统计概率去理解文本而非真实知识的关联。“幻觉”问题对于网络安全威胁情报来说是严重的挑战,因为准确的事实和理解对于预测和响应威胁至关重要。llms对威胁情报理解的准确性直接关系到防范网络攻击的有效性。当威胁情报受到“幻觉”问题的影响时,可能导致误导性的信息被错误地视为真实的威胁,或者真实的威胁被忽略,从而使得网络安全团队无法迅速、准确地应对正在发生的或即将发生的威胁事件。
技术实现思路
1、本发明所要解决的技术问题在于针对上述现有技术中的不足,提供一种基于apt知识图谱关联数据的大语言模型增强方法,其将apt知识图谱整合到大语言模型中,能够提高对潜在威胁的检测效率和准确性,还能够为防护策略的制定和实时响应提供有力支持,极大地强化了网络安全的整体防御体系。
2、为解决上述技术问题,本发明采用的技术方案是:一种基于apt知识图谱关联数据的大语言模型增强方法,包括:
3、收集网络安全领域的相关数据,基于apt攻击的特点构建apt知识图谱;
4、根据用户输入的问题进行apt知识图谱查询;
5、利用查询到的数据片段,生成针对特定查询的增强提示,大语言模型为用户生成更准确更深入的回答。
6、上述的一种基于apt知识图谱关联数据的大语言模型增强方法,收集网络安全领域的相关数据,基于apt攻击的特点构建apt知识图谱;包括:
7、进行apt知识图谱本体设计与建模,明确定义apt知识图谱中涉及的实体、属性和关系,形成知识图谱的本体结构;
8、通过各种渠道收集网络安全领域的相关数据,特别关注与apt攻击相关的威胁情报;对从不同渠道获取的信息进行清洗,去除重复、冗余和低质量的数据后,进行实体抽取和关系抽取,得到相关的实体与实体之间的关系;
9、基于本体结构和相关的实体与实体之间的关系,构建形成apt知识图谱。
10、上述的一种基于apt知识图谱关联数据的大语言模型增强方法,进行apt知识图谱本体设计与建模时考虑了apt攻击的特征,包括攻击者、攻击组织、受害者、攻击方式和漏洞;并涵盖了apt攻击生命周期的各个阶段。
11、上述的一种基于apt知识图谱关联数据的大语言模型增强方法,各种渠道包括公共威胁情报平台、漏洞数据库和安全报告。
12、上述的一种基于apt知识图谱关联数据的大语言模型增强方法,根据用户输入的问题进行apt知识图谱查询;包括:
13、大语言模型接收用户输入的问题,提取出关键实体,并在apt知识图谱内定位到相关节点,收集节点信息,包括节点的特征、属性、以及任何相关的上下文信息;
14、探索节点的邻居节点,设计查询语句查找apt知识图谱中节点之间的相互关系;
15、将收集到的节点信息、邻居节点信息以及它们之间的相互关系信息综合起来,形成一个全面的数据集;
16、对数据集进行分割,生成独立的数据片段,将对数据片段进行向量化后存储在一个专门的向量空间数据库中;
17、对于每一项特定的查询,通过该数据库检索出与查询最相关的数据片段,形成问题的上下文。
18、上述的一种基于apt知识图谱关联数据的大语言模型增强方法,对数据集进行分割采用langchain技术。
19、上述的一种基于apt知识图谱关联数据的大语言模型增强方法,利用查询到的数据片段,生成针对特定查询的增强提示,大语言模型为用户生成更准确更深入的回答,包括:
20、利用查询到的数据片段,生成针对特定查询的“上下文感知提示”;
21、大语言模型利用复杂且上下文丰富的“上下文感知提示”,为用户生成更准确更深入的回答。
22、上述的一种基于apt知识图谱关联数据的大语言模型增强方法,利用查询到的数据片段,生成针对特定查询的上下文感知提示,使用langchain技术中的qa chain,把这些数据片段合并,与用户的原始问题结合,设计出上下文感知提示。
23、本发明与现有技术相比具有以下优点:
24、1、本发明设计了一个专注于apt攻击的知识图谱本体,明确定义了实体、属性和关系,确保对网络安全领域的关键概念有清晰的表示;基于知识图谱的本体和抽取的实体及关系,构建图谱结构,确保模型能够深入理解apt攻击事件的关联性和上下文;借助知识图谱,不仅能辅助快速检测,关联来自同一威胁源的不同攻击事件,拓展线索范围,还可从攻击事件中分析出系统薄弱点,推断攻击者选择特定目标的标准及再次发生类似攻击事件的可能性。
25、2、apt知识图谱是网络安全领域的专业知识库,将其整合到大语言模型(llms)中可以使模型更好地适应特定领域的应用;这种领域特定性能够使大语言模型(llms)在理解和表示apt攻击方面的能力增强,更有效地处理网络安全文本,提高在apt场景下的性能。
26、3、apt知识图谱中包含了关于攻击者、攻击组织、攻击方式等专业的网络安全知识,将这些信息有效整合到大语言模型(llms)中,能够使模型更准确地识别和理解apt攻击的特征,提高对潜在威胁的检测准确性。
27、4、将apt知识图谱整合到大语言模型(llms)中有助于提高模型的解释性,模型的决策过程可以更清晰地映射到知识图谱中的实体和关系,使安全分析人员能够更好地理解模型的判断,提高模型输出的可信度和解释性。
28、5、大语言模型(llms)与网络安全领域特定的apt知识图谱的结合,不仅可以提升威胁检测的效率和准确性,还能够为防护策略的制定和实时响应提供有力支持,极大地强化了网络安全的整体防御体系。
29、下面通过附图和实施例,对本发明的技术方案做进一步的详细描述。
本文地址:https://www.jishuxx.com/zhuanli/20240919/297822.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表