技术新讯 > 计算推算,计数设备的制造及其应用技术 > 一种主动挖掘和评估越狱漏洞的自动模糊检测方法及系统  >  正文

一种主动挖掘和评估越狱漏洞的自动模糊检测方法及系统

  • 国知局
  • 2024-07-31 22:47:57

本发明涉及大型语言模型(llms)的安全性和漏洞检测,涉及一种越狱漏洞的自动模糊检测方法及系统,具体涉及一种主动挖掘和评估越狱漏洞的自动模糊检测方法及系统,它能够主动挖掘和评估潜在的越狱漏洞以及在减少人工操作的情况下实现更全面高效的检测。

背景技术:

1、随着人工智能领域的发展,大型语言模型(llms)的崛起,其卓越的自然语言处理能力和广泛的应用前景,已成为该领域的研究热点。然而,这种技术进步的同时,也带来了严重的安全问题,特别是“越狱漏洞”问题。

2、在现有的技术中,llms的“越狱”是指攻击者通过精心设计的输入提示来规避llms模型的安全保护措施,从而达到使llms生成违反法律或者人类伦理的内容的目的。这一问题已引起广泛关注,并在商业领域和学术研究领域中都得到了深入的讨论。研究人员已经针对llms的越狱这一现象进行了实证研究和评估,并提出了一些攻击方法和防御策略。然而,现有的llm安全防御机制仍存在明显局限性。目前的大模型的拥有者在面临用户的越狱攻击时,通常只能针对少量且分散的越狱攻击例子来被动地更新模型版本和加强防御能力。此外,由于针对越狱攻击的开源数据集较少,llms的拥有者们无法有效地通过系统化的安全微调模型机制来实现防御。因此,目前迫切需要一种能够主动挖掘和评估潜在的越狱漏洞的方法。

技术实现思路

1、为了解决上述技术问题,本发明提供了一种主动挖掘和评估越狱漏洞的自动模糊检测方法及系统,利用传统安全领域中的模糊测试的思想,在大型语言模型(llms)中主动挖掘和评估潜在的越狱漏洞,设计了一种创新的提示生成策略,利用模糊模板、约束条件和非法问题集来生成丰富的越狱提示。

2、本发明的方法所采用的技术方案是:一种主动挖掘和评估越狱漏洞的自动模糊检测方法,其特征在于,包括以下步骤:

3、步骤1:定义越狱攻击类别和越狱提示组件;

4、所述越狱攻击类别,包括角色扮演型越狱rp、输出约束型越狱oc、权限提升型越狱pe,及rp&oc组合、rp&pe组合、pe&oc组合和rp&pe&oc组合;所述角色扮演型越狱rp,是通过在对话中构建一个叙事情景来转移模型防御非法问题的注意力;所述输出约束型越狱oc,通过在模型输出层面施加限制,从而突破模型的安全机制;所述权限提升型越狱pe,诱使模型直接突破对于普通用户的权限限制,执行原本未经授权的操作;

5、所述越狱提示组件,包括模糊模板、约束条件和非法问题;所述模糊模板,是生成越狱提示的基础;所述约束条件,为成功越狱所必须满足的要素;

6、步骤2:为不同越狱攻击类别分别设计模糊模板,模糊模板包括约束条件占位符,非法问题占位符,以及与该类别相对应的文字描述;

7、步骤3:进行模糊模板的同义改写,生成语义相似但形式不同的模糊模板,作为模糊模板集t={t1,t2,tn},n为模糊模板数;

8、步骤4:构建约束集、非法问题集,利用约束集、非法问题集和模糊模板集,生成大量在意思上不同的越狱提示作为挖掘漏洞的测试用例,作为越狱提示集p;

9、所述约束集m为越狱攻击类别数,每个ci集合代表一个特定越狱攻击类别的具体约束要求;

10、所述问题集其描述可能出现在提示中的各类非法或敏感问题,k为问题类别数,每个qi代表一个具体问题类别的所有问题集合;

11、步骤5:将生成的越狱提示输入被测试模型中,记录模型对每个越狱提示的响应作为攻击结果;

12、步骤6:对攻击结果进行标注,利用标签模型为每个攻击结果标记“好”或“坏”,从而挖掘出被测试模型潜在的越狱漏洞。

13、作为优选,步骤2中,记m个基本越狱类别b={b1,b2,bm},为每个bi指定一个统一的模糊模板bi={文本描述xi,约束占位符yi,问题占位符zi},其中,xi表示模糊模板相对应的文字描述,yi表示插入约束条件位置处的占位符,zi表示插入非法问题位置处的占位符;采用集合论的幂集运算pow(b)代表从b取任意一个元素组合产生的新集合,则模糊模板集t=pow(b)={t1,t2,tn|n=2m-1}。

14、作为优选,步骤3中,改写规则为保持原义但修改表达形式以及插入约束条件位置处的占位符和插入非法问题位置处的占位符维持不变,同时人工检查每轮改写结果,进一步确认语义的一致性;经过若干轮迭代,得到语义相近但形式各异的新模糊模板。

15、作为优选,步骤4中,有m个子集的约束集c、非法问题集q和有n个子集的模糊模板集t作为三个种子输入,初始时令越狱提示集p为空集合,首先通过获取当前提示集合所需约束类c′,然后以集合和集合为输入,将集合的每个元素插入到集合的每个元素的相应占位符中,并更新当前提示集合p;这样就完成了一次约束条件和非法问题插入模糊模板的相应占位符中的过程,不断循环进行相同操作,从而最终得到完整的越狱提示集p。

16、作为优选,步骤6中,设计用于打标签的提示,以自动标注每个攻击结果;用于打标签的提示包括两个关键方面:非法问题部分和在步骤5中得到的模型测试回复部分;将标记提示作为输入提供给标记模型,模型输出的每个标记的结果只用“好”或“坏”进行标记。

17、本发明的系统采用的技术方案是:一种主动挖掘和评估越狱漏洞的自动模糊检测系统,包括以下模块:

18、模块1,用于定义越狱攻击类别和越狱提示组件;

19、所述越狱攻击类别,包括角色扮演型越狱rp、输出约束型越狱oc、权限提升型越狱pe,及rp&oc组合、rp&pe组合、pe&oc组合和rp&pe&oc组合;所述角色扮演型越狱rp,是通过在对话中构建一个叙事情景来转移模型防御非法问题的注意力;所述输出约束型越狱oc,通过在模型输出层面施加限制,从而突破模型的安全机制;所述权限提升型越狱pe,诱使模型直接突破对于普通用户的权限限制,执行原本未经授权的操作;

20、所述越狱提示组件,包括模糊模板、约束条件和非法问题;所述模糊模板,是生成越狱提示的基础;所述约束条件,为成功越狱所必须满足的要素;

21、模块2,用于为不同越狱攻击类别分别设计模糊模板,模糊模板包括约束条件占位符,非法问题占位符,以及与该类别相对应的文字描述;

22、模块3,用于进行模糊模板的同义改写,生成语义相似但形式不同的模糊模板,作为模糊模板集t={t1,t2,tn},n为模糊模板数;

23、模块4,用于构建约束集、非法问题集,利用约束集、非法问题集和模糊模板集,生成大量在意思上不同的越狱提示作为挖掘漏洞的测试用例,作为越狱提示集p;

24、所述约束集m为越狱攻击类别数,每个ci集合代表一个特定越狱攻击类别的具体约束要求;

25、所述问题集其描述可能出现在提示中的各类非法或敏感问题,k为问题类别数,每个qi代表一个具体问题类别的所有问题集合;

26、模块5,用于将生成的越狱提示输入被测试模型中,记录模型对每个越狱提示的响应作为攻击结果;

27、模块6,用于对攻击结果进行标注,利用标签模型为每个攻击结果标记“好”或“坏”,从而挖掘出被测试模型潜在的越狱漏洞。

28、作为优选,模块2中,记m个基本越狱类别b={b1,b2,bm},为每个bi指定一个统一的模糊模板bi={文本描述xi,约束占位符yi,问题占位符zi},其中,xi表示模糊模板相对应的文字描述,yi表示插入约束条件位置处的占位符,zi表示插入非法问题位置处的占位符;采用集合论的幂集运算pow(b)代表从b取任意一个元素组合产生的新集合,则模糊模板集t=pow(b)={t1,t2,tn|n=2m-1}。

29、作为优选,模块3中,改写规则为保持原义但修改表达形式以及插入约束条件位置处的占位符和插入非法问题位置处的占位符维持不变,同时人工检查每轮改写结果,进一步确认语义的一致性;经过若干轮迭代,得到语义相近但形式各异的新模糊模板。

30、作为优选,模块4中,有m个子集的约束集c、非法问题集q和有n个子集的模糊模板集t作为三个种子输入,初始时令越狱提示集p为空集合,首先通过获取当前提示集合所需约束类c′,然后以集合和集合为输入,将集合的每个元素插入到集合的每个元素的相应占位符中,并更新当前提示集合p;这样就完成了一次约束条件和非法问题插入模糊模板的相应占位符中的过程,不断循环进行相同操作,从而最终得到完整的越狱提示集p。

31、作为优选,模块6中,设计用于打标签的提示,以自动标注每个攻击结果;用于打标签的提示包括两个关键方面:非法问题部分和在模块5中得到的模型测试回复部分;将标记提示作为输入提供给标记模型,模型输出的每个标记的结果只用“好”或“坏”进行标记。

32、本发明具有的有益效果包括:

33、(1)本发明针对现有大型语言模型(llms)迫切需要一种能够主动挖掘和评估潜在的越狱漏洞的方法的现状,利用传统安全领域中的模糊测试的思想,设计了一种创新的提示生成策略,利用模糊模板、约束条件和非法问题集生成了丰富的越狱提示,进而组合成强大的组合攻击,扩大了可检测到的潜在越狱漏洞的范围,使得模型拥有者能提前并主动应对模型攻击者可能的越狱攻击。

34、(2)本发明能够自动生成并测试上万个越狱提示,涵盖不同类别的攻击。这种创新方法确保了语法和语义的变化,同时保持了每个攻击提示的稳健性,为大型语言模型(llms)的安全性提供了一种新的解决方案,并推动人工智能领域的可持续发展。

本文地址:https://www.jishuxx.com/zhuanli/20240730/194671.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。