技术新讯 > 计算推算,计数设备的制造及其应用技术 > 防御信息泄露安全方法、系统及可读存储介质与流程 > 正文

防御信息泄露安全方法、系统及可读存储介质与流程

国知局
2024-11-19 10:02:16

本发明涉及数据库，尤其涉及一种防御信息泄露安全方法、系统及可读存储介质。

背景技术：

1、在数字时代，数据被视为新的财富来源，通过数据分析，企业能够发现市场趋势，优化产品和服务，进而提高竞争力和盈利能力。为了更好的利用这些专业领域的知识，结合大语言模型对自然语言的处理能力，越来越多的基于大语言模型的知识库问答系统被开发和应用。目前大多数的知识库问答系统均采用rag（索引增强生成）的方式来提高模型回答的准确率。但是，该方法存在一定的潜在威胁，如果系统遇到恶意的攻击，那么很可能会造成行业专业领域知识库中知识的泄露。

2、目前，常见的防御模型知识库信息泄露的方法主要分为三类，对前置信息进行审核（即对用户输入进行审核），对后置信息进行审核（即对模型输出的答案进行审核）以及对前置信息后置信息结合（问题答案qa对）进行审核。实现这三类方法主要有以下两种方式；

3、1）提供大量问题答案qa对数据，训练审核模型；

4、2）设置判别规则，利用模型自身对自然语言理解能力，来审核是否存在信息泄露风险。

5、这两种方式都需要大量的数据或判别规则来审核是否存在信息泄露风险。这种方式很难保证数据量和判别规则设置的足够全面，这就仍存在信息泄露的风险。

技术实现思路

1、本发明的目的在于提供一种防御信息泄露安全方法、系统及可读存储介质，以保证知识库问答系统不会因受到恶意攻击而导致专业知识的泄露。

2、为了达到上述目的，本发明提供了一种防御信息泄露安全方法，包括以下步骤：

3、对输入的原始query进行分类改写，将所述原始query的内容抽取分离为安全问题和非安全问题；

4、进一步判断所述安全问题是否存在泄露知识库的风险，若无风险，则基于检索增强生成技术根据所述原始query进行chunk召回，并根据所述召回的chunk回答所述安全问题；反之，则拒绝回答；

5、对所述安全问题的答案与所述召回的chunk进行审核，判断所述答案是否存在泄露知识库的风险，若无风险，则将所述答案输出；反之，则拒绝回答。

6、可选的，对输入的原始query进行分类改写后，仅输出所述安全问题。

7、可选的，根据所述召回的chunk回答所述安全问题时，所述防御信息泄露安全方法还包括：

8、在提示词中设置标签；

9、将特定的标签更换为特殊字符标签；

10、将所述提示词进行全局标签保护，注入保护指标。

11、可选的，通过构建输入安全审核模型判断所述安全问题是否存在泄露知识库的风险，所述输入安全审核模型的训练方法包括：

12、利用gpt4生成若干条无害输入数据；

13、利用贪婪坐标梯度方法生成若干条有害输入数据；

14、对生成的所述无害输入数据和所述有害输入数据进行用户意图以及知识库泄露风险标注，作为模型训练的原始数据；

15、基于所述原始数据利用lora方法来训练所述输入安全审核模型。

16、可选的，通过构建输出安全审核模型对所述安全问题的答案与所述召回的chunk进行审核，所述输出安全审核模型的训练方法包括：

17、将生成的所述无害输入数据和所述有害输入数据输入到vicuna-7b 生成相应的答案，并记录对应的召回chunk；

18、对所述答案进行标注，所述标注的内容包括所述答案中有哪些内容是来自于知识库的chunk、这些内容与所述知识库的chunk是否完全一致以及所述答案是否存在知识库泄露风险；

19、基于生成的所述无害输入数据、所述有害输入数据以及所述标注后的答案，利用所述lora方法来训练所述输出安全审核模型。

20、基于同一发明构思，本发明还提供了一种防御信息泄露安全系统，包括：

21、第一大语言模型，被配置为对输入的原始query进行分类改写，将所述原始query的内容抽取分离为安全问题和非安全问题；

22、输入安全审核模型，被配置为进一步判断所述安全问题是否存在泄露知识库的风险；

23、第二大语言模型，被配置为当所述安全问题不存在泄露知识库的风险时，基于检索增强生成技术根据所述原始query进行chunk召回，并根据所述召回的chunk回答所述安全问题；

24、输出安全审核模型，被配置为对所述安全问题的答案与所述召回的chunk进行审核，判断所述答案是否存在泄露知识库的风险，若无风险，则将所述答案输出；反之，则拒绝回答。

25、可选的，根据所述召回的chunk回答所述安全问题时，所述第二大语言模型还被配置为：

26、在提示词中设置标签；

27、将特定的标签更换为特殊字符标签；

28、将所述提示词进行全局标签保护，注入保护指标。

29、可选的，所述输入安全审核模型的训练方法包括：

30、利用gpt4生成若干条无害输入数据；

31、利用贪婪坐标梯度方法生成若干条有害输入数据；

32、对生成的所述无害输入数据和所述有害输入数据进行用户意图以及知识库泄露风险标注，作为模型训练的原始数据；

33、基于所述原始数据利用lora方法来训练所述输入安全审核模型。

34、可选的，所述输出安全审核模型的训练方法包括：

35、将生成的所述无害输入数据和所述有害输入数据输入到vicuna-7b 生成相应的答案，并记录对应的召回chunk；

36、对所述答案进行标注，所述标注的内容包括所述答案中有哪些内容是来自于知识库的chunk、这些内容与所述知识库的chunk是否完全一致以及所述答案是否存在知识库泄露风险；

37、基于生成的所述无害输入数据、所述有害输入数据以及所述标注后的答案，利用所述lora方法来训练所述输出安全审核模型。

38、基于同一发明构思，本发明还提供了一种可读存储介质，其上存储有计算机程序，所述计算机程序被执行时能实现如上所述的防御信息泄露安全方法。

39、在本发明提供的防御信息泄露安全方法、系统及可读存储介质中，通过对输入的原始query进行分类改写、对所述分类改写后的安全问题进行审核以及对所述安全问题的答案和所述召回的chunk（文档）审核，同时还进一步在答案生成阶段设置提示词防御网，形成了对知识库问答系统信息泄露的多重防御，从而保证所述知识库问答系统不会因受到恶意攻击而导致专业知识的泄露。

技术特征：

1.一种防御信息泄露安全方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的防御信息泄露安全方法，其特征在于，对输入的原始query进行分类改写后，仅输出所述安全问题。

3.根据权利要求1所述的防御信息泄露安全方法，其特征在于，通过构建输入安全审核模型判断所述安全问题是否存在泄露知识库的风险，所述输入安全审核模型的训练方法包括：

4.根据权利要求3所述的防御信息泄露安全方法，其特征在于，通过构建输出安全审核模型对所述安全问题的答案与所述召回的chunk进行审核，所述输出安全审核模型的训练方法包括：

5.一种防御信息泄露安全系统，其特征在于，包括：

6.根据权利要求5所述的防御信息泄露安全系统，其特征在于，所述输入安全审核模型的训练方法包括：

7.根据权利要求6所述的防御信息泄露安全系统，其特征在于，所述输出安全审核模型的训练方法包括：

8.一种可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被执行时能实现根据权利要求1-4中任一项所述的防御信息泄露安全方法。

技术总结本发明涉及数据库技术领域，尤其涉及一种防御信息泄露安全方法、系统及可读存储介质，方法包括：对输入的原始query进行分类改写，将原始query的内容抽取分离为安全问题和非安全问题；判断安全问题是否存在泄露知识库的风险，若无风险，则基于检索增强生成技术根据原始query进行chunk召回，并根据召回的chunk回答安全问题；反之，则拒绝回答；对安全问题的答案与召回的chunk进行审核，判断答案是否存在泄露知识库的风险，若无风险，则将答案输出；反之，则拒绝回答。该方法形成了对知识库问答系统信息泄露的多重防御。技术研发人员：王鑫炜,苏鹏,李剑楠,黄炎,陈书俊,李恒受保护的技术使用者：上海爱可生信息技术股份有限公司技术研发日：技术公布日：2024/11/14