一种针对模型反演攻击的检测方法
- 国知局
- 2024-08-02 14:57:31
本发明涉及网络安全领域、人工智能安全领域,尤其涉及一种针对模型反演攻击的检测方法。
背景技术:
1、近年来,深度学习模型在诸多任务中表现出接近甚至超出人工的水平,在生产生活过程中得到了广泛应用。同时随着多模态大型语言视觉模型的出现,深度学习模型与能源、医疗等领域得到了更深入的应用。与此同时,深度学习模型在安全领域的应用也引发了公众的高度关注。
2、深度学习模型的构建中需要大量的训练数据,其中可能包含个人隐私数据或商业机密信息等高价值攻击目标。攻击者会通过多种手段试图对深度模型进行攻击以获取训练数据,因此保障训练数据安全是深度学习模型领域中的重要议题。
3、在众多攻击方式中,模型反演攻击是一种对深度学习模型有着严重威胁的攻击方式,攻击者通过迭代访问模型还原出模型训练数据的特征,包括但不限于获取训练集中的样本和重建训练集的隐私敏感特征,从而造成模型数据泄露。
4、因此,如何防御模型反演攻击成为了重要研究课题,现有针对模型反演攻击的防御方法主要可以限制输出信息和干扰输出信息两种方式。但是限制输出信息的防御方法存在防御能力有限、容易被攻击者绕过的问题,干扰输出信息的防御方法存在影响模型正常功能的问题。因此需要提出一种方案解决上述问题。
技术实现思路
1、本发明的目的在于提供一种针对模型反演攻击的检测方法,能够改善限制输出信息防御方法易被绕过和干扰输出信息防御方法影响模型正常功能的情况。
2、本发明提供的一种针对模型反演攻击的检测方法,包括:
3、随机生成初始蜜点,基于模型反演攻击者的行为逻辑检测初始蜜点是否符合要求:用多个生成模型基于该行为逻辑进行内容生成,直至所有生成模型的输出均包含初始蜜点,当迭代生成的次数总和小于预设值时,初始蜜点符合要求,输出为深度蜜点,否则更新初始蜜点;
4、将深度蜜点部署到原始模型中,获得受保护模型;
5、当受保护模型中的深度蜜点被触发时,受保护模型受到模型反演攻击。
6、本发明提供的一种基于针对模型反演攻击的检测方法的有益效果在于:
7、本发明通过对模型反演攻击者的行为逻辑的刻画生成深度蜜点并通过模型微调的形式部署在模型中,在保证模型可用性不受明显影响的情况下实现对模型反演攻击的高效、高精度检测。
8、可选的,攻击者的行为逻辑包括:
9、攻击者通过迭代访问模型,以训练集数据为目标通过梯度重构训练集数据或者高度相似的数据。
10、可选的,对初始蜜点进行检测时,包括:
11、以初始蜜点为目标,迭代优化多个生成模型的输入变量,直到多个生成模型均生成初始蜜点,记录所有生成模型的迭代次数总和,当迭代次数总和小于预设值时,该初始蜜点输出为深度蜜点,否则更新初始蜜点。
12、可选的,迭代优化生成模型的输入变量时,包括:
13、生成模型基于变量进行内容生成,当生成结果与初始蜜点不同时,计算生成结果与初始蜜点的距离,计算所述距离关于蜜点的第一梯度,基于第一梯度更新输入变量并重新生成,直至生成结果为初始蜜点。
14、可选的,迭代优化输入变量时,当迭代更新的次数到达预设阈值时,若最终结果仍不与初始蜜点相同时,则计算所述初始蜜点关于所述最终结果的第二梯度,基于第二梯度更新初始蜜点;最终结果为生成模型新的输入变量,更新后的初始蜜点为生成模型新的目标。
15、本发明提供的一种基于针对模型反演攻击的检测方法的有益效果在于:
16、基于模型反演攻击者的行为逻辑刻画,检测深度蜜点能否在有效迭代次数内被生成,从而确保深度蜜点被部署在模型反演攻击的关键路径上,使得深度蜜点对模型反演攻击的检出率有效提高。
17、可选的,部署深度蜜点时,包括:
18、从原始模型的训练集数据中随机采样少量数据获得微调数据集,剔除训练集中的采样数据后获得未处理数据集;将深度蜜点与微调数据集中的所有数据结合,获得蜜点数据集,基于蜜点数据集和未处理数据集对原始模型进行微调,获得受保护模型。
19、本发明提供的一种基于针对模型反演攻击的检测方法的有益效果在于:
20、将深度蜜点以模型微调的形式部署在受保护模型中,未处理数据集保证了模型的正常性能不会受到明显的影响。
21、可选的,检测深度蜜点是否被触发时,包括:
22、记录深度蜜点在受保护模型的中间层特征,当所述受保护模型基于输入信息进行内容生成时,提取生成过程中输入信息的中间层特征,将输入信息的中间层特征与深度蜜点的中间层特征进行对比。
23、可选的,将输入层信息的中间层特征与深度蜜点的中间层特征进行对比时,包括:
24、计算输入信息的中间层特征和深度蜜点的中间层特征的特征余弦相似度,当特征余弦相似度高于预设值时,深度蜜点被触发,将输入信息判别为模型反演攻击。
25、本发明提供的一种基于针对模型反演攻击的检测方法的有益效果在于:在模型内容生成的过程中实时检测深度蜜点状态,当深度蜜点被触发式,及时终止内容生成,保障模型训练集数据的安全。
技术特征:1.一种针对模型反演攻击的检测方法,其特征在于,包括:
2.根据权利要求1所述的检测方法,其特征在于,所述攻击者的行为逻辑包括:
3.根据权利要求1所述的检测方法,其特征在于,对所述初始蜜点进行检测时,包括:
4.根据权利要求3所述的检测方法,其特征在于,迭代优化生成模型的输入变量时,包括:
5.根据权利要求4所述的检测方法,其特征在于,迭代优化所述输入变量时,当所述迭代更新的次数到达预设阈值时,若最终结果仍不与所述初始蜜点相同时,则计算所述初始蜜点关于所述最终结果的第二梯度,基于所述第二梯度更新初始蜜点;所述最终结果为所述生成模型新的输入变量,所述更新后的初始蜜点为所述生成模型新的目标。
6.根据权利要求1所述的检测方法,其特征在于,部署所述深度蜜点时,包括:
7.根据权利要求1所述的检测方法,其特征在于,检测所述深度蜜点是否被触发时,包括:
8.根据权利要求7所述的检测方法,其特征在于,将所述输入信息的中间层特征与所述深度蜜点的中间层特征进行对比时,包括:
技术总结本发明提供了一种针对模型反演攻击的检测方法,属于网络安全领域、人工智能安全领域,包括:随机生成初始蜜点,基于攻击者的行为逻辑检测初始蜜点是否符合要求,符合则输出为深度蜜点,否则更新初始蜜点;部署深度蜜点,获得受保护模型;检测深度蜜点状态,当深度蜜点被触发时,检测到模型反演攻击。本发明提供的一种针对模型反演攻击的检测方法可以在受保护模型功能不受明显影响的前提下提高针对模型反演攻击的检测能力和检测的准确性。技术研发人员:田志宏,胥迤潇,李默涵,刘园,方滨兴,苏申,鲁辉,仇晶,孙彦斌,张乐君,谭庆丰受保护的技术使用者:广州大学技术研发日:技术公布日:2024/7/29本文地址:https://www.jishuxx.com/zhuanli/20240801/244467.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表