基于样本块重建机制的DNN后门规避方法、介质及设备
- 国知局
- 2024-07-31 23:06:04
本发明涉及电数字数据处理的,特别涉及一种深度神经网络领域中的基于样本块重建机制的dnn后门规避方法、介质及设备。
背景技术:
1、近年来,深度神经网络(dnns)已成功应用于人脸识别、自动驾驶等关键任务,其出色表现不仅优于传统的机器学习方法,甚至在某些情况下超越了人类水平。这种技术的迅速发展不仅推动了人工智能领域的进步,且对于解决现实世界的复杂问题具有重要意义。然而,因人工智能安全问题可能会影响人们生命、财产与隐私等的安全,所以需要重点关注。
2、现有的深度神经网络往往缺乏可解释性,也没有明确的决策边界,因此在其遭受到攻击,包括但不限于中毒攻击、规避攻击、后门攻击和模型反转攻击时,容易导致模型产生错误的决策,进而降低模型的可靠性和正确性。这其中,后门攻击是一种极具威胁的攻击方式,它可发生在深度学习模型的各个应用场景下;比如有研究表明在埋入后门的自动驾驶系统中,通过在停车标志上粘贴便利贴作为后门触发条件,可以使系统将停车标志误识为限速标志从而导致车祸;又比如在皮肤癌检测系统中,通过激活后门可以使系统将皮肤癌误诊为攻击者指定的其它疾病。因此,有必要研究深度学习模型中后门的检测与识别方法,以保护系统的可靠与安全运行。
3、现有的后门检测方法依据深度神经网络内部结构特征和潜在后门触发模式大致可分为基于样本的方法和基于模型的方法。基于样本的方法通常是利用样本固有特征属性构建的检测器来区分正常样本和中毒样本在统计属性上的差异以实现检测目的,例如,有学者研究发现,在后门攻击模型中,正常样本的预测结果可能会随着样本尺寸的放大或缩小而发生变化,而中毒样本的预测结果往往表现得更为稳定,并基于此构建了通过监测模型对输入样本的预测结果是否随着样本的缩放而变化来检测后门的方法。然而,该类方法容易受中毒样本所属类别的影响,也难以应对多样化和复杂化的攻击方式,限制了其适用范围。基于模型的方法则通常根据模型参数或结构的异常变化来检测后门。例如,有学者通过寻找能够将模型的任意输入映射到特定输出的最小扰动来判断模型是否存在后门,若某一特定扰动能够持续导致错误的分类结果,则认为该模型中存在后门。该类方法通常不需要额外的样本或者只需要少量的样本,但其容易受到模型的复杂性、异构性以及动态性等因素的影响,这将增加模型分析的难度和开销,也往往会改变模型参数并破坏模型结构。此外,现有方法基本上都需要干净样本的支持,而获取干净样本往往需要较大的代价,这会增加计算成本。
技术实现思路
1、本发明解决了现有技术中存在的问题,提供了一种基于样本块重建机制的dnn后门规避方法、介质及设备,克服现有方法在检测dnn模型后门所存在的泛化性和鲁棒性的不足。
2、本发明所采用的技术方案是,一种基于样本块重建机制的dnn后门规避方法,所述方法以掩码自动编码器对原始样本进行若干次重建,将原始样本和所有重建样本按规则分块,基于预设指标对相同位置的重建样本的样本块获取评估分数,用于合成新样本;检测新样本,对异常样本重复执行重建,直至无异常样本,破坏潜在触发器,实现dnn后门规避。
3、优选地,所述方法包括以下步骤:
4、s1读取训练好的深度神经网络模型m及掩码自动编码器;
5、s2构建测试样本集dbd,dbd中原始样本的个数n至少为1;
6、s3利用所述掩码自动编码器逐个重建dbd中的所有原始样本,将原始样本和q个重建样本按相同的预设规则进行分块,分别获得m个样本块;
7、s4构造块选择判别器,用于从多个位于相同位置的重建样本的样本块中选择最优块,以合成对应的原始样本的新重建样本;重复s4直至每个原始样本获得新重建样本,得到新重建样本集dbdrecon;
8、s5基于lof算法构造一异常检测器,用于提取dbdrecon中的异常样本;
9、s6从dbdrecon中提取被标记为异常的样本,构建新的样本集d′bdrecon,以d′bdrecon更新s2中的样本集dbd并返回执行s2,直至异常检测器不再检测出异常样本。
10、优选地,s3中,通过重建,获得每个原始样本的至少1个重建样本;分块操作后,原始样本和所有重建样本均获得至少为2的样本块。
11、优选地,s4包括以下步骤:
12、s4.1将原始样本si和任一重建样本rsij输入到m中,分别提取m中各层的特征图fi和rfij,i=1,2,3,…,n,j=1,2,3,…,q;
13、s4.2构建目标损失函数,
14、
15、其中,wc为m中第c层特征图的权重,l为m的层数,g(rfij)=rfij·rfijt,||g(fi)||和||g(rfij)||分别表示矩阵g(fi)和g(rfij)的模;
16、本发明中,考虑到对于不同的后门模型来说,后门埋入的位置可能在不同层,而不同层的特征重要性是不同的,故设计一自适应算法计算权重wc,loss作为该算法的目标函数,在s4.3中计算gramdiff时,相加每一层gram矩阵差异度时都乘一个权重,作为目标损失函数,直至调整后的参数使得损失函数最小。
17、s4.3获取重建样本rsij和原始样本si的第h个块和的块差异度gramdiffh;
18、s4.4重复直至获得重建样本rsij和原始样本si的所有对应样本块的块差异度,取差异度大于阈值的相对应重建块;
19、s4.5计算与所选的综合相似度选择与最大值相对应的作为第h个块位置的重建块。
20、优选地,s4.3中,分别将重建样本rsij和原始样本si的第h个块和输入m,提取m中各层特征图和计算对应的和并基于和获得和的块差异度cramdiffh,
21、
22、即,此处获取块的各层特征图,为c个特征矩阵,分别计算每个特征矩阵的gram矩阵g(),通过将两个块的每一层gram矩阵差异度相加获得两个块的差异度。
23、优选地,s4.5中,计算与所选的综合相似度
24、
25、其中,λ为权重系数,λ∈[0,1],mse为和间的均方误差,ssim为和间的结构相似度。
26、本发明中需要说明的是,后门模型中,若输入样本带有触发器,则会导致模型按照特定方式分类,模型中间层的输出和正常样本的输出也将存在明显差异;通过块差异度的计算可以找到模型内部差异度最大的几个重建块(对于不带有触发器的块,重建块和原始块的差异度其实差异不大),而获得的多个差异度较大的重建块中也可能存在因为重建效果差和原样本完全无关而导致差异度大的情况,故为了提高重建精度,叠加相似度指标的计算,排除这种错误的情况,增加重建块与原始块的相似概率。
27、优选地,s5包括以下步骤:
28、s5.1将dbdrecon中的新重建样本逐个输入m,提取对应新重建样本在模型中的多维特征矩阵,利用主成分分析方法将多维特征矩阵降维成直角坐标系内的一个点且标记为pi;
29、s5.2设定距离领域并标记邻近pi的k个点,将第t个点记为ot,t=1,2,3,...,k,计算pi与ot的欧式距离d(pi,ot),计算pi到ot的可达距离distk(pi,ot),
30、distk(pi,ot)=max{d(pi,ok),d(pi,ot)};
31、s5.3计算点pi的局部可达密度lrdk(pi),
32、
33、计算点pi的局部异常因子lofk(pi),
34、
35、其中,k(pi)表示点pi的k距离领域内所有点集合,|k(pi)|表示点pi的k距离邻域内所有点的数量;
36、s5.4设置阈值α,α∈[6,12],比较lofk(pi)与α的大小,如果lofk(pi)的值大于α,则将样本点pi标记为正常样本,否则将样本点pi标记为异常样本。
37、此处,第k距离可以理解为找到点pi的k个邻近点后,以pi为圆心、以第k个邻近点ok和pi的距离为半径画圆,此处的半径即为k距离,即d(pi,ok);第k距离邻域是指点pi的第k距离内的所有点的集合,包括第k距离上的点,此处即为k(pi);可达距离是指对于两个不同的点o1和o2,o1在pi的k邻域内,所以它们的距离就是d(pi,ok),也就是等于圆的半径,而对于o2,它不在p1的k邻域内,所以它的可达距离就是实际距离,也就是这两点之间的距离d(pi,o2)。
38、优选地,若返回执行次数大于0,则当执行s3时,使用与前一次不同的预设规则进行分块,且原始样本的重建样本数量和样本分块的数量均为前一次重建的两倍,
39、当执行s5时,设置阈值α为前一次重建时的α加1,并记录该次重建样本的局部异常因子其中,t表示第t次循环重建;
40、设置阈值γ,γ∈[6,15],对于样本si,计算该样本前t-1次重建的局部异常因子的均值若则将该样本标记为正常样本,否则将样本标记为异常样本。
41、本发明中,由于中毒样本上触发器的样式是未知的,故需要对分块规则进行改变,以不同大小进行分块可以更好地适应不同大小的潜在触发器;
42、而由于每次再分块执行时样本数量肯定少于上一次,局部异常因子的值亦肯定小于上一次,故增加阈值α,避免异常样本的比例增加;
43、此处确定相对于γ的大小是考虑到如果该样本实际上为正常,只是由于其特征而导致远离正常样本分布,故校正其不管重建多少次都大于α。
44、一种计算机可读存储介质,其上存储有基于样本块重建机制的dnn后门规避程序,该程序被处理器执行时实现上述基于样本块重建机制的dnn后门规避方法。
45、一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时,实现上述基于样本块重建机制的dnn后门规避方法。
46、本发明涉及一种基于样本块重建机制的dnn后门规避方法、介质及设备,所述方法以掩码自动编码器对原始样本进行若干次重建,将原始样本和所有重建样本按规则分块,基于预设指标对相同位置的重建样本的样本块提取得分,用于合成新样本;检测新样本,对异常样本重复执行重建,直至无异常样本,破坏潜在触发器,实现dnn后门规避;基于方法获得计算机可读存储介质和计算机设备的实现。
47、本发明的技术构思为:
48、(1)基于掩码自动编码器(masking autoencoder,mae)循环重建中毒图像的策略,构建基于样本块重建机制的dnn后门规避方法;
49、(2)通过分析中毒样本激活后门的特点,构建基于mae的复原中毒样本的方法;
50、(3)通过分析原样本和重建样本统计属性的显著差异,构建基于gram矩阵和图像相似度差异的块选择判别器;
51、(4)分析样本在空间中密度的差异,构建基于密度的异常检测器;
52、基于以上策略,本发明的有益效果在于,有效破坏中毒样本的触发器,防止攻击者利用中毒样本对模型进行欺骗,从而提高模型的鲁棒性和安全性,提高方法的泛化性;不仅有助于防御由现有攻击方法所构建的中毒样本,还可有效防御由未知攻击所构造的中毒样本,将极大提升深度神经网络模型的可靠性。
本文地址:https://www.jishuxx.com/zhuanli/20240730/195945.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表