技术新讯 > 计算推算,计数设备的制造及其应用技术 > 一种基于分类回归图对齐的视觉单目标跟踪对抗防御方法 > 正文

一种基于分类回归图对齐的视觉单目标跟踪对抗防御方法

国知局
2024-07-31 23:01:47

本发明涉及计算机视觉，尤其涉及一种基于分类回归图对齐的视觉单目标跟踪对抗防御方法。

背景技术：

1、单目标跟踪器是在连续的视频帧序列中，依据初始帧中指定的一个目标区域，提取目标视觉特征，并在后续视频帧序列中对该目标存在的位置进行预测。随着cnn的发展，基于孪生神经网络的跟踪器在跟踪精度和速度上具有优异的表现，典型的基于孪生神经网络跟踪器有siamfc、siamrpn、siamrpn++、siammask、ocean等。

2、近年来，针对对抗样本的研究揭示了一个事实——在图像中添加不可察觉的扰动能够欺骗最先进的深度神经网络。目标跟踪任务中的对抗攻击技术就是通过精心设计的目标函数指导网络模型或迭代方法生成不易察觉的对抗扰动加入视频帧中，使先进的跟踪器在正常跟踪过程中丢失跟踪目标。csa攻击利用冷却收缩损失抑制热图中的目标区域，并且诱导跟踪器收缩边界框，使得跟踪器丢失目标。iou攻击利用正交近似的方法以黑盒迭代的方式得到利用最小噪声获取使iou得分最低的攻击样本，诱使跟踪器丢失目标。dfa攻击通过递减特征攻击，对输入帧产生更加微妙的扰动，干扰特征图和边界框预测，从而使得跟踪器丢失目标。这就导致目前的视觉单目标跟踪任务存在以下问题：

3、(1)目前尚未存在针对视觉单目标跟踪任务的对抗防御方法，且图像分类和目标检测任务的对抗防御方法难以直接迁移至目标跟踪任务。由于跟踪器的输入为连续的图像序列，其网络结构与分类器和检测器存在差异，故现有的多数针对图像分类与目标检测任务而设计的防御方法不能直接迁移到跟踪任务上。

4、(2)将对抗训练直接应用于跟踪器的防御需要重训练跟踪网络，付出较大的时间与计算成本。虽然对抗训练是一种高效的防御方法，但直接将其应用于跟踪器的防御时，需要对整个跟踪网络进行重训练，而跟踪网络的结构相对比分类、检测模型复杂，若重训练跟踪网络不仅增加时间成本和训练难度，还会对硬件环境提出更高的要求。

5、(3)针对跟踪器设计的防御方法若显著降低跟踪器性能，将使得该防御方法的实用性和可靠性存疑。跟踪任务的连续性决定了与跟踪器配合工作的防御方法不应该显著降低跟踪器的跟踪速度，如若不然，防御方法带来的性能提升相比其巨大的计算开销是得不偿失的。

技术实现思路

1、本发明的目的就在于提供一种解决单目标跟踪对抗攻击大幅降低跟踪器性能的问题，增强跟踪器对未知扰动的防御能力的，一种基于分类回归图对齐的视觉单目标跟踪对抗防御方法。

2、为了实现上述目的，本发明采用的技术方案是这样的：一种基于分类回归图对齐的视觉单目标跟踪对抗防御方法，用于对含有未知攻击扰动的视频帧进行重构，再送入目标跟踪器中，目标跟踪器的孪生网络包括搜索分支和模板分支，包括以下步骤：

3、s1，获取包含多段视频的视频数据集，对视频预处理，其中一段视频的预处理方法为：

4、将视频剪裁到包含n张图像帧，得到图像集并对每张图像帧进行目标标注，其中第i张图片帧ii的目标标注为包括分类标注ycls与回归标注yreg，从图像集中剪裁出ii的模板区域zi和搜索区域xi；

5、s2，构造基于分类回归图对齐的视觉单目标跟踪对抗防御网络aadn；

6、在搜索分支前设置第一防御网络def1，参数为θ1，模板分支前设置第二防御网络def2，参数为θ2，两防御网络结构均基于u-net网络；

7、s3，结合搜索分支训练def1，其中ii的训练方法包括s31～s38；

8、s31，对ii的搜索区域xi添加训练扰动δg，输入def1，输出防御样本

9、s32，将和模板区域zi送入目标跟踪器，输出的预测分类图和预测回归图；

10、s33，计算def1的一次损失函数其中，分别为对应的分类损失和回归损失；

11、s34，用更新训练扰动δg，生成对抗扰动δadv；

12、s35，对ii的搜索区域xi添加对抗扰动δadv，再次输入def1，输出更新防御样本

13、s36，将和模板区域zi送入目标跟踪器，输出的预测分类图和预测回归图；

14、s37，计算def1的二次损失函数其中，分别为对应的分类损失和回归损失；

15、s38，使用优化器，以最小化更新def1的参数θ1；

16、s4，按步骤s3的方法，结合模板分支训练第二防御网络，训练过程中，交换模板区域zi和搜索区域xi的位置；

17、s5，将带有未知扰动的视频中的图像帧，送入训练好的aadn中，得到def1和def2的输出，将def1的输出作为防御后搜索区域、def2的输出作为防御后模板区域，送入目标跟踪器中。

18、作为优选：所述视觉目标跟踪器为siamrpn跟踪器、siamrpn++跟踪器、siammask跟踪器和ocean跟踪器。

19、作为优选：def1为unet-256网络，def2为unet-128网络。

20、作为优选：所述训练扰动δg使用基于高斯分布的随机噪声初始化。

21、作为优选：步骤s33中，采用交叉熵损失，采用smoothl1损失，通过下式计算；

22、

23、

24、

25、

26、式中，分别为对应的真实框x坐标、y坐标、真实框宽度、真实框高度；

27、分别预测框的x坐标、y坐标、预测框宽度、预测框高度；

28、dx、dy、dw、dh分别为真实框和预测框在x坐标、y坐标、宽度、高度上的归一化距离、dt为变量，dt∈{dx，dy，dw，dh}；

29、smoothl1(·，·)为smoothl1损失，σ为预定义的超参数。

30、作为优选：步骤s34通过下式生成对抗扰动；

31、

32、式中，∈为扰动预算，sign(·)为符号函数，为根据向搜索区域xi求偏导数。

33、作为优选：s4中，训练第二防御网络具体包括s41～s48；

34、s41，对zi添加训练扰动δg，输入第二防御网络，输出防御样本

35、s42，将和xi送入目标跟踪器，输出的预测分类图和预测回归图；

36、s43，计算def2的一次损失函数

37、s44，用更新训练扰动δg，生成对抗扰动；

38、s45，对zi添加s44生成的对抗扰动，再次输入def2，输出更新防御样本

39、s46，将和xi送入目标跟踪器，输出的预测分类图和预测回归图；

40、s47，计算def2的二次损失函数

41、s48，使用优化器，以最小化更新def2的参数θ2。

42、作为优选：s5包括步骤s51～s54；

43、s51，获取带有未知扰动的视频，剪裁至包含n张图片帧的图像集其中第i张图片帧为且视频仅提供第的目标标注

44、s52，根据在中裁剪出搜索区域与模板区域

45、s53，将送入def1输出防御后搜索区域将送入def2输出防御后模板区域将与一起送入目标跟踪器，输出中目标的预测框

46、s54，按步骤s52、s53的方法依次处理中每一张图片帧。

47、与现有技术相比，本发明的优点在于：

48、(1)本发明针对视觉单目标跟踪任务，首次提出了一种基于对抗训练构建的、快速有效的、单目标跟踪器辅助性防御的网络aadn。该网络结构基于u-net网络，经过一次损失函数、二次损失函数引导的对抗训练后，部署在目标跟踪器前端，在目标跟踪器预测阶段，含有未知攻击扰动的对抗样本首先会被输入aadn进行重建，重建后的防御样本才会被目标跟踪器接受进行正常跟踪。本发明通过对抗训练学习过滤干净样本邻域内的潜在对抗扰动，增强其对未知对抗扰动的防御能力，并且能根据实际需要对模板区域与搜索区域进行针对性的防御，使得目标跟踪器获得更鲁棒的跟踪表现，和良好的泛化性。

49、(2)本发明中使用的对抗训练并没有直接应用于目标跟踪器，只对aadn进行对抗训练，避免了对复杂的跟踪器网络进行重训练，减少了计算和时间成本开销。同时，aadn网络能以即插即用的方式适配其他目标跟踪器，而无需对目标跟踪器的参数进行调整，具有良好的迁移性。

50、(3)虽然增加了aadn网络，但与目标跟踪器配合时不会引入过多的计算开销，跟踪速度依然没有显著降低，说明防御网络的应用依然使得跟踪器维持着速度与精度的良好平衡。