技术新讯 > 计算推算,计数设备的制造及其应用技术 > 基于孪生网络和注意力机制的轻量化无人机实时目标跟踪方法 > 正文

基于孪生网络和注意力机制的轻量化无人机实时目标跟踪方法

国知局
2024-09-05 14:28:49

本发明涉及无人机视觉领域，具体涉及基于孪生网络的目标跟踪网络改进方法，尤其涉及一种无人机目标跟踪模型训练和目标跟踪方法。

背景技术：

1、无人机在目标跟踪领域具有独特的应用潜力。例如，在搜索和救援行动中，无人机可以装配先进的摄像设备和传感器，进行实时的空中监控，快速精确地定位失踪人员或分析灾害现场。无人机的高机动性和广阔的视野使其成为理想的监视工具，能在不易到达的地区进行高效的监控和跟踪。无人机作为动态监视的平台，通过搭载高分辨率摄像机，不仅可以捕捉到地面上细微的动态变化，还能通过实时视频分析技术，自动识别和跟踪地面上的移动目标。这种技术的应用尤其适用于边境巡逻、交通监控以及野生动物保护等领域，无人机可以在不干扰目标的情况下进行长时间的观察和跟踪。

2、目标跟踪是计算机视觉中一个重要的基础研究领域，其主要工作是对图像中感兴趣的对象进行位置定位，以及判别该对象所属类别的分类。近年来，随着机器学习和深度学习技术的发展，无人机的目标跟踪能力得到了显著提升。传统方法通过手动方式提取视频序列中目标对象跟踪所需要的特征信息，包括hog+svm，kcf等方法已经越来越不适用，逐渐被智能分析的方法所取代。通过深度神经网络，无人机可以实现对复杂场景中多目标的同时识别和跟踪，即使在光线较差或天气条件不佳的情况下也能维持较高的跟踪精度。这种智能化的跟踪系统不仅提高了目标跟踪的效率，还增强了跟踪过程的自动化和智能化水平。

3、由于无人机视频图像具有丰富的目标信息，现有跟踪模型的使用深层次复杂的主干网络对图像进行特征提取，这影响模型在无人机这种算力有限的设备的部署，算法的运行速度受限，难以实现实时跟踪；同时，无人机目标跟踪技术仍面临一些挑战。例如，无人机图像的稳定性和图像质量受到飞行高度和环境因素的影响，可能会降低跟踪算法的精度。此外，对于快速移动的目标，传统的目标跟踪算法可能难以实时响应，导致跟踪失败。目前已有的目标跟踪模型没有能够在精度和速度上达到较好的平衡，难以在无人机场景中实际应用。

技术实现思路

1、本发明是为了解决上述现有技术存在的不足之处，提出一种基于孪生网络和注意力机制的轻量化无人机实时目标跟踪方法，以期能提高模型主干网络的特征提取能力，提升算法在无人机场景下的运行速度的同时，提高对尺度较小的跟踪目标的跟踪精度，为后续使用无人机进行实时目标跟踪提供支持，对目标跟踪算法在无人机场景下的应用具有重要意义。

2、本发明为达到上述发明目的，采用如下技术方案：

3、本发明一种基于孪生网络和注意力机制的轻量化无人机实时目标跟踪方法的特点在于，包括以下步骤：

4、步骤1：获取带有目标位置信息和目标前景背景分类信息的n个无人机航拍视频数据集并进行裁剪、缩放填充的预处理后，得到预处理后的无人数据集机航拍视频数据集{k1,k2,...,kn,...,kn}；其中，kn表示预处理后的第n个无人机航拍视频，且kn,j表示第n个无人机航拍视频kn中的第j帧图像，n表示无人机航拍视频的总数，mn表示第n个无人机航拍视频kn的总帧数；

5、步骤2：构建目标跟踪网络，包括：主干网络、特征增强网络、特征融合网络、输出端；

6、步骤2.1、所述主干网络包括：模板图像特征提取分支和搜索图像特征提取分支；

7、所述模板图像特征提取分支对kn,1进行特征提取，得到第1帧模板图像特征图

8、所述搜索图像特征提取分支对kn,j进行特征提取，得到第j帧搜索图像特征图其中j∈[2,mn]；

9、步骤2.2、所述特征增强网络包括：一个csam注意力机制层和一个clpam注意力机制层；

10、分别经过csam注意力机制层和clpam注意力机制层的处理后，相应得到第1帧模板图像通道位移增强图和第1帧模板图像局部高频特征增强图

11、分别经过csam注意力机制层和clpam注意力机制层的处理后，相应得到第j帧搜索图像通道位移增强图和第j帧搜索图像局部高频特征增强图

12、步骤2.3、所述特征融合网络包括：多特征融合层、下采样层和互相关层；

13、和经过多特征融合层的处理后，得到第1帧模板级联特征图再输入下采样层中进行处理后，得到第1帧模板融合特征图

14、和经过多特征融合层的处理后，得到第j帧搜索级联特征图再输入下采样层中进行处理后，得到第j帧搜索融合特征图

15、所述互相关层将分别与进行点阵卷积互相关操作后，输出第j帧目标跟踪特征图nn,j∈rh×w×c；h表示特征图的高度，w表示特征图的宽度，c表示通道数；

16、步骤2.4、所述输出端包括：分类回归任务解耦模块、目标预选框计算模块；

17、所述分类回归解耦模块对nn,j进行处理，输出第j帧分类特征图和第j帧回归特征图其中，w表示分类和回归特征图的宽度，h表示分类和回归特征图的高度；

18、所述目标预选框计算模块对和进行处理，得到预测的第j帧跟踪目标位置信息和目标前景背景分类信息；

19、步骤3、构建损失函数：

20、基于数据集中标注的目标位置信息和模型预测的跟踪目标位置信息构建iouloss损失；

21、基于数据集标注的目标前景背景分类信息和模型预测的前景背景分类的信息使用交叉熵构建分类损失；

22、步骤4、采用随机梯度下降法对所述目标跟踪网络进行训练，并计算iou loss损失和分类损失以更新网络参数，直到两个损失收敛或达到最大迭代次数后，停止训练，从而生成最优参数所对应目标跟踪模型，用于对跟踪目标在图像中的位置进行预测，得到跟踪的目标位置。

23、本发明所述的轻量化无人机实时目标跟踪方法的特点也在于，所述步骤2.2中的csam注意力机制层依次由通道位移模块和一个splitattention模块组成；

24、所述通道位移模块利用式(1)得到第j帧搜索图像在第i个通道上的位移特征图

25、

26、式(1)中，mlp表示多层感知机；spatial shifti表示第i个通道的位移操作；

27、所述splitattention模块利用式(2)得到第j帧搜索图像通道位移增强图

28、

29、式(2)中，1是全1的n维行向量，σ是gelu激活函数，w1和w2表示多层感知机mlp的两个权重；

30、所述clpam注意力机制层利用全连接层对进行线性变换操作，得到查询特征匹配特征和信息特征再对进行深度卷积操作，得到聚合特征从而利用式(3)得到第j帧搜索图像局部高频特征增强图

31、

32、式(3)中，⊙表示hardmard乘积，fc表示全连接层，dwconv为深度卷积，d为通道数，tanh为双曲正切函数，表示对查询特征和匹配特征进行一系列操作后得到的上下文感知权重，add表示元素相加，swish和softmax表示两种不同的激活函数。

33、所述步骤2.3中的互相关层利用式(4)得到；

34、

35、式(4)中，表示搜索图像特征图中第u行第v列位置，表示模板图像特征图的第k行第l列位置，m，n分别表示模板融合特征图的高度和宽度。

36、所述步骤3中的分类回归解耦模块利用式(5)得到和

37、

38、式(5)中，maxpool代表最大池化操作，conv1、conv2、conv3表示三种不同卷积核的卷积操作，softmax表示激活函数。

39、本发明一种电子设备，包括存储器以及处理器的特点在于，所述存储器用于存储支持处理器执行所述轻量化无人机实时目标跟踪方法的程序，所述处理器被配置为用于执行所述存储器中存储的程序。

40、本发明一种计算机可读存储介质，计算机可读存储介质上存储有计算机程序的特点在于，所述计算机程序被处理器运行时执行所述轻量化无人机实时目标跟踪方法的步骤。

41、与现有技术相比，本发明的有益效果在于：

42、1、本发明使用轻量化主干网络mobilenetv3作为主干，与传统深度神经网络主干相比，它具有参数少、计算量小、推理时间短的特点，更适用于存储空间和计算受限的无人机场景。

43、2、本发明在特征增强网络中构建csam注意力机制层和clpam注意力机制层，在孪生网络主干网后嵌入注意力机制得到待跟踪的目标特征图，从空间和通道两个维度增强无人机图像中目标的特征信息表达，使模型可以聚焦于目标本身，减少了复杂背景的干扰。csam的通道位移模块能够让不同维度的通道从相邻的通道中吸收视觉内容，可以实现空间位置间的通信，让网络更好的理解输入数据的空间结构，提高了对空间关系的感知，有助于更精确地捕捉细粒度的视觉信息，更好的应对小目标。clpam利用具有共享权重的深度卷积来提取局部表示，并利用上下文感知权重来增强局部特征，这使得网络在面对局部复杂环境时任然能够有效的提取局部特征，并提高了局部特征的表达能力以及目标跟踪的精度。

44、3、本发明利用具有不同大小卷积和的分类回归解耦模块将目标跟踪的分类和回归任务解耦，利用小核卷积完成对物体边缘信息更加敏感的回归任务，利用大核卷积层完成对跟踪目标前景和背景区分的分类任务，提高了模型对前景背景分类的准确性，尤其是提高了细粒度跟踪目标的边界框回归的准确度。