一种用于无人机目标跟踪的孪生区域建议网络模型的制作方法

2022-04-02 04:32:38 来源：中国专利 TAG：

1.本发明属于无人机目标跟踪技术领域，具体涉及一种用于无人机目标跟踪的孪生区域建议网络模型。

背景技术：

2.在智能化时代，无人机被广泛应用到军事领域、无人驾驶、航空拍摄、交通监控、农药喷洒、目标跟随、人机交互和自动驾驶等领域。无人机目标跟踪是基于视频图像进行对感兴趣区域的筛选和定位，在复杂场景下，由于受到光照、遮挡以及小目标移动迅速等影响，如何满足无人机图像跟踪中的稳定性及可靠性，是当前重要的研究方向。
3.视觉跟踪的目的是根据当前视频图像第一帧给出的边界框，准确估计出目标对象在后续帧中在视频图像中的位置。基于相关滤波的目标跟踪算法起源于moss算法，首次将相关滤波引入目标跟踪的算法之中，csk算法引入核循环矩阵，通过计算高斯核相关矩阵判断相邻两帧之间的相似度，进而实现目标跟踪。kcf算法引入了核技巧以及多通道特征处理的方式进行目标跟踪，大大简化了在跟踪过程中的计算量，奠定了之后相关滤波目标跟踪算法的理论与实践基础。在2012年提出的alexnet网络是深度学习发展的里程碑，在深度学习中以siamfc为代表的相关目标跟踪算法在精度和速度可以得到很好的平衡，采用全卷积神经网络结构，通过模板帧与测试帧匹配进行相似性度量，对目标进行后续的定位。siamrpn是在siamfc的基础上通过加入rpn(region proposal network)网络，解决原始的多尺度问题；但是并没有考虑网络本身对空间信息的利用，因此，在目标发生光照变化、背景干扰以及遮挡等问题时，会发生目标漂移的情况。

技术实现要素：

4.本发明的目的在于提供一种用于无人机目标跟踪的孪生区域建议网络模型，该网络模型siamrpn网络的基础上加入条带池化模块和全局上下文网络模块，从而提升无人机目标跟踪的精准度和成功率。
5.为实现上述目的，本发明具体采用如下技术方案：
6.一种用于无人机目标跟踪的孪生区域建议网络模型，包括模板分支单元和搜索分支单元，所述模板分支单元包括第一卷积模块、条带池化模块、第二卷积模块、第三卷积模块、第一匹配模块和第一输出模块，所述搜索分支单元包括第四卷积模块、全局上下文网络模块、第五卷积模块、第六卷积模块、第二匹配模块和第二输出模块；
7.所述第一卷积模块和第四卷积模块构成孪生网络，第一卷积模块与条带池化模块连接，第四卷积模块与全局上下文网络模块连接；
8.所述第二卷积模块、第三卷积模块、第一匹配模块、第一输出模块、第五卷积模块、第六卷积模块、第二匹配模块和第二输出模块构成区域建议网络，第二卷积模块、第三卷积模块均与第一匹配模块连接，第一匹配模块与第一输出模块连接；第五卷积模块、第六卷积模块均与第二匹配模块连接，第二匹配模块与第二输出模块连接；其中，条带池化模块分别
与第二卷积模块和第五卷积模块连接，第四卷积模块与第三卷积模块连接，全局上下文网络模块与第六卷积模块连接。
9.进一步地，所述区域建议网络中分类的损失函数采用交叉熵损失函数，回归的损失函数为l1范数损失函数。
10.进一步地，所述模板分支单元输入图像大小为127
×
127
×
3，所述搜索分支单元输入图像大小为255
×
255
×
3。
11.与现有技术相比，本发明具有如下有益效果：
12.(1)加入条带池模块和全局上下文网络模块，在减少计算量的情况下，有效建立远程上下文关系，扩大主干网络感受野，完成区域建议网络的前景与背景的分类和边界框的回归；
13.(2)通过改进交并比的计算方法，在训练跟踪阶段能够有效缓解对边界框选择的问题，在训练过程中，可以得到精准的交并比计算，使得网络在非极大化抑制过程中能够筛选出精准的预测框。
14.在uav123公开数据集基准上进行测试，跟踪速度约为106帧/秒，获得0.754的准确率和0.542的成功率，尤其是在背景干扰环境下，精确率和成功率分别提升了8.29％和11.63％。
附图说明
15.图1为本发明的结构示意图。
具体实施方式
16.如图1所示，本实施例提供的一种用于无人机目标跟踪的孪生区域建议网络模型包括模板分支单元和搜索分支单元，所述模板分支单元包括第一卷积模块、条带池化模块、第二卷积模块、第三卷积模块、第一匹配模块和第一输出模块，所述搜索分支单元包括第四卷积模块、全局上下文网络模块、第五卷积模块、第六卷积模块、第二匹配模块和第二输出模块。
17.所述第一卷积模块和第四卷积模块构成孪生网络，用于输入模板图像和测试图像，进而对两个图像进行比对，实现目标跟踪，所述第一卷积模块输入模板图像，模板图像大小为127
×
127
×
3，第四卷积模块输入测试图像，测试图像大小为255
×
255
×
3。
18.所述第二卷积模块、第三卷积模块、第一匹配模块、第一输出模块、第五卷积模块、第六卷积模块、第二匹配模块和第二输出模块构成区域建议网络，区域建议网络包含两子网络：(1)进行前景和背景的分类网络，(2)进行边界框的回归网络。
19.模板分支单元输入的模板图像经过第一卷积模块输出尺寸为6
×6×
256的特征图，再通过条带池化模块对特征图进行条带池化操作，条带池化沿窗口水平和垂直方向进行池化，通过长为窄的内核可以很容易的建立远程上下文关系，扩大主干网络的感受野有利于跟踪过程中目标和背景的分类，因此，条带池可以帮助孪生网络在跟踪过程中捕捉上下文关系，进而可针对目标特征提取进行空间维度加权，使得网络对目标位置自动分配较大比例的权重，增强网络对目标的判别能力，使网络进一步解析跟踪场景。经过条带池化后的特征图分别输入到第二卷积模块和第五卷积模块中。
20.所述搜索分支单元输入的测试图像经过第四卷积模块处理后输出6
×6×
256的特征图，该特征图同时输入到第三卷积模块和全局上下文网络模块，全局上下文网络模块可更好的建立网络远程上下文的依赖关系，并加深网络的在当前无人机跟踪场景中的全局理解能力，自动提升与目标特征相关的通道比重，同时降低与目标特征无关的通道比重，改变不同通道之间的依赖性，使得边界框回归的更精准。
21.第二卷积模块和第三卷积模块输出的特征图输入到第一匹配模块匹配后通过第一输出模块输出；第五卷积模块和第六卷积模块输出的特征图输入到第二匹配模块匹配后通过第二输出模块输出。
22.边界框的预测直接影响视频跟踪的性能，交并比(intersection over union)是目标检测常用的指标，不仅可以进行正负样本的取分，而且还可以评估输出边界预测框和目标真实边界框的距离，交并比的计算可以很好的反应跟踪过程中预测框和真实框的效果，进行后续跟踪指标的评估，本实施例采用距离交并比计算边界框，可以有效缓解交并比出现在目标检测中训练发散的问题，将最小的预测框与真实边界框进行归一化计算，使回归的边界框为更加精准。所述区域建议网络中的分类损失函数采用交叉熵损失函数(cross-entropy loss)、回归损失函数采用l1范数损失函数(smooth l1 loss)。
23.使用时，无人机跟踪步骤如下：
24.(1)加载本实施例的网络模型(dapsiamrpn)，判断网络是否为第一帧图像，在输入图像中提取视频第一帧图像大小为127
×
127
×
3作为模板分支的输入，搜索分支将图像大小为255
×
255
×
3作为搜索分支的输入。
25.(2)将输入的模板分支图像和检测分支图像经过dapsiamrpn网络中，在区域建议网络的分类分支和回归分支中进行互相关运算，生成最后的响应k个特征图和2k个回归的边界框，得到目标和背景的分类得分，通过边界框的回归，优化边界框的大小，得到目标的位置。
26.(3)在后续的视频图像中，扩大搜索区域，通过检测分支，找到与上一帧视频图像响应最大的特征图，进行后续的跟踪。如果跟踪模板需要更新，则重复上述步骤。最终判断是否为最后一帧图像，如果是，则跟踪结束。
27.仿真实验
28.实验平台为ubuntu16.04 lts系统，运用pytorch为1.4版本的深度学习框架，设备为inter core i7-9700f cpu 3.00ghz
×
8，采用单gpu为geforce gtx 2060super 8g。
29.本次实验的训练数据是从ilsvrc2017_vid数据集和youtube-bb数据集中提取的符合跟踪场景的视频数据，在ilsvrc2017_vid提取44976个视频序列，从youtube-bb提取904个视频序列，一共有一百多万张带有真实标签的视频图像，训练过程中，采用alexnet网络作为预训练模型，并且作为主干网络进行视频图像的特征提取，然后进行20轮训练,每一轮进行12000次迭代，训练总时长为13个小时，随机梯度下降采用随机梯度下降法(sgd),动量设置为0.9，为防止训练过程中出现梯度爆炸，梯度裁剪设置为10，设置动态学习率从0.03下降到0.00001，候选框采用五种比例分别为0.33，0.5，1，2，3。仅仅在视频第一帧时送入模板分支进行模板采集，后续帧都是经过搜索分支送入区域建议网络进行分类和回归，得到响应最大的位置及所在的边界框，为后续帧的跟踪做准备，最终完成整个跟踪任务。
30.为了验证本实施例的有效性，本次实验测试数据选取uav123数据集，uav123数据
集是无人机在低空状态下所采集的数据，具有123个视频序列，总量超过110千帧，包含各种各样的跟踪场景，例如人、船只、汽车和建筑等。涉及到多种属性的变化，例如光照变化、尺度变化、快速移动、背景模糊和遮挡等12种不同类型。无人机在跟踪过程中出现相机抖动、尺度多变以及跟踪场景和相机拍摄角度不一致的情况常发生，导致跟踪困难，具有很大难度的挑战性。跟踪性能主要有成功率和精确率两个评价标准，成功率是指边界框与真实标注的边界框的重叠面积大于所设定的阈值占当前视频图像总边界框数量的比例，精确率是指边界框距离真实边界框的中心误差小于所设定阈值占当前视频图像总边界框数量的比例。
31.本次实验中当交并比设定大于0.6时，视为正样本，当小于0.3时视为负样本，在一个视频图像中计算出的边界框出来的候选边界框有1805个，由于数量过大，因此，在一组训练过程中限制总样本数量一共为256个，正样本数量与负样本数量比例为1比3。本实施例在无人机数据集测试时长为1064秒，帧率约106帧/秒，原始siamrpn测试时长为1066秒，帧率约为106帧/秒，本实施例比原始siamrpn快2秒。本实施例提升相比原始单目标跟踪算法siamrpn在背景迷糊和光照变化情况下分别提升8.29％精准率、11.63％成功率和5.87％的精准率、10.9％的成功率。而且同样优于其他主流目标跟踪算法，因为在模板分支种加入条带池模块，可以加强空间语义对主干网络的依赖性，可以适应光照的变化。同时，在搜索分支种加入上下文网络块输入区域建议网络的回归分，加强网络对全局上下文的理解能力，使回归的边界框更精准，因此，本实施例在背景模糊和光照变化较大的情况下可以达到很好的跟踪效果。
32.以上所述仅是本发明优选的实施方式，但本发明的保护范围并不局限于此，任何基于本发明所提供的技术方案和发明构思进行的改造和替换都应涵盖在本发明的保护范围内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：年龄预测方法、装置、电子设备及存储介质与流程

一种用于无人机目标跟踪的孪生区域建议网络模型的制作方法

相关文献

最热文献