一种参考点先验位置嵌入与自适应更新的多目标跟踪方法与流程
- 国知局
- 2024-12-26 14:48:09
本发明涉及机器视觉,尤其涉及一种参考点先验位置嵌入与自适应更新的多目标跟踪方法。
背景技术:
1、视频多目标跟踪(multi-object tracking,mot)是计算机视觉领域极具有挑战性的问题。mot技术通过对视频序列中多个目标状态进行持续跟踪,进而生成目标的运动轨迹,该技术在视频监控、自动驾驶、人机交互等领域具有重要应用前景。由于复杂场景中的遮挡、光照变化、运动模糊以及背景干扰,实现有效的多目标跟踪仍然是一个具有挑战性的问题。
2、目前,视频多目标跟踪方法主要分为基于目标检测与数据关联的跟踪方法、基于联合目标检测与数据关联的一体化跟踪方法以及基于注意力机制的跟踪方法。(1)基于目标检测与数据关联的跟踪方法在目标检测结果的基础上进行数据关联,属于两阶段多目标跟踪。因此,模型跟踪效果很大程度上依赖于检测器性能,在频繁遮挡、外观变化等复杂场景下的跟踪稳健性尚存在不足。(2)基于联合目标检测与数据关联的一体化跟踪方法将目标检测和数据关联结合在一起,实现一体化的多目标跟踪;该类跟踪方法的主要问题在于目标检测与数据关联子任务之间存在对抗。(3)基于注意力机制的多目标跟踪方法是一种端到端的跟踪范式,其引入object query(目标查询)和track query(跟踪查询)实现一体化的目标检测和数据关联。然而,该类跟踪方法中object query(目标查询)和track query(跟踪查询)的参考点分别存在着缺乏位置先验和不准确的问题。首先,对于object query(目标查询),其参考点由随机初始化生成,缺乏明确的位置先验信息,导致目标定位和模型优化困难。其次,对于track query(跟踪查询),其参考点被设置为上一帧中已跟踪目标的边界框中心;然而,由于目标的运动,特别是在目标高速运动和低帧率场景下,相邻视频帧之间同一目标的中心位置存在差异,导致track query(跟踪查询)的参考点与待关联目标的实际中心位置存在定位误差,进而影响数据关联性能。
3、基于注意力机制的多目标跟踪方法是当前视频多目标跟踪领域的主流方法。然而,如何解决该类跟踪方法中参考点缺乏位置先验和不准确的问题,成为当前研究亟需解决的关键问题。
技术实现思路
1、本发明提供一种参考点先验位置嵌入与自适应更新的多目标跟踪方法,解决的技术问题在于:传统基于注意力机制的多目标跟踪方法其目标查询的参考点缺乏位置先验信息,以及跟踪查询的参考点不准确,影响多目标跟踪性能。
2、为解决以上技术问题,本发明提供一种参考点先验位置嵌入与自适应更新的多目标跟踪方法,其包括:构建多目标跟踪网络;
3、所述多目标跟踪网络包括骨干网络、形变注意力网络、先验位置生成网络、跟踪参考点预测网络和预测头,所述形变注意力网络包括编码器和解码器;所述骨干网络、所述编码器和所述解码器顺序连接,所述骨干网络和所述编码器用于对输入图像分别进行特征提取和特征编码聚合,得到聚合特征输出至所述解码器;所述先验位置生成网络和所述跟踪参考点预测网络均连接所述解码器;所述先验位置生成网络用于对每一帧的初始化的目标查询产生具有先验位置信息的目标查询输出至所述解码器;所述跟踪参考点预测网络对前一帧输出的跟踪查询生成当前帧的跟踪参考点输出至所述解码器;
4、在初始帧时,所述解码器根据具有先验位置信息的目标查询和初始帧的聚合特征,生成输出嵌入至所述预测头;所述预测头根据初始帧的输出嵌入生成对应目标的边界框和类别,并初始化为后一帧的跟踪查询;
5、在非初始帧的当前帧时,所述解码器根据当前帧的跟踪参考点、前一帧的目标查询、当前帧的具有先验位置信息的目标查询,生成当前帧的输出嵌入至所述预测头,所述预测头根据当前帧的输出嵌入生成对应目标的边界框和类别,并初始化为后一帧的跟踪查询。
6、进一步地,所述先验位置生成网络生成的目标查询qdet包括内容查询cdet和位置查询pdet,位置查询pdet表示为:
7、
8、其中,rdet表示目标查询的所有参考点,gsin(·)表示位置编码操作,表示位置嵌入操作。
9、进一步地,令则pdet具体为:
10、
11、其中,w1和w2分别为第一层线性映射和第二层线性映射的权值,b1和b2分别为第一层线性映射和第二层线性映射的偏置项,relu(·)表示relu激活函数。
12、进一步地,所述跟踪参考点预测网络对当前帧的所有跟踪参考点rtck进行调整,得到调整后的参考点
13、
14、其中,δrtck为基于跟踪查询qtck预测的跟踪参考点偏移量,具体表示为:
15、δrtck=ψθ(qtck)
16、其中,ψθ(·)表示跟踪参考点预测模型,θ为该模型的参数。
17、进一步地,δrtck具体表示为:
18、δrtck=ψθ(qtck)=(w5(relu(w4(relu(w3qtck+b3))+b4))+b5)
19、其中,表示跟踪参考点预测模型的第一层、第二层和第三层线性映射的权值和偏置项,即参数θ。
20、进一步地,该方法还包括:
21、对构建的所述多目标跟踪网络进行训练;
22、相邻t-1帧和t帧经过多目标跟踪网络的预测集合表示为其中n=ntck+ndet表示跟踪目标个数ntck与检测目标个数ndet的总体个数;在训练过程中,对多目标跟踪网络的优化目标为:逐个将预测集合中的预测结果与真实标签集合中的标签yj进行准确关联,k为当前帧的真实目标总个数。
23、进一步地,对预测集合和真实标签集合y的最优关联结果表示为:
24、
25、其中,表示第j个真实标签yj与第σ(j)个预测标签之间的匹配代价函数,σ(j)为预测标签的匹配索引。
26、进一步地,匹配代价函数表示为:
27、
28、其中,cj表示该j索引对应的真实标签中的具体目标,表示目标类型为cj的预测概率,λcls为超参数,为相匹配的真实标签yj的真实边界框bj与预测标签的预测边界框之间的差异。
29、进一步地,表示为:
30、
31、其中,表示真实边界框bj与预测边界框之间的广义交并比代价函数,‖·‖1表示1范数,λgiou和为超参数。
32、进一步地,对于预测集合总体损失函数表示为:
33、
34、本发明提供的一种参考点先验位置嵌入与自适应更新的多目标跟踪方法,在传统基于注意力机制的多目标跟踪网络架构上,构建了多目标跟踪网络用于多目标跟踪,在该多目标跟踪网络中设计了基于目标查询的参考点的先验位置生成网络,该先验位置生成网络产生具有明确先验位置信息的目标查询,该位置先验信息有助于有效的关键点采样,可解决目标查询的参考点缺乏先验位置信息的问题,进而提升目标检测性能;还设计了基于跟踪查询的参考点的跟踪参考点预测网络,该跟踪参考点预测网络对跟踪查询生成新的跟踪查询参考点,可有效减小跟踪参考点位置与目标中心位置的偏差,实现跟踪参考点的准确定位,进而提升目标跟踪性能。
本文地址:https://www.jishuxx.com/zhuanli/20241226/343490.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。