一种可解耦的端到端多目标跟踪方法及装置与流程
- 国知局
- 2024-10-09 15:16:46
本发明涉及计算机视觉,更具体地说,涉及一种可解耦的端到端多目标跟踪方法及装置。
背景技术:
1、近年来,计算机视觉在实际场景中得到越来越广泛的应用。多目标跟踪作为分类、定位和目标重识别的综合性任务,在自动驾驶、安防监控、视频理解等方面发挥着重要作用。随着深度学习的发展,多目标跟踪模型开始从两阶段的基于检测的跟踪架构逐渐过渡到一阶段的端到端跟踪架构,使得模型结构更加简洁、数据利用方式更加高效。一阶段的端到端跟踪框架主要聚焦于检测信息和关联信息的高效融合,既需要新物体能够被及时检测到,又需要已出现的物体被稳定跟踪,然而这些方法在处理这两类信息过程中产生了严重的耦合现象,造成检测任务和关联任务的冲突,从而极大地增加了模型的优化难度。在极少的一阶段可解耦的端到端多目标跟踪方法中,通过规则式匹配算法处理检测信息和关联信息,因此需要手工设置超参数,无法根据数据完全自适应调整模型,难以应对目标聚集、遮挡等复杂场景,并使得模型的部署成本增加,应用范围受限。
2、经检索,中国专利申请,申请号202210239608.4,公开日2022年8月16日,公开了一种多目标跟踪方法、装置、电子设备、存储介质和产品。该方法包括:获取待测视频;将所述待测视频输入端到端多目标跟踪模型,得到所述端到端多目标跟踪模型输出的所述待测视频包含的多目标信息;其中,所述多目标信息包括目标所在检测框和目标身份信息,所述端到端多目标模型是基于视频样本数据集训练得到的,所述端到端多目标模型训练过程中提取的特征为根据所述视频样本数据集提取的基于历史轨迹特征的增强特征。该方法通过端到端多目标跟踪模型整合目标检测分支、特征分支及身份关联分支,解决了现有技术中多目标跟踪结果不准确的缺陷,提升了多目标检测精度。但是该方法所使用的模型构建成本较高,且该模型无法根据数据特点进行自适应调整,不具有较强的实用性和适用广泛性。
技术实现思路
1、1.要解决的技术问题
2、针对现有技术中存在的端到端多目标跟踪模型无法根据数据自适应调整导致检测任务和关联任务存在耦合、冲突等问题,本发明提供了一种可解耦的端到端多目标跟踪方法及装置,通过自适应信息交互的可解耦的端到端多目标跟踪模型实现对传统可解耦端到端多目标跟踪模型中检测任务和关联任务信息的自适应交互,降低检测任务和关联任务的冲突,提高端到端多目标跟踪模型的学习效率,增强端到端多目标跟踪模型对不同场景的适应能力。
3、2.技术方案
4、本发明的目的通过以下技术方案实现。
5、一种可解耦的端到端多目标跟踪方法,包括以下步骤:
6、构建端到端多目标跟踪模型,端到端多目标跟踪模型包括目标检测器、自适应信息交互模块、关联器和跟踪头网络;
7、获取待测视频,将待测视频输入目标检测器中逐帧检测得到每一帧图像的编码器嵌入向量、特征图位置编码向量、检测嵌入向量和检测结果;
8、对于待测视频中的第一帧图像,将第一帧图像的编码器嵌入向量、特征图位置编码向量、检测嵌入向量和检测结果输入关联器中得到关联嵌入向量,将关联嵌入向量输入到跟踪头网络中得到跟踪结果;
9、从待测视频中的第二帧图像开始,通过自适应信息交互模块对上一帧图像的跟踪结果和当前帧图像的检测嵌入向量、检测结果进行交互,将交互后的上一帧图像的跟踪结果和当前帧图像的检测嵌入向量、检测结果以及当前帧图像的编码器嵌入向量、特征图位置编码向量输入关联器中得到关联嵌入向量,将关联嵌入向量输入跟踪头网络中得到当前帧图像的跟踪结果。
10、进一步地,设定分类置信度阈值,在第一帧图像中,将分类置信度高于分类置信度阈值的跟踪结果标记为新出现物体,加入跟踪序列,将新出现物体的关联嵌入向量作为跟踪嵌入向量,将对应的定位信息作为跟踪采样点坐标。
11、进一步地,自适应信息交互模块包括检测-跟踪信息转移模块、检测-跟踪信息抑制模块和特征-采样点对齐模块;
12、检测-跟踪信息转移模块包括多头交叉注意力模块和前向连接网络;多头交叉注意力模块计算跟踪嵌入向量和检测嵌入向量的相似度,基于相似度对检测嵌入向量进行加权求和,利用残差连接作用于跟踪嵌入向量,通过前向连接网络更新跟踪嵌入向量,其过程表示为:
13、
14、te2=ffntm(normtm(te1+oe1))
15、其中,表示带有位置信息的第一跟踪嵌入向量,te1表示第一跟踪嵌入向量,pe(tref1)表示对第一跟踪采样点坐标进行位置编码,表示带有位置信息的第一检测嵌入向量,de1表示第一检测嵌入向量,pe(dref1)表示对第一检测采样点坐标进行位置编码,oe1表示基于相似度对第一检测嵌入向量进行加权求和得到的结果,cross attn表示多头交叉注意力模块,q表示查询向量,k表示键向量,v表示值向量,te2表示第二跟踪嵌入向量,ffntm表示检测-跟踪信息转移模块中的前向连接网络,normtm表示检测-跟踪信息转移模块中的标准化操作。
16、进一步地,检测-跟踪信息抑制模块包括多头自注意力模块和前向连接网络;检测-跟踪信息抑制模块自适应抑制跟踪嵌入向量和检测嵌入向量中的相似信息,其过程表示为:
17、me1=(te1,de1)
18、
19、(-,de2)=ffnsm(normsm(me1+oe2))
20、其中,me1表示第一混合嵌入向量,表示带有位置信息和标记信息的跟踪嵌入向量,表示带有位置信息和标记信息的混合嵌入向量,oe2表示对第一跟踪嵌入向量和第一检测嵌入向量中的相似信息自适应抑制后得到的结果,selfattn表示多头自注意力模块,(-,de)表示只取更新后的检测嵌入向量,ffnsm表示检测-跟踪信息抑制模块中的前向连接网络,normsm表示检测-跟踪信息抑制模块中的标准化操作。
21、进一步地,特征-采样点对齐模块包括动态锚框交叉注意力模块、前向连接网络和位置更新子网络,特征-采样点对齐模块将交互后的跟踪嵌入向量和检测嵌入向量对齐,其过程表示为:
22、
23、me2=(te2,de2)
24、
25、(te3,de3)=ffnpcam(normpcam(me+oe3))
26、(tref2,dref2)=mlppun(oe3)+(tref1,dref1)
27、其中,表示带有位置信息的第二跟踪嵌入向量,表示带有位置信息的第二检测嵌入向量,de2表示第二检测嵌入向量,表示带有位置信息的混合嵌入向量,me2表示第二混合嵌入向量,oe3表示检测交叉注意力模块输出结果,dabcrossattn表示动态锚框交叉注意力模块,te3表示第三跟踪嵌入向量,de3表示第三检测嵌入向量,ffnpcam表示特征-采样点对齐模块中的前向连接网络,normpcam表示特征-采样点对齐模块中的标准化操作,tref2表示第二跟踪采样点坐标,dref2表示第二检测采样点坐标,mlppun表示位置更新子网络。
28、进一步地,从待测视频中的第二帧图像开始,将分类置信度高于分类置信度阈值的跟踪结果标记为正预测,将检测嵌入向量对应的正预测标记为新出现物体,加入跟踪序列,将所有正预测对应的关联嵌入向量作为跟踪嵌入向量,将所有正预测对应的跟踪结果作为跟踪采样点坐标;正预测判别方式为:
29、
30、其中,pospre表示正预测,i表示预测索引号,pi表示第i个预测中的最大类别概率值,bi表示第i个预测中的位置信息,si表示第i个预测中的分类置信度,σ表示分类置信度阈值,表示所有预测中的最大类别概率值,表示所有预测中的位置信息;
31、将分类置信度不高于分类置信度阈值的跟踪结果标记为负预测,标记新出现物体为消失状态,将连续消失超过m帧的新出现物体从跟踪序列中注销;负预测判别方式为:
32、
33、其中,negpre表示负预测。
34、进一步地,在训练阶段,以间隔τ对待测视频进行采样,将采样得到的连续t帧作为一个视频片段,以视频片段为单位,标注视频片段的分类真值标签、定位真值标签,根据跟踪头网络输出的跟踪结果和标注的分类真值标签、定位真值标签进行局部二分图匹配,根据匹配结果计算损失函数,通过梯度下降法对端到端多目标跟踪模型进行训练;
35、在推理阶段,对待测视频逐帧进行端到端多目标跟踪,并进行跟踪序列管理,将检测嵌入向量对应的正预测标记为新出现物体,加入跟踪序列;将跟踪嵌入向量对应的负预测标记为消失状态,将连续消失超过m帧的新出现物体从跟踪序列中注销。
36、一种可解耦的端到端多目标跟踪装置,包括:
37、构建模块,构建端到端多目标跟踪模型,端到端多目标跟踪模型包括目标检测器、自适应信息交互模块、关联器和跟踪头网络;
38、输入模块,获取待测视频,将待测视频输入目标检测器中逐帧检测得到每一帧图像的编码器嵌入向量、特征图位置编码向量、检测嵌入向量和检测结果;
39、检测模块,对于待测视频中的第一帧图像,将第一帧图像的编码器嵌入向量、特征图位置编码向量、检测嵌入向量和检测结果输入关联器中得到关联嵌入向量,将关联嵌入向量输入到跟踪头网络中得到跟踪结果;从待测视频中的第二帧图像开始,通过自适应信息交互模块对上一帧图像的跟踪结果和当前帧图像的检测嵌入向量、检测结果进行交互,将交互后的上一帧图像的跟踪结果和当前帧图像的检测嵌入向量、检测结果以及当前帧图像的编码器嵌入向量、特征图位置编码向量输入关联器中得到关联嵌入向量,将关联嵌入向量输入跟踪头网络中得到当前帧图像的跟踪结果。
40、一种计算机设备,包括存储器、处理器,所述存储器上存储有可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述所述的方法。
41、一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行上述所述的方法。
42、3.有益效果
43、相比于现有技术,本发明的优点在于:
44、(1)本发明的一种可解耦的端到端多目标跟踪方法及装置,通过构建自适应信息交互的可解耦的端到端多目标跟踪模型实现对传统端到端多目标跟踪模型中检测任务和关联任务的解耦,有效降低检测任务和关联任务的冲突,显著提高端到端多目标跟踪模型的学习效率。
45、(2)本发明的一种可解耦的端到端多目标跟踪方法及装置,通过构建自适应信息交互的可解耦的端到端多目标跟踪模型能够在解耦端到端多目标跟踪的同时,实现检测任务和关联信息的自适应高效融合,有效避免基于匹配类方法的手工配置超参数,加强对场景数据的高效学习和深度挖掘。
46、(3)本发明的一种可解耦的端到端多目标跟踪方法及装置,通过构建自适应信息交互的可解耦的端到端多目标跟踪模型能够简单直接的利用前沿的高性能transformer检测器,无需重新训练,可以降低端到端多目标跟踪模型的开发成本,具有较强的实用性和适用广泛性。
本文地址:https://www.jishuxx.com/zhuanli/20241009/308178.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。