技术新讯 > 计算推算,计数设备的制造及其应用技术 > 一种目标跟踪方法、装置、设备及存储介质 > 正文

一种目标跟踪方法、装置、设备及存储介质

国知局
2024-08-05 11:37:55

本技术涉及计算机视觉，尤其涉及一种目标跟踪方法、装置、设备及存储介质。

背景技术：

1、视频目标跟踪的研究和应用作为计算机视觉领域的一个重要分支，已被广泛地应用到航空航天、自动驾驶、视频监控等多个领域。通过单目标跟踪可以在视频序列中准确的定位和跟踪一个指定的目标对象，可以根据目标的外观、运动姿态和尺寸等方面进行建模，进而在不同的视频帧中追踪得到目标的位置，并且要求即使在目标发生遮挡、形变、光照变化的情况下也能准确的追踪目标的运动轨迹。

2、目前，单目标视频跟踪方法通常有两种：一种是基于孪生网络的单目标视频跟踪方法，但这种跟踪方法的跟踪模板仅在视频第一帧图像中获取，导致该模版的特征不适用于后续帧图像中目标发生较大变化时的跟踪，得到的跟踪结果不够准确。而另一种常用的单目标视频跟踪方法则是采用以转换器(transformer)模型为基础的单目标视频跟踪方法，但这种跟踪方法的计算复杂度高、模型体积大、对硬件要求较高，模型的效率较低。

技术实现思路

1、本技术实施例提供一种目标跟踪方法、装置、设备及存储介质，用以解决相关技术中计算复杂度高、模型体积大、对硬件要求较高，模型运行效率较低的缺陷，所述技术方案如下：

2、第一方面，本技术实施例提供一种目标跟踪方法，所述方法包括：

3、基于待跟踪视频获取模板图像和搜索图像；

4、将所述模板图像、所述搜索图像以及预设的第一任务向量输入预训练的transformer模型中，通过所述预训练的transformer模型提取所述模板图像和所述搜索图像的特征并将所述特征压缩至所述第一任务向量中，获取第二任务向量；

5、获取所述预训练的transformer模型基于所述第二任务向量输出的包含目标跟踪结果框的词向量序列；

6、基于所述词向量序列确定跟踪目标在所述待跟踪视频的对应视频帧中的位置；

7、其中，所述第一任务向量在所述预训练的transformer模型的训练过程中训练得到。

8、在第一方面的一种可选方案中，所述将所述模板图像、所述搜索图像以及所述第一任务向量输入预训练的transformer模型中，包括：

9、将所述模板图像和所述搜索图像进行分割并扁平化为对应的模板图像向量和搜索图像向量；

10、在模板图像向量、搜索图像向量以及所述第一任务向量的基础上加上对应的位置编码，输出处理后的向量；

11、将所述处理后的向量输入所述预训练的transformer模型中。

12、在第一方面的一种可选方案中，所述基于待跟踪视频获取模板图像和搜索图像，包括：

13、将所述待跟踪视频的预设帧作为所述模板图像；

14、将所述待跟踪视频的当前帧作为所述搜索图像。

15、在第一方面的一种可选方案中，所述通过所述预训练的transformer模型提取所述模板图像和所述搜索图像的特征并将所述特征压缩至所述第一任务向量中，获取第二任务向量，包括：

16、通过所述预训练的transformer模型的编码器模块提取所述模板图像的模板图像信息和所述搜索图像的搜索图像信息，将所述模板图像信息和所述搜索图像信息压缩至所述第一任务向量中，获取所述第二任务向量。

17、在第一方面的一种可选方案中，所述将所述模板图像信息和所述搜索图像信息压缩至所述第一任务向量，获取所述第二任务向量后，还包括：

18、基于所述第二任务向量生成对应的任务向量注意力；

19、所述获取所述预训练的transformer模型基于所述第二任务向量输出的包含目标跟踪结果框的词向量序列，包括：

20、将所述任务向量注意力输入所述预训练的transformer模型的解码器模块；

21、获取解码器模块根据所述任务向量注意力生成的包含目标跟踪结果框的词向量序列。

22、在第一方面的一种可选方案中，所述基于所述词向量序列确定跟踪目标在所述待跟踪视频的对应视频帧中的位置之后，还包括：

23、计算所述待跟踪视频的每个视频帧中的目标跟踪结果框的置信度；

24、获取最大数值的置信度对应的视频帧，基于所述最大数值的置信度对应的视频帧生成新的模板图像；

25、将所述模板图像替换为所述新的模板图像。

26、在第一方面的一种可选方案中，所述获取最大数值的置信度对应的视频帧，基于所述最大数值的置信度对应的视频帧生成新的模板图像，包括：

27、将所述待跟踪视频划分为多个视频帧序列，获取所述视频帧序列中每个视频帧对应的置信度；

28、确定当前视频帧序列中最大数值的置信度对应的视频帧，基于所述最大数值的置信度对应的视频帧生成所述新的模板图像；

29、所述将所述模板图像替换为所述新的模板图像之后，还包括：

30、基于下一个相邻的视频帧序列确定对应的搜索图像，执行所述将所述模板图像、所述搜索图像以及预设的第一任务向量输入预训练的transformer模型中的步骤，直至确定跟踪目标在所述下一个连续视频帧序列的对应视频帧中的位置。

31、第二方面，本技术实施例还提供一种目标跟踪装置，包括：

32、图像获取模块，用于基于待跟踪视频获取模板图像和搜索图像；

33、输入模块，用于将所述模板图像、所述搜索图像以及预设的第一任务向量输入预训练的transformer模型中，通过所述预训练的transformer模型提取所述模板图像和所述搜索图像的特征并将所述特征压缩至所述第一任务向量中，获取第二任务向量；

34、输出模块，用于获取所述预训练的transformer模型基于所述第二任务向量输出的包含目标跟踪结果框的词向量序列；

35、位置跟踪模块，用于基于所述词向量序列确定跟踪目标在所述待跟踪视频的对应视频帧中的位置。

36、第三方面，本技术实施例还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现本技术实施例第一方面或第一方面的任意一种实现方式提供的方法。

37、第四方面，本技术还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现本技术实施例第一方面或第一方面的任意一种实现方式提供的方法。

38、本技术一些实施例提供的技术方案带来的有益效果至少包括：

39、本技术实施例提供的一种目标跟踪方法，通过将模板图像、搜索图像以及预设的第一任务向量输入预训练的transformer模型中，从而利用transformer模型将模板图像和搜索图像的特征压缩至第一任务向量中，得到第二任务向量，通过这样的设置，只需要基于第二任务向量进行后续的解码计算，能够有效的降低计算的复杂度，进而实现轻量化的目标跟踪算法；通过任务向量，可以避免引入过多的参数，从而简化了模型架构并提高了灵活性，避免了transformer模型的计算复杂度较高的缺点。