一种单目标跟踪方法、装置、终端及存储介质

2022-09-14 23:20:50 来源：中国专利 TAG：

1.本发明涉及图像处理技术领域，特别涉及一种单目标跟踪方法、装置、终端及存储介质。

背景技术：

2.目标跟踪技术在实际的生产与生活场景中有着广泛的应用。比较典型的应用场景有智能视频监控系统、智能人机交互、智能交通和视觉导航系统等。随着目标跟踪技术的应用场景越来越广泛，目标跟踪模型需要面对越来越多的复杂场景。但是，现有的目标跟踪模型的准确性不高。
3.因此，现有技术还有待改进和提高。

技术实现要素：

4.针对现有技术的上述缺陷，本发明提供一种单目标跟踪方法、装置、终端及存储介质，旨在解决现有技术中目标跟踪模型的准确性不高问题。
5.为了解决上述技术问题，本发明所采用的技术方案如下：
6.本发明的第一方面，提供一种单目标跟踪方法，所述方法包括：
7.将参考图像输入至特征提取网络，获取所述特征提取网络输出的第一特征图像，将待跟踪图像输入至所述特征提取网络，获取所述特征提取网络输出的第二特征图像，其中，所述参考图像中包括目标标记信息；
8.将所述第一特征图像输入至编码器，获取所述编码器输出的中间特征图像；
9.将所述中间特征图像和所述第二特征图像输入至解码器，得到所述解码器的输出数据，根据所述解码器的输出数据确定所述待跟踪图像中的目标跟踪结果，其中，所述解码器中包括了互相关运算。
10.所述的单目标跟踪方法，其中，所述将待跟踪图像输入至所述特征提取网络之前，还包括：
11.根据第一图像的目标跟踪结果，对初始待跟踪图像进行预处理，得到所述待跟踪图像；
12.所述第一图像为所述初始待跟踪图像的前一帧。
13.所述的单目标跟踪方法，其中，所述对初始待跟踪图像进行预处理，包括：
14.在所述初始待跟踪图像中裁剪出部分区域作为所述待跟踪图像；
15.其中，所述待跟踪图像的中心点坐标与所述第一图像中的目标的中心点坐标相同，所述待跟踪图像的面积为所述第一图像中的目标所占区域的面积的n倍，n＞1。
16.所述的单目标跟踪方法，其中，所述将所述中间特征图像和所述第二特征图像输入至解码器，得到所述解码器的输出数据，包括：
17.对所述中间特征图像进行拆解，得到多个第一中间特征和多个第二中间特征；
18.其中，每个所述第一中间特征的大小为c*1*1，c为所述中间特征图像的通道个数，
第j个所述第一中间特征中的特征值为所述中间特征图像中每个通道中第j个像素点位置的特征值；每个所述第二中间特征的大小为h0w0*1*1,h0和w0分别为所述中间特征图像中每个通道中图像的长和宽，第i个所述第二中间特征中的特征值为所述中间特征图像中第i个通道中的特征值；
19.在所述解码器中，根据所述第一中间特征、所述第二中间特征和所述第二特征图像执行互相关运算，根据互相关运算的结果得到所述解码器的输出数据。
20.所述的单目标跟踪方法，其中，所述根据所述第一中间特征、所述第二中间特征和所述第二特征图像执行互相关运算，包括：
21.将所述第二特征图像输入至所述解码器中的多头注意力模块，获取注意力特征；
22.将所述注意力特征和所述第一中间特征进行第一次互相关运算，得到第一互相关运算结果；
23.将所述第一互相关运算结果和所述第二中间特征进行第二次互相关运算，得到第二互相关运算结果。
24.所述的单目标跟踪方法，其中，所述第一次互相关运算的公式为：
[0025][0026]
其中，*表示互相关运算；表示所述注意力特征；h和w分别为所述注意力特征中每个通道中特征图的长和宽；tj为第j个所述第一中间特征；p为所述第一互相关运算结果，所述第一互相关运算由多条第一数据组成，pj为第j个第一数据；
[0027]
所述第二次互相关运算的公式为：
[0028]
o＝{oi|oi＝ti*p}
i∈{1，...，c}
；
[0029]
其中，ti为第i个所述第二中间特征；o为所述第二互相关运算结果，所述第二互相关运算由多条第二数据组成，oi为第i个第二数据。
[0030]
所述的单目标跟踪方法，其中，所述解码器的输出数据包括目标候选结果和所述目标候选结果对应的匹配度；所述根据所述解码器的输出数据确定所述待跟踪图像中的目标跟踪结果，包括：
[0031]
根据所述目标候选结果对应的匹配度，选择所述匹配度最高的所述目标候选结果作为所述目标跟踪。
[0032]
本发明的第二方面，提供一种单目标跟踪装置，包括：
[0033]
特征提取模块，所述特征提取模用于将参考图像输入至特征提取网络，获取所述特征提取网络输出的第一特征图像，将待跟踪图像输入至所述特征提取网络，获取所述特征提取网络输出的第二特征图像，其中，所述参考图像中包括目标标记信息；
[0034]
中间特征获取模块，所述中间特征获取模块用于将所述第一特征图像输入至编码器，获取所述编码器输出的中间特征图像；
[0035]
跟踪结果获取模块，所述跟踪结果获取模块用于将所述中间特征图像和所述第二特征图像输入至解码器，得到所述解码器的输出数据，根据所述解码器的输出数据确定所述待跟踪图像中的目标跟踪结果，其中，所述解码器中包括了互相关运算。
[0036]
本发明的第三方面，提供一种终端，所述终端包括处理器、与处理器通信连接的计算机可读存储介质，所述计算机可读存储介质适于存储多条指令，所述处理器适于调用所
述计算机可读存储介质中的指令，以执行实现上述任一项所述的单目标跟踪方法的步骤。
[0037]
本发明的第四方面，提供一种计算机可读存储介质，所述计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现上述任一项所述的单目标跟踪方法的步骤。
[0038]
与现有技术相比，本发明提供了一种单目标跟踪方法，所述的单目标跟踪方法，将参考图像输入至特征提取网络，获取所述特征提取网络输出的第一特征图像，将待跟踪图像输入至所述特征提取网络，获取所述特征提取网络输出的第二特征图像，其中，所述参考图像中包括目标标记信息；将所述第一特征图像输入至编码器，获取所述编码器输出的中间特征图像；将所述中间特征图像和所述第二特征图像输入至解码器，得到所述解码器的输出数据，根据所述解码器的输出数据确定所述待跟踪图像中的目标跟踪结果，其中，所述解码器中包括了互相关运算。本发明在对待跟踪图像中的目标进行跟踪时，在解码器中结合了互相关运算，实现了更精确的特征融合，减少了背景或者其他信息的干扰。
附图说明
[0039]
图1为本发明提供的单目标跟踪方法的实施例的流程图；
[0040]
图2为本发明提供的单目标跟踪方法的实施例的模型结构图；
[0041]
图3为本发明提供的单目标跟踪方法的实施例的两阶段互相关示意图；
[0042]
图4为本发明提供的单目标跟踪方法的实施例的两阶段互相关示意图；
[0043]
图5为本发明提供的单目标跟踪装置的实施例的结构原理图；
[0044]
图6为本发明提供的终端的实施例的原理示意图。
具体实施方式
[0045]
为使本发明的目的、技术方案及效果更加清楚、明确，以下参照附图并举实施例对本发明进一步详细说明。应当理解，此处所描述的具体实施例仅用以解释本发明，并不用于限定本发明。
[0046]
本技术领域技术人员可以理解，除非特意声明，这里使用的单数形式
’“
一”、“一个”、“所述”和“该”也可包括复数形式。应该进一步理解的是，本发明的说明书中使用的措辞“包括”是指存在所述特征、整数、步骤、操作、元件和/或组件，但是并不排除存在或添加一个或多个其他特征、整数、步骤、操作、元件、组件和/或它们的组。应该理解，当我们称元件被“连接”或“耦接”到另一元件时，它可以直接连接或耦接到其他元件，或者也可以存在中间元件。此外，这里使用的“连接”或“耦接”可以包括无线连接或无线耦接。这里使用的措辞“和/或”包括一个或更多个相关联的列出项的全部或任一单元和全部组合。
[0047]
本技术领域技术人员可以理解，除非另外定义，这里使用的所有术语(包括技术术语和科学术语)，具有与本发明所属领域中的普通技术人员的一般理解相同的意义。还应该理解的是，诸如通用字典中定义的那些术语，应该被理解为具有与现有技术的上下文中的意义一致的意义，并且除非像这里一样被特定定义，否则不会用理想化或过于正式的含义来解释。
[0048]
本发明提供的单目标跟踪方法，可以应用于具有计算能力的终端中，终端可以执行本发明提供的单目标跟踪方法在视频序列中对目标进行跟踪。
[0049]
实施例一
[0050]
本实施例是一种单目标跟踪方法。在进行目标跟踪时，构建基于transfomer与互相关结合的单目标追踪模型，模型以搜索区域(search region)和模板(template)作为输入，两个分支首先经过相同结构的骨干网络(backbone)进行特征提取，然后经过结合互相关的transformer进行进一步的特征提取和特征融合，最后由两个分支分别输出分类和回归的预测。最终的结果由分类值的大小进行筛选，经过后处理加工之后生成最终的跟踪结果。
[0051]
如图1所示，本发明提供的单目标跟踪方法的一个实施例中，所述单目标跟踪包括步骤：
[0052]
s100、将参考图像输入至特征提取网络，获取所述特征提取网络输出的第一特征图像，将待跟踪图像输入至所述特征提取网络，获取所述特征提取网络输出的第二特征图像，其中，所述参考图像中包括目标标记信息。
[0053]
参照图2，本实施例所采用的单目标跟踪模型为双分支输入，两个分支分别为模板和搜索区域，模板即为所述参考图像，搜索区域则为待跟踪图像，其中，在本实施例中，所述参考图像为视频序列里的第一帧，所述参考图像包括目标标记信息，所述目标标记信息为人工用方框标注的标记信息，即，在所述参考图像中用方框标记出了要跟踪的目标，可以理解，所述参考图像也可以为视频序列中在所述待跟踪图像前的任意一帧，在一种可能的实现方式中，可以每隔一段时间更新一次所述参考图像，使得所述参考图像中的目标标记信息能够为所述待跟踪图像中的目标跟踪提供更准确的参考信息。将所述待跟踪视频序列除了所述参考图像的每一帧依次输入本实施例中的单目标跟踪模型，以得到所述待跟踪视频序列除了所述参考图像的每一帧的目标跟踪结果。
[0054]
将所述参考图像输入至特征提取网络，得到所述特征提取网络输出的第一特征图像，将所述待跟踪图像输入至所述特征提取网络，获取所述特征提取网络输出的第二特征图像，也就是说，在本实施例中，用于提取所述参考图像和所述待跟踪图像的初始特征的网络的结构和参数都是相同的。
[0055]
在一种可能的实现方式中，所述待跟踪图像可以为视频序列中除第一帧以外的任意一帧，在本实施例中，为了提升效率，对所述视频序列中除第一帧以外的任意一帧进行进一步处理后作为所述待跟踪图像，所述将待跟踪图像输入至所述特征提取网络之前，还包括：
[0056]
s110、根据第一图像的目标跟踪结果，对初始待跟踪图像进行预处理，得到所述待跟踪图像；
[0057]
s120、所述第一图像为所述初始待跟踪图像的前一帧。
[0058]
所述初始待跟踪图像为所述待跟踪视频序列里除了参考图像的每一帧，将所述待跟踪图像输入至所述特征提取网络之前，根据所述待跟踪图像在所述待跟踪视频序列里的前一帧的跟踪结果，对所述待跟踪图像进行预处理，在本实施例中，所述待跟踪图像在所述待跟踪视频序列里的前一帧为第一图像。
[0059]
具体地，所述对初始待跟踪图像进行预处理，包括：
[0060]
在所述初始待跟踪图像中裁剪出部分区域作为所述待跟踪图像；
[0061]
其中，所述待跟踪图像的中心点坐标与所述第一图像中的目标的中心点坐标相
同，所述待跟踪图像的面积为所述第一图像中的目标所占区域的面积的n倍，n＞1。
[0062]
具体地，将所述第一图像的中心点坐标对应的初始跟踪图像的坐标作为中心点，剪裁出面积为所述第一图像中的目标所占区域的面积的n倍区域，作为所述待跟踪图像。其中，n为大于1的数字，在本实施例中，n取4。
[0063]
本实施例所述单目标跟踪方法，还包括步骤：
[0064]
s200、将所述第一特征图像输入至编码器，获取所述编码器输出的中间特征图像。
[0065]
s300、将所述中间特征图像和所述第二特征图像输入至解码器，得到所述解码器的输出数据，根据所述解码器的输出数据确定所述待跟踪图像中的目标跟踪结果，其中，所述解码器中包括了互相关运算。
[0066]
在本实施例所提供的追踪框架中，所述编码器和解码器采用的是transformer结构，所述transformer结构位于特征提取网络之后，其作用是更进一步的进行特征的提取和融和，相比于普通的卷积网络结构，transformer特有的结构能够更加有效的捕获全局的语义信息，从而减少语义损失。将transformer结构与特征提取网络进行融合，能有效的解决在特征提取网络中采用互相关运算只能计算局部的图像块之间的相似度，从而导致全局语义的损失的问题。
[0067]
具体地，transformer结构如图3所示，在输入端，编码器连接模板分支，解码器连接搜索区域分支。在内部结构中，位置编码用于增加位置先验，多头注意力模块用于全局语义信息的捕获，前馈网络与规范化层用于连接不同网络模块构建深层网络。
[0068]
将模板分支中特征提取网络提取的所述第一特征图像输入至编码器，获取所述编码器输出的中间特征图像，用t表示，其中，c为所述中间特征图像的通道个数，h0和w0分别为所述中间特征图像中每个通道中图像的长和宽。
[0069]
将所述中间特征图像和搜索区域分支中特征提取网络提取的所述第二特征图像输入至解码器，得到所述解码器的输出数据。
[0070]
其中，所述将所述中间特征图像和所述第二特征图像输入至解码器，得到所述解码器的输出数据，包括：
[0071]
s310、对所述中间特征图像进行拆解，得到多个第一中间特征和多个第二中间特征；
[0072]
其中，每个所述第一中间特征的大小为c*1*1，c为所述中间特征图像的通道个数，第j个所述第一中间特征中的特征值为所述中间特征图像中每个通道中第j个像素点位置的特征值；每个所述第二中间特征的大小为h0w0*1*1,h0和w0分别为所述中间特征图像中每个通道中图像的长和宽，第i个所述第二中间特征中的特征值为所述中间特征图像中第i个通道中的特征值；
[0073]
具体地，所述第一中间特征为将所述中间特征图像t按通道进行拆分得到的特征图像，在本实施例中，用tj表示第j个所述第一中间特征；所述第二中间特征为将所述中间特征图像t按空间位置拆分得到的特征图像，在本实施例中，用ti表示第i个所述第一中间特征。
[0074]
s320、在所述解码器中，根据所述第一中间特征、所述第二中间特征和所述第二特征图像执行互相关运算，根据互相关运算的结果得到所述解码器的输出数据。
[0075]
其中，所述根据所述第一中间特征、所述第二中间特征和所述第二特征图像执行
互相关运算，包括：
[0076]
s321、将所述第二特征图像输入至所述解码器中的多头注意力模块，获取注意力特征；
[0077]
s322、将所述注意力特征和所述第一中间特征进行第一次互相关运算，得到第一互相关运算结果；
[0078]
s323、将所述第一互相关运算结果和所述第二中间特征进行第二次互相关运算，得到第二互相关运算结果。
[0079]
不同于一般的transformer结构，在本实施例中，所述transformer结构中解码器的多头注意力模块后面还添加了两阶段的互相关模块(two-stagepixel-wise correlation)对两个分支提取的特征进行融合，进一步的，本实施例提出的与transformer结构结合的互相关运算，在通过解码器的多次堆叠后进一步提升了特征融合的精度。在经过处理之后，基于互相关的解码器最终生成transformer结构的输出结果，两段互相关结构如图4所示。
[0080]
具体地，将所述第二特征图像输入至所述解码器中的多头注意力模块，获取注意力特征，所述注意力特征用s表示，h和w分别为所述注意力特征中每个通道中特征图的长和宽；
[0081]
将所述注意力特征和所述第一中间特征进行第一次互相关运算，得到第一互相关运算结果；
[0082]
其中，所述第一次互相关运算的公式为：
[0083][0084]
其中，*表示互相关运算；表示所述注意力特征；tj为第j个所述第一中间特征；p为所述第一互相关运算结果，所述第一互相关运算由多条第一数据组成，pj为第j个第一数据，具体地，第一互相关运算的具体实现可以细分为h0*w0个位置上的互相关运算，pj就是每次的结果，这些结果一起构成了第一次运算的结果；
[0085]
将所述第一互相关运算结果和所述第二中间特征进行第二次互相关运算，得到第二互相关运算结果；
[0086]
其中，所述第二次互相关运算的公式为：
[0087]
o＝{oi|oi＝ti*p}
i∈{1，...，c}
[0088]
其中，ti为第i个所述第二中间特征；o为所述第二互相关运算结果，所述第二互相关运算由多条第二数据组成，oi为第i个第二数据，具体地，第二互相关运算的具体实现可以细分为c个位置上的互相关运算，oi就是每次的结果，这些结果一起构成了第二次运算的结果。
[0089]
进行第一阶段的互相关计算的主要作用是进行像素级别的空间位置信息的融合，能够有效提升特征融合的精度。
[0090]
而在第一阶段的互相关计算中，对模板进行像素级别的拆分后在提升融合的信息的精度的同时也引入了大量的干扰信息。因此，在本实施例中，所述单目标跟踪模型中进一
步设计了第二阶段的互相关运算进行处理。具体做法是第二阶段的互相关运算将所述中间特征在通道上进行分解。这样做的目的是考虑到通道与物体类别之间存在关联关系，因此对通道进行拆分能够使得特征融合更加聚焦于特定种类的追踪目标。
[0091]
将所述第二互相关运算结果输入至解码器的前馈网络层，得到所述解码器的输出数据，所述解码器的输出数据包括目标候选结果和所述目标候选结果对应的匹配度；所述根据所述解码器的输出数据确定所述待跟踪图像中的目标跟踪结果，包括：
[0092]
s330、根据所述目标候选结果对应的匹配度，选择所述匹配度最高的所述目标候选结果作为所述目标跟踪。
[0093]
参照图2可知，所述解码器的输出数据包括状态估计分支与目标分类分支，所述状态估计分支为目标候选结果，所述目标候选结果包括每一个候选结果的位置及形状，用不同大小的方框表示；所述目标分类分支为所述目标候选结果对应的匹配度，包括了所述待跟踪图像上每一个所述目标候选结果的分数值，分数值用于判断所述目标候选结果与跟踪目标的匹配度。根据所述目标候选结果对应的匹配度，选择所述匹配度最高的所述目标候选结果作为所述目标跟踪。
[0094]
本实施例提供的单目标跟踪方法中的单目标跟踪模型在初始化时，选取已训练的网络的权值作为所述特征提取网络的初始化权值，之后所述特征提取网络与其余模型网络一同进行训练获得最终的权值。
[0095]
综上所述，本实施例提供一种单目标跟踪方法，将参考图像输入至特征提取网络，获取所述特征提取网络输出的第一特征图像，将待跟踪图像输入至所述特征提取网络，获取所述特征提取网络输出的第二特征图像，其中，所述参考图像中包括目标标记信息；将所述第一特征图像输入至编码器，获取所述编码器输出的中间特征图像；将所述中间特征图像和所述第二特征图像输入至解码器，得到所述解码器的输出数据，根据所述解码器的输出数据确定所述待跟踪图像中的目标跟踪结果，其中，所述解码器中包括了互相关运算。本发明在对待跟踪图像中的目标进行跟踪时，在解码器中结合了互相关运算，实现了更精确的特征融合，减少了背景或者其他信息的干扰。
[0096]
应该理解的是，虽然本发明说明书附图中给出的的流程图中的各个步骤按照箭头的指示依次显示，但是这些步骤并不是必然按照箭头指示的顺序依次执行。除非本文中有明确的说明，这些步骤的执行并没有严格的顺序限制，这些步骤可以以其它的顺序执行。而且，流程图中的至少一部分步骤可以包括多个子步骤或者多个阶段，这些子步骤或者阶段并不必然是在同一时刻执行完成，而是可以在不同的时刻执行，这些子步骤或者阶段的执行顺序也不必然是依次进行，而是可以与其它步骤或者其它步骤的子步骤或者阶段的至少一部分轮流或者交替地执行。
[0097]
本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的计算机程序可存储于一非易失性计算机可读取计算机可读存储介质中，该计算机程序在执行时，可包括如上述各方法的实施例的流程。其中，本发明所提供的各实施例中所使用的对存储器、存储、数据库或其它介质的任何引用，均可包括非易失性和/或易失性存储器。非易失性存储器可包括只读存储器(rom)、可编程rom(prom)、电可编程rom(eprom)、电可擦除可编程rom(eeprom)或闪存。易失性存储器可包括随机存取存储器(ram)或者外部高速缓冲存储器。作为说明而非局限，ram以多种
形式可得，诸如静态ram(sram)、动态ram(dram)、同步dram(sdram)、双数据率sdram(ddrsdram)、增强型sdram(esdram)、同步链路(synchlink)dram(sldram)、存储器总线(rambus)直接ram(rdram)、直接存储器总线动态ram(drdram)、以及存储器总线动态ram(rdram)等。
[0098]
实施例二
[0099]
基于上述实施例，本发明还相应提供了一种单目标跟踪装置，如图5所示，所述单目标跟踪装置包括：
[0100]
特征提取模块，所述特征提取模用于将参考图像输入至特征提取网络，获取所述特征提取网络输出的第一特征图像，将待跟踪图像输入至所述特征提取网络，获取所述特征提取网络输出的第二特征图像，其中，所述参考图像中包括目标标记信息，具体如实施例一中所述；
[0101]
中间特征获取模块，所述中间特征获取模块用于将所述第一特征图像输入至编码器，获取所述编码器输出的中间特征图像，具体如实施例一中所述；
[0102]
跟踪结果获取模块，所述跟踪结果获取模块用于将所述中间特征图像和所述第二特征图像输入至解码器，得到所述解码器的输出数据，根据所述解码器的输出数据确定所述待跟踪图像中的目标跟踪结果，其中，所述解码器中包括了互相关运算，具体如实施例一中所述。
[0103]
实施例三
[0104]
基于上述实施例，本发明还相应提供了一种终端，如图6所示，所述终端包括处理器10以及存储器20。图6仅示出了终端的部分组件，但是应理解的是，并不要求实施所有示出的组件，可以替代的实施更多或者更少的组件。
[0105]
所述存储器20在一些实施例中可以是所述终端的内部存储单元，例如终端的硬盘或内存。所述存储器20在另一些实施例中也可以是所述终端的外部存储设备，例如所述终端上配备的插接式硬盘，智能存储卡(smart media card,smc)，安全数字(secure digital,sd)卡，闪存卡(flash card)等。进一步地，所述存储器20还可以既包括所述终端的内部存储单元也包括外部存储设备。所述存储器20用于存储安装于所述终端的应用软件及各类数据。所述存储器20还可以用于暂时地存储已经输出或者将要输出的数据。在一实施例中，存储器20上存储有单目标跟踪程序30，该单目标跟踪程序30可被处理器10所执行，从而实现本技术中单目标跟踪方法。
[0106]
所述处理器10在一些实施例中可以是一中央处理器(central processing unit,cpu)，微处理器或其他芯片，用于运行所述存储器20中存储的程序代码或处理数据，例如执行所述单目标跟踪方法等。
[0107]
在一实施例中，当处理器10执行所述存储器20中单目标跟踪程序30时实现以下步骤：
[0108]
将参考图像输入至特征提取网络，获取所述特征提取网络输出的第一特征图像，将待跟踪图像输入至所述特征提取网络，获取所述特征提取网络输出的第二特征图像，其中，所述参考图像中包括目标标记信息；
[0109]
将所述第一特征图像输入至编码器，获取所述编码器输出的中间特征图像；
[0110]
将所述中间特征图像和所述第二特征图像输入至解码器，得到所述解码器的输出
数据，根据所述解码器的输出数据确定所述待跟踪图像中的目标跟踪结果，其中，所述解码器中包括了互相关运算。
[0111]
其中，所述将待跟踪图像输入至所述特征提取网络之前，还包括：
[0112]
根据第一图像的目标跟踪结果，对初始待跟踪图像进行预处理，得到所述待跟踪图像；
[0113]
所述第一图像为所述初始待跟踪图像的前一帧。
[0114]
其中，对初始待跟踪图像进行预处理，包括：
[0115]
在所述初始待跟踪图像中裁剪出部分区域作为所述待跟踪图像；
[0116]
其中，所述待跟踪图像的中心点坐标与所述第一图像中的目标的中心点坐标相同，所述待跟踪图像的面积为所述第一图像中的目标所占区域的面积的n倍，n＞1。
[0117]
其中，所述将所述中间特征图像和所述第二特征图像输入至解码器，得到所述解码器的输出数据，包括：
[0118]
对所述中间特征图像进行拆解，得到多个第一中间特征和多个第二中间特征；
[0119]
其中，每个所述第一中间特征的大小为c*1*1，c为所述中间特征图像的通道个数，第j个所述第一中间特征中的特征值为所述中间特征图像中每个通道中第j个像素点位置的特征值；每个所述第二中间特征的大小为h0w0*1*1,h0和w0分别为所述中间特征图像中每个通道中图像的长和宽，第i个所述第二中间特征中的特征值为所述中间特征图像中第i个通道中的特征值；
[0120]
在所述解码器中，根据所述第一中间特征、所述第二中间特征和所述第二特征图像执行互相关运算，根据互相关运算的结果得到所述解码器的输出数据。
[0121]
其中，所述根据所述第一中间特征、所述第二中间特征和所述第二特征图像执行互相关运算，包括：
[0122]
将所述第二特征图像输入至所述解码器中的多头注意力模块，获取注意力特征；
[0123]
将所述注意力特征和所述第一中间特征进行第一次互相关运算，得到第一互相关运算结果；
[0124]
将所述第一互相关运算结果和所述第二中间特征进行第二次互相关运算，得到第二互相关运算结果。
[0125]
其中，所述第一次互相关运算的公式为：
[0126][0127]
其中，*表示互相关运算；表示所述注意力特征；h和w分别为所述注意力特征中每个通道中特征图的长和宽；tj为第j个所述第一中间特征；p为所述第一互相关运算结果，所述第一互相关运算由多条第一数据组成，pj为第j个第一数据；
[0128]
所述第二次互相关运算的公式为：
[0129]
o＝{oi|oi＝ti*p}
i∈{1，...，c}
；
[0130]
其中，ti为第i个所述第二中间特征；o为所述第二互相关运算结果，所述第二互相关运算由多条第二数据组成，oi为第i个第二数据。
[0131]
其中，所述解码器的输出数据包括目标候选结果和所述目标候选结果对应的匹配度；所述根据所述解码器的输出数据确定所述待跟踪图像中的目标跟踪结果，包括：
[0132]
根据所述目标候选结果对应的匹配度，选择所述匹配度最高的所述目标候选结果作为所述目标跟踪。
[0133]
实施例四
[0134]
本发明还提供一种计算机可读存储介质，其中，存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现如上所述的单目标跟踪方法的步骤。
[0135]
最后应说明的是：以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的精神和范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：电力设备缺陷信息的处理方法、装置、设备及存储介质与流程

一种单目标跟踪方法、装置、终端及存储介质

相关文献

最热文献