一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种多运动目标视觉跟踪方法及装置

2022-04-27 13:15:27 来源:中国专利 TAG:


1.本发明属于计算机视觉跟踪技术领域,特别涉及一种多运动目标视觉跟踪方法及装置。


背景技术:

2.现代计算机视觉跟踪通常在图像分类框架下进行网络模型预训练,这种训练方法鼓励提取不同类别目标之间的类间特征,对相同类别不同目标实体之间的类内特征取不敏感,然而,视觉跟踪的困扰之一在于相似目标的干扰,即在具有大量同类相似实例的场景中,相似目标干扰经常导致跟踪器漂移,给视觉跟踪带来很大困难,需要一种不增加网络训练负担、能提高相同类别不同目标实体的类内特征提取的视觉跟踪方法。


技术实现要素:

3.本发明的目的在于提供一种多运动目标视觉跟踪方法及装置,通过优化损失函数进行网络训练使网络模型同时具有增加不同类别目标和相同类型不同目标实体的特征间距,从而解决当前图像分类框架下的多目标视觉跟踪对相同类型不同目标实体的特征区分度不高的缺陷。
4.本发明解决其技术问题提供的技术方案如下:
5.第一方面,本发明提供一种多运动目标视觉跟踪方法,包括步骤:模型离线预训练和在线视觉跟踪,其中,在所述模型离线预训练阶段,通过在原始损失函数具有类间约束的基础上融合一个具有类内约束的类内损失函数构成总损失函数,总损失函数替换原始损失函数对模型进行离线训练,以满足不同类别目标之间的类间特征向量间距和相同类别不同实体之间的类内特征向量间距同时增大。
6.第二方面,本发明提供一种多运动目标视觉跟踪装置,包括:模型预训练模块,用于构造一个在原始损失函数具有类间约束的基础上融合一个具有类内约束的类内损失函数构成总损失函数,由总损失函数替换原始损失函数、选用imagenet数据集对深度卷积神经网络进行离线训练,以满足不同类别目标之间的类间特征向量间距和相同类别不同实体之间的类内特征向量间距同时增大;在线视觉跟踪模块,用于获取视频图像,将初始帧图像输入到经过模型离线预训练的深度卷积神经网络中进行训练得到多个跟踪目标,在视频图像中对每个跟踪目标进行单独跟踪,跟踪期间按照固定周期启动修正策略修正每个跟踪目标的目标数量和位置直到最后一帧。
7.本发明的有益效果包括:
8.本发明通过构建一个能同时增大不同类别目标的特征间距和相同类别不同目标实体的损失函数替换原始损失函数进行网络模型离线预训练、再进行在线视觉跟踪的方法,使视觉跟踪任务在不增加网络模型训练负担、网络模型具有较好的可行性和实时性的基础上,解决现有技术对相同类别不同目标实体的特征识别不敏感的缺陷,提高了多运动目标视觉跟踪的精确度。
附图说明
9.下面结合附图对本发明作进一步说明。
10.图1是本发明实施例提供的多运动目标视觉跟踪方法流程图。
11.图2是本发明实施例担供的多运动目标视觉跟踪装置模块结构图。
具体实施方式
12.下面将结合本发明的附图,对本发明的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
13.请参考图1,本发明提供一种多运动目标视觉跟踪方法,包括步骤:模型离线预训练和在线视觉跟踪,在所述模型离线预训练阶段,在原始损失函数具有类间约束的基础上融合一个具有类内约束的类内损失函数构成总损失函数,总损失函数替换原始损失函数对模型进行离线训练,以满足不同类别目标之间的类间特征向量间距和相同类别不同实体之间的类内特征向量间距同时增大。
14.具体地,现代视觉跟踪的主流结构可分为特征提取主干网络网络、特征融合模块和边界框预测模块。传统主干网络网络通常在图像分类框架下进行预训练,这种训练方法鼓励主干网络只提取类间特征。然而,视觉跟踪不仅需要区分目标和属于其他类别的背景杂波,还需要区分属于同一类别的实例。这需要特征网络提取具有类间和类内区分性的特征。通过多运动目标视觉跟踪网络训练方法,不改变原始主干网络结构、训练数据、超参数等,不需要额外的工作量和额外的计算。与传统图像分类主干网络相比,多运动目标视觉跟踪网络对类内和类间变化都很敏感;因此,它非常有利于视觉跟踪。多动动目标视觉跟踪网络可以直接替换传统图像分类主干网络,无需添加任何连接模块,因此使用起来非常方便。
15.视觉跟踪是计算机视觉(cv)中的一项基本任务,具有视频监控、机器人技术和人机交互等应用,其目的是根据第一帧图像中指定的目标信息预测后续视频帧中目标的位置和形状。在过去十几年中,基于卷积神经网络(cnn)的视觉跟踪取得了显著的进展。然而,由于诸多因素,设计高精度跟踪器仍然是一项具有挑战性的任务,其中最重要的因素之一是来自相似目标的干扰(ist)。在具有大量同类相似类型目标实例的场景中,ist经常导致跟踪器漂移,给视觉跟踪带来很大困难。典型的在蓝球运动中,球员是同一类别目标的不同实例。球员们特别是那些穿着同一颜色队服的球员,外表非常相似,这很容易导致跟踪器漂移。此时,跟踪器可能会丢失正确的目标,而是指示与正确目标类似的错误目标,需要解决ist问题。
16.大多数最先进的(sota)跟踪技术利用深度学习基于目标对象及其周围环境的提取特征来训练鲁棒跟踪器来解决跟踪问题。近年来,目标跟踪领域出现了新的趋势,即使用在大规模分类数据库(如imagenet)上训练的cnn提取感兴趣目标的特征,然后通过相关滤波、特征匹配和注意机制利用该特征获得跟踪结果。这种方法充分利用了深度特征的强大表示能力,避免了在跟踪数据不足的情况下直接训练大规模cnn。原始主干网络是用于提取图像特征以完成分类任务的;因此,主干网络提取的特征携带丰富的高级语义信息,能够有效区分不同类别的目标。此外,这些特征与目标视觉线索相关。因此,使用主干网络可以显
著提高目标跟踪的准确性。
17.然而,基于分类特征进行目标跟踪具有风险。与仅关注类别特征的视觉分类任务不同,视觉跟踪可能需要在可能包含属于同一类别的其他目标的整个视场中搜索特定目标。传统预训练主干网络只关注增加类间差异,提取的深层特征对类内变化不敏感。因此,这些特征对于跟踪器来说不够有效,无法准确区分目标和具有相同类别标签的干扰物。这是现代追踪者无法有效处理ist问题的主要原因。在主干网络中,较高的网络层可以捕获与目标类别相关的语义概念,而较低的网络层可以编码更具辨别力的特征以捕获类内变化。因此,使用多层特征或筛选特征有助于区分类内实例。然而,对于存在非常相似实例的场景,例如篮球序列,该方法的性能也很差。此外,一些方法使用跟踪数据对主干网络进行精调,这在一定程度上提高了主干网络的类内实例识别能力。然而,由于跟踪数据的数量较少,这种改进非常有限。
18.通过提出巧妙的训练技巧来引导主干网络提取对类间和类内变化都比较敏感的特征。与原始主干网络相比,多运动目标视觉跟踪可以帮助现代跟踪器更好地解决ist问题,并获得更高的跟踪准确度。
19.优选地,在原始损失函数具有类间约束的基础上融合一个具有类内约束的损失函数的方法为:在原始损失函数l
inter-class
上加入一个类内损失函数l
intra-class
,融合后的总损失函数为:l
ins-aware
=l
inter-class
γl
intra-class
,γ为用于平衡两个损失函数的自适应权重参数。
20.具体地,通过在与原始主干网络相同的分类数据集(如imagenet)上重新训练具有相同网络结构的主干网络。该主干网络提取的特征能够有效区分不同类目标和属于同一类的不同实例。为了实现这一目标,通过修改分类网络的训练过程,构造一个总损失函数l
ins-aware
来引导分类网络同时输出具有类内和类间鉴别力的分类向量,并通过反向传播使得主干网络学习如何提取同时具有类间和类内鉴别力的特征。该损失函数包括l
inter-class
和l
intra-class
两部分。其中,l
inter-class
用于引导主干网络学习具有类间辨别能力的特征,而l
intra-class
用于引导主干网络学习具有类内辨别能力的特征。
21.优选地,l
inter-class
采用交叉熵损失函数,用于引导主干网络学习具有不同类别目标之间的类间辨别能力的特征,被构造为:对于属于第k类的第i个输入图像,通过最小化l
inter-class
约束主干网络输出一个尽可能接近对应真实类向量yi=yk=(y
i1
,

,y
ik
,

,y
im
)
t
的分类向量pi=(p
i1
,

,p
ik
,

,p
im
)
t
,yk是标签向量。
22.具体地,l
inter-class
使用图像分类网络中常用的交叉熵损失函数:
[0023][0024]
对于属于第k类的第i个输入图像,通过最小化(1)约束分类网络输出一个尽可能接近对应真实类向量yi=yk=(y
i1
,

,y
ik
,

,y
im
)
t
的分类向量pi=(p
i1
,

,p
ik
,

,p
im
)
t
。这里,yk是一个one-hot标签向量。在分类网络的训练过程中,所有相似图像的分类向量被约束以逐渐接近其标签向量,并且不同图像类别之间形成明显的边界。通过反向传播,引导主干网络也倾向于生成具有类似特点的特征。
[0025]
优选地,l
intra-class
用于引导主干网络生成具有强大类内鉴别能力的特征,假设k个样本属于k类,其分类向量的方差为:因此l
intra-class
被构造为
[0026]
具体地,l
inter-class
约束有助于主干网络生成具有强大类间鉴别能力的特征。然而,这导致类似的特征过于接近,这使得难以区分属于同一类的实例。为了改善这种不利情况,引入l
intra-class
引导主干网络生成具有强大类内鉴别能力的特征。l
intra-class
鼓励分类网络对于同一类别的图像输出具有较大方差的分类向量,以增加其分类向量的离散度;然后通过反向传播引导主干网络输出具有类内区分能力的特征。假设k个样本属于k类,其分类向量的方差为
[0027][0028]
因此,l
intra-class
被构造为
[0029][0030]
总损失由类内损失和类间损失构成:
[0031]
l
ins-aware
=l
inter-class
λl
intra-class
[0032]
通过在最大l
ins-aware
约束下,分类网络能够学习如何生成同时具有类内和类间区分能力的分类向量。l
ins-aware
的作用为:通过类内约束和类间约束的联合作用,特征的类间距离和类内距离同时增加,这对目标跟踪任务非常有利。
[0033]
优选地,模型离线预训练方法为:将imagenet数据集作为训练数据输入到深度卷积神经网络之中,采用所述总损失函数利用梯度反传算法对神经网络中的参数进行优化。
[0034]
具体地,视觉跟踪(cv)中使用的深度模型的主干网络通常指由卷积和池化运算组成的卷积层,用于从输入图像中提取特征。常用的主干网络网通常是从最著名的图像分类网络中借用过来的。这些分类网络将图像作为一系列卷积层的输入,这些卷积层用于提取对许多视觉任务至关重要的语义信息。卷积层之后是全连接(fc)层,通常用于预测输入图像的类别。cnn需要大量的训练数据,并在大规模imagenet数据集上进行训练。在视觉跟踪任务中,将预训练的卷积层作为主干网络传输可以避免大规模cnn在跟踪数据不足的情况下被直接训练。目前,视觉跟踪方法中常用的主干网络主要来自图像分类网络,如alexnet、vggnet、resnet及其改进版本。
[0035]
图像分类网络通常由一系列卷积层和几个fc层组成。这些卷积层通常被用作各类视觉任务的主干特征网络分类网络通常这样运作:一张图像输入到主干网络,然后通过一系列卷积层。每个卷积层输出一组特征图,这些特征图也是下一个卷积层的输入。从主干网络的最后一个卷积层输出的特征被合并或展平为特征向量。特征向量通过最后几个fc层输出类别编码向量,与输入图像类别对应的元素为1,其他元素为0。这要求所有属于同一类别的图像在通过分类网络后输出相同的分类向量。这一要求在网络训练过程中通过反向传播传递到主干网络的每个卷积层,以限制每个卷积层对于属于同一类别的图像输出在特征空间中尽可能接近的特征,每一网络层的特征都密集地分布在特征空间中。而且,离输出层越
近,特征分布越集中。相似实例的特征距离过近,不利于视觉跟踪任务。这是因为与图像分类任务不同,图像分类任务只需要区分不同类别的目标,视觉跟踪任务不仅需要区分不同类别的目标,还需要区分相似的实例。这些实例的特征如果在特征空间中过于接近则会给实例区分带来困难。视觉跟踪要求主干网络能够提供易于区分属于同类和不同类目标的特征。
[0036]
优选地,在线视觉跟踪包括步骤:获取视频图像,将初始帧图像输入到经过模型离线预训练的深度卷积神经网络中进行训练得到多个跟踪目标,在视频图像中对每个跟踪目标进行单独跟踪,跟踪期间按照固定周期启动修正策略修正每个跟踪目标的目标数量和位置直到最后一帧。
[0037]
请参考图2,本发明提供一种多运动目标视觉跟踪装置,包括:模型预训练模块,用于构造一个在原始损失函数具有类间约束的基础上融合一个具有类内约束的类内损失函数构成总损失函数,由总损失函数替换原始损失函数、选用imagenet数据集对深度卷积神经网络进行离线训练,以满足不同类别目标之间的类间特征向量间距和相同类别不同实体之间的类内特征向量间距同时增大,总损失函数、原始损失函数和类内损失函数与上述多运动目标视觉跟踪分类方法中所述相同;在线视觉跟踪模块,用于获取视频图像,将初始帧图像输入到经过模型离线预训练的深度卷积神经网络中进行训练得到多个跟踪目标,在视频图像中对每个跟踪目标进行单独跟踪,跟踪期间按照固定周期启动修正策略修正每个跟踪目标的目标数量和位置直到最后一帧。
[0038]
总的来说,多运动目标视觉跟踪方法可以通过使用与传统图像分类和跟踪算法相同的网络结构、初始化方法、训练数据和超参数来实现。因此,构建多运动目标跟踪方法不会增加所使用的跟踪方法的工作负载或计算负载。此外,多运动目标跟踪方法可以直接替换现有跟踪方法,而无需任何其他连接模块。因此,这种方法使用极为方便。
[0039]
以上对本发明实施例所提供的技术方案进行了详细介绍,本文中应用了具体个例对本发明的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本发明的方法及其核心思想,对于本领域的一般技术人员,依据本发明的思想,在具体实施方式及应用范围上均会有改变之处,本说明书不应理解为对本发明的限制。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献