一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

用于人体跟踪的动态模版更新方法、系统及摄像装置与流程

2022-04-09 09:15:38 来源:中国专利 TAG:


1.本发明涉及人体跟踪技术领域,特别是一种用于人体跟踪的动态模版更新方法及其应用该方法的系统、摄像装置。


背景技术:

2.人体跟踪是视觉领域中始终迭代研究的课题,近年来随着卷积神经网络(cnn)的在视觉任务中的突出表现,也使人体跟踪的准确性得到一定的突破。当前长期在目标跟踪领域表现最突出的方法按照技术类型可以分为相关滤波方法和特征融合方法。
3.相关滤波方法:以siamrpn、siamrpn 、siamfc等为代表,主要流程为先使用孪生网络分别对初始跟踪模版和搜索区域进行特征提取,然后将提取的特征进行相关滤波,最后将相关滤波输出的特征通过跟踪头模块输出跟踪人体的位置。
4.特征融合方法:主要流程为首先通过孪生网络分别对跟踪模版和搜索区域进行特征提取,然后对提取的特征进行特征融合,然后通过相关滤波的方式进行跟踪人体的位置回归。
5.但以上两种类型的方法只是单一地从特征匹配或特征融合的角度对人体跟踪的精度进行提升,忽略了人体跟踪在切实场景下的非常致命的问题:人体表征(身体角度、姿态、遮挡、运动变化、背景变化等)在跟踪中会不断变化。这些随时序变化因素会使人体跟踪候选区域的表征与初始跟踪模版的视觉表征存在差异,如果始终使用初始的人体跟踪模版进行跟踪,容易导致在人体不断变化的场景下出现跟踪失效的问题。


技术实现要素:

6.本发明为解决上述问题,提供了一种用于人体跟踪的动态模版更新方法、系统及摄像装置,引入了人体跟踪动态特征模版的思想,能够适应不断变化的场景,从而提升在复杂场景下人体跟踪的鲁棒性,实现更加准确的人体跟踪。
7.为实现上述目的,本发明采用的技术方案为:
8.首先,本发明提供一种用于人体跟踪的动态模版更新方法,其包括以下步骤:
9.提取初始跟踪模版和动态特征模版;
10.对所述初始跟踪模版和所述动态特征模版进行特征融合处理,得到融合特征;
11.通过跟踪头网络的分类分支对所述融合特征进行人体预测,得到预测置信度;
12.对所述预测置信度进行阈值计算,根据阈值计算结果判断是否更新所述动态特征模版。
13.优选的,所述动态特征模版的提取,是使用初始模版进行初始化,并根据所述预测置信度的阈值计算结果进行动态更新。
14.本发明采用动态特征模版进行人体跟踪,并基于置信度对所述动态特征模版进行动态更新,从而能够适应不断变化的场景对跟踪模型的影响,提升模型在复杂场景下跟踪的鲁棒性,实现更加准确的人体跟踪。
15.优选的,还包括提取搜索区域特征,并通过三胞胎网络对所述初始跟踪模版、动态特征模版、搜索区域特征进行特征提取,以及进一步使用1x1卷积进行融合整理,再经数据重塑操作后,输出三个提取特征。
16.本发明的动态模版更新方法将特征提取模块设计成了三路的三胞胎网络,网络在提取初始模版和搜索区域特征的同时还需对动态特征模版进行特征提取,通过三重特征融合,进一步提高了人体跟踪的准确率。
17.优选的,所述动态特征模版与所述初始跟踪模版的初始尺寸保持一致,为128x128,搜素区域特征的尺寸为256x256;经卷积操作和重塑操作后,所述初始跟踪模版对应的特征尺寸为256x256,所述搜索区域特征对应的特征尺寸为1024x256,所述动态特征模版对应的特征尺寸为256x256。
18.优选的,所述特征融合具体包括:
19.所述初始跟踪模版经自注意力融合后输出第一融合特征;
20.所述搜索区域特征经自注意力融合后输出第二融合特征;
21.所述动态特征模版经自注意力融合后输出第三融合特征;
22.所述第一融合特征与所述第二融合特征经交叉注意力融合后输出第四融合特征;
23.所述第三融合特征与所述第二融合特征经交叉注意力融合后输出第五融合特征;
24.所述第一融合特征、所述第二融合特征及所述第三融合特征经交叉注意力融合后输出第六融合特征;
25.所述第四融合特征与所述第六融合特征经再次交叉注意力融合后输出第七融合特征;
26.所述第五融合特征与所述第六融合特征经再次交叉注意力融合后输出第八融合特征;
27.所述第七融合特征与所述第八融合特征相叠加,生成最终融合特征。
28.优选的,所述跟踪头网络还包括位置回归分支;当所述分类分支判断当前动态特征模版需要更新时,则根据所述位置回归分支回归出的人体位置进行模版替换。
29.采用本发明的融合方案,搜索区域特征的第一次特征交叉融合阶段就将初始跟踪模版和动态特征模版的特征全部融合进来,可以充分地引入人体形变和背景变化下的特征,对于解决人体不断变化下的跟踪起到非常重要的作用。
30.优选的,所述模版替换具体包括:
31.通过所述位置回归分支回归出人体位置;
32.将所述人体位置外扩预设比例,作为模版更新框;
33.基于所述模版更新框,从搜索区域裁剪出当前动态特征模版;
34.将所述当前动态特征模版替换初始跟踪模版或者替换原动态特征模版。
35.优选的,所述分类分支输出的预测置信度包括正样本置信度和负样本置信度,当所述正样本置信度低于正样本阈值,且所述负样本置信度大于负样本阈值,则判断为需要更新所述动态特征模版。
36.采用该模版替换方法,可以自适应地跟踪不同变化的跟踪场景,不仅可以保持跟踪表征不变的人体的跟踪准确性,也可解决复杂形变、遮挡等随时序变化的复杂场景,很好地解决了时序变化的人体跟踪问题。
37.与所述方法相对应的,本发明还提供一种用于人体跟踪的动态模版更新系统,其包括:
38.特征提取模块,用于提取初始跟踪模版和动态特征模版;
39.特征融合模块,用于对所述初始跟踪模版和所述动态特征模版进行特征融合处理,得到融合特征;
40.预测模块,其通过跟踪头网络的分类分支对所述融合特征进行人体预测,得到预测置信度;
41.模版更新模块,用于对所述预测置信度进行阈值计算,根据阈值计算结果判断是否更新所述动态特征模版。
42.另外,本发明还提供一种摄像装置,其包括存储器和处理器,所述存储器中存储有可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现上述任一项所述的方法的步骤。
43.本发明的有益效果是:
44.本发明的一种用于人体跟踪的动态模版更新方法、系统及摄像装置,填补了人体跟踪任务因时序变化导致人体形变、遮挡等造成误跟踪研究的空白。提出的方法不仅可以提升在一般场景下人体跟踪的准确率,而且可以基于模型感知地自适应地根据场景变化动态调整模版,很好地解决了人体跟踪中随时序变化出现的人体遮挡、复杂人体形变和背景变换下的跟踪失败问题。
附图说明
45.此处所说明的附图用来提供对本发明的进一步理解,构成本发明的一部分,本发明的示意性实施例及其说明用于解释本发明,并不构成对本发明的不当限定。在附图中:
46.图1为本发明用于人体跟踪的动态模版更新方法的实施例一的流程简图;
47.图2为本发明用于人体跟踪的动态模版更新方法的实施例二的流程简图;
48.图3为本发明用于人体跟踪的动态模版更新系统的结构示意图。
具体实施方式
49.为使本发明实施例的目的、技术方案和优点更加清楚,下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本发明一部分实施例,而不是全部的实施例。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
50.实施例一(初始跟踪模版 动态特征模版)
51.如图1所示,本实施例的一种用于人体跟踪的动态模版更新方法,其包括以下步骤:
52.提取初始跟踪模版和动态特征模版;
53.对所述初始跟踪模版和所述动态特征模版进行特征融合处理,得到融合特征;
54.通过跟踪头网络的分类分支对所述融合特征进行人体预测,得到预测置信度;
55.对所述预测置信度进行阈值计算,根据阈值计算结果判断是否更新所述动态特征
模版。
56.其中,所述动态特征模版的提取,是使用初始模版进行初始化,并根据所述预测置信度的阈值计算结果进行动态更新。
57.本实施例中,所述动态特征模版与所述初始跟踪模版的初始尺寸保持一致,为128x128。所述特征融合具体包括:
58.所述初始跟踪模版经自注意力融合后输出第一融合特征;
59.所述动态特征模版经自注意力融合后输出第二融合特征;
60.所述初始跟踪模版与所述第二融合特征经交叉注意力融合后输出第三融合特征;
61.所述动态特征模版与所述第一融合特征经交叉注意力融合后输出第四融合特征;
62.所述第三融合特征与所述第四融合特征经再次交叉注意力融合后输出最终融合特征。
63.所述跟踪头网络还包括位置回归分支;当所述分类分支判断当前动态特征模版需要更新时,则根据所述位置回归分支回归出的人体位置进行模版替换。本实施例中,所述模版替换具体包括:
64.通过所述位置回归分支回归出人体位置;
65.将所述人体位置外扩预设比例,作为模版更新框;
66.基于所述模版更新框,从搜索区域裁剪出当前动态特征模版;
67.将所述当前动态特征模版替换初始跟踪模版或者替换原动态特征模版。
68.优选的,所述分类分支输出的预测置信度包括正样本置信度和负样本置信度,当所述正样本置信度低于正样本阈值,且所述负样本置信度大于负样本阈值,则判断为需要更新所述动态特征模版。
69.实施例二(初始跟踪模版 动态特征模版 搜索区域特征)
70.如图2所示,本实施例还包括提取搜索区域特征,并通过三胞胎网络对所述初始跟踪模版、动态特征模版、搜索区域特征进行特征提取,以及进一步使用1x1卷积进行融合整理,再经数据重塑操作后,输出三个提取特征。
71.本实施例的一种用于人体跟踪的动态模版更新方法,其包括以下步骤:
72.提取初始跟踪模版、动态特征模版、搜索区域特征;
73.对所述初始跟踪模版、所述动态特征模版、所述搜索区域特征进行特征融合处理,得到融合特征;
74.通过跟踪头网络的分类分支对所述融合特征进行人体预测,得到预测置信度;
75.对所述预测置信度进行阈值计算,根据阈值计算结果判断是否更新所述动态特征模版。
76.本实施例中,所述动态特征模版与所述初始跟踪模版的初始尺寸保持一致,为128x128,搜素区域特征的尺寸为256x256;经卷积操作和重塑操作后,所述初始跟踪模版对应的特征尺寸为256x256,所述搜索区域特征对应的特征尺寸为1024x256,所述动态特征模版对应的特征尺寸为256x256。
77.所述特征融合具体包括:
78.所述初始跟踪模版经自注意力融合后输出第一融合特征;
79.所述搜索区域特征经自注意力融合后输出第二融合特征;
80.所述动态特征模版经自注意力融合后输出第三融合特征;
81.所述第一融合特征与所述第二融合特征经交叉注意力融合后输出第四融合特征;
82.所述第三融合特征与所述第二融合特征经交叉注意力融合后输出第五融合特征;
83.所述第一融合特征、所述第二融合特征及所述第三融合特征经交叉注意力融合后输出第六融合特征;
84.所述第四融合特征与所述第六融合特征经再次交叉注意力融合后输出第七融合特征;
85.所述第五融合特征与所述第六融合特征经再次交叉注意力融合后输出第八融合特征;
86.所述第七融合特征与所述第八融合特征相叠加,生成最终融合特征。
87.本实施例中,所述跟踪头网络还包括位置回归分支;当所述分类分支判断当前动态特征模版需要更新时,则根据所述位置回归分支回归出的人体位置进行模版替换。所述模版替换具体包括:
88.通过所述位置回归分支回归出人体位置;
89.将所述人体位置外扩预设比例,作为模版更新框;
90.基于所述模版更新框,从搜索区域裁剪出当前动态特征模版;
91.将所述当前动态特征模版替换初始跟踪模版或者替换原动态特征模版。
92.其中,所述分类分支输出的预测置信度包括正样本置信度和负样本置信度,当所述正样本置信度低于正样本阈值,且所述负样本置信度大于负样本阈值,则判断为需要更新所述动态特征模版。
93.实施例三(模版更新系统)
94.如图3所示,与所述方法相对应的,本发明还提供一种用于人体跟踪的动态模版更新系统,其包括:
95.特征提取模块,用于提取初始跟踪模版和动态特征模版;
96.特征融合模块,用于对所述初始跟踪模版和所述动态特征模版进行特征融合处理,得到融合特征;
97.预测模块,其通过跟踪头网络的分类分支对所述融合特征进行人体预测,得到预测置信度;
98.模版更新模块,用于对所述预测置信度进行阈值计算,根据阈值计算结果判断是否更新所述动态特征模版。
99.在优选的实施例中,所述特征提取模块还提取了搜索区域特征。所述特征提取模块设计成了三路的三胞胎网络网络在提取初始模版和搜索区域特征的同时还需对动态的模版进行特征提取。动态特征模版使用初始模版进行初始化,后续在模型推理时基于跟踪头对当前跟踪人体置信度对判断进行动态更新。
100.所述三胞胎网络的动态模版和初始模版的输入初始尺寸保持一致,均为128x128;输入的搜素区域尺寸为256x256。模型的特征提取网络使用resnet网络结构,并对原始结构进行了修改和压缩。如图3所示,模型输入经过三胞胎网络后再使用1x1的卷积分别生成维度为256x256、1024x256和256x256的特征vector供特征融合模块使用。
101.所述特征融合模块包括三路自注意力模块eca分别对初始跟踪模版、动态特征模
版和搜索区域特征进行自注意力融合,再经过三路交叉注意力模块cfa对自注意力融合后的特征进行交叉融合,最后再经过两个交叉注意力模块cfa进行融合,输出两个1024x256维的特征vector;二者相加得到最终融合特征vector。
102.自注意力模块eca和交叉注意力模块cfa均由堆叠的transformer结构组成,如图3所示,交叉注意力模块cfa的输入v和k是由不同来源的特征vector引入空间位置编码得到的。中间一路特征(搜索区域特征)在第一次cfa交叉融合时输入的k、v分别有两路来源,一个来源是初始跟踪模版的特征经过自注意力融合后输出的k_1、v_1,另一个来源是动态特征模版的特征经过自注意力融合后输出的k_2、v_2,分别通过k_1 k_2和v_1 v_2得到新的k和v作为第二次cfa交叉融合输入的k、v。采用该方法,在搜索区域特征的第一次交叉融合阶段就将初始跟踪模版和动态特征模版的特征全部融合进来,可以充分地引入人体形变和背景变化下的特征,对于解决人体不断变化下的跟踪非常重要。
103.所述预测模块中,本实施例的跟踪头网络由两个子模块构成:分类分支和位置回归分支。每个分支都是有堆叠的三层mlp构成。通过复用跟踪头的分类分支,根据分类分支输出的预测置信度,判断是否需要更新当前的动态特征模版。当分类分支的预测置信度低于预设阈值且大于负样本阈值时,模型自动更新动态特征模版。
104.所述模版更新模块中,当跟踪头的分类分支判断当前动态特征模版需要更新时,则根据跟踪头的回归分支回归出的人体位置外扩预设比例作为新的模版更新框,基于新的模版更新框从搜索区域裁剪(crop)出新的动态特征模版,以替换原有的动态特征模版;当跟踪头的分类分支判断当前动态特征模版不需要更新时,则动态特征模版维持原有状态。这样人体跟踪模型可以自适应地跟踪不同变化的跟踪场景,不仅可以保持跟踪表征不变的人体的跟踪准确性,也可解决复杂形变、遮挡等随时序变化的复杂场景,很好地解决了时序变化的人体跟踪问题。
105.本实施例的模型训练分两个阶段:
106.首先训练人体跟踪头的回归分支,然后固定除人体跟踪头的分类分支外的所有参数,并对分类分支进行训练。训练数据由一个triplet对构成,分别对应初始跟踪模版、动态特征模版、搜索区域特征,且分别基于视频中临近帧生成(该过程不做动态模版是否更新对判断)。
107.然后进行模型推理:动态特征模版先基于初始跟踪模版进行初始化,后续根据分类分支的置信度动态地更新动态特征模版,整个模版更新的过程是基于模型动态感知的。
108.实施例四(摄像装置)
109.另外,本发明还提供一种摄像装置,其包括存储器和处理器,所述存储器中存储有可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时,实现上述任一项所述的方法的步骤。
110.所述摄像装置包括:手机、数码相机或平板电脑等配置有摄像头的设备。
111.需要说明的是,本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
112.并且,在本文中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。
在没有更多限制的情况下,由语句“包括一个
……”
限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。另外,本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成,也可以通过程序来指令相关的硬件完成,所述的程序可以存储于一种计算机可读存储介质中,上述提到的存储介质可以是只读存储器,磁盘或光盘等。
113.上述说明示出并描述了本发明的优选实施例,应当理解本发明并非局限于本文所披露的形式,不应看作是对其他实施例的排除,而可用于各种其他组合、修改和环境,并能够在本文发明构想范围内,通过上述教导或相关领域的技术或知识进行改动。而本领域人员所进行的改动和变化不脱离本发明的精神和范围,则都应在本发明所附权利要求的保护范围内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献