一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种复杂城市道路环境下的多目标检测与跟踪算法

2022-11-30 12:42:23 来源:中国专利 TAG:


1.本发明属于自动驾驶技术领域,涉及一种交通目标检测与跟踪的方法。


背景技术:

2.智慧交通已成为未来交通发展的重要方向,其典型代表自动驾驶是一门多学科、多领域交织的综合技术,自动驾驶技术的发展不仅需要交通参与车辆具备自动驾驶能力,还需要掌握复杂交通环境的精确感知技术,高精度地图及车辆的导航定位,车辆动力学控制等技术,构建完善的车路协同交通体系。近年来,5g网络叠加云计算的方案能够以先进的人工智能技术赋予传统的基础设施感知道路的能力,进而通过物联网、云计算提高单车的环境感知能力。不论是单车智能还是车路协同,都需要传感器对外界环境信息进行采集。目前常用的传感器包括激光雷达、毫米波雷达和摄像机,相比于其他传感器,摄像机以其独有的性价比成为了环境感知的首选视觉传感器,基于摄像机的人工智能技术成为了智慧交通发展不可或缺的关键技术,因此,多目标检测及跟踪对复杂交通环境的感知环境具有重要意义。
3.首先,交通场景目标多是由固定在高处的摄像机拍摄,存在画面较远处目标普遍较小、特征信息较少、交通场景下同画面目标数量较多且尺寸相差较大等问题。当前研究普遍采用的卷积神经网络在前向传播过程中会对图片进行下采样编码,导致模型易丢失面积较小的目标,加大模型捕捉目标的难度。其次,随着深度学习的发展在多目标跟踪上已经取得了大量的研究成果,但是由于跟踪过程中目标外观尺寸变化、遮挡、快速移动导致的模糊等因素的影响,使得现有跟踪算法无法达到理想状态。针对交通场景下多目标检测与跟踪问题,现今工业界普遍使用目标检测算法和基于卡尔曼滤波、匈牙利算法的两阶段跟踪网络,这样的模型具有一些问题:目标检测和跟踪模块相互独立,无法同时训练,同时,目标检测的精准度决定目标跟踪的性能,导致网络的训练和优化存在瓶颈,且针对帧间位移大的目标无法做到稳定的跟踪。


技术实现要素:

4.本发明的目的是提供一种复杂城市道路环境下的多目标检测与跟踪算法,以解决现有技术中存在的目标检测的精准度不高以及对帧间位移大的目标无法做到稳定的跟踪的问题。
5.为实现上述目的,本发明提供如下技术方案:
6.一种复杂城市道路环境下的多目标检测与跟踪方法,具体包括以下步骤:
7.步骤1:选取公共数据集进行数据增强,得到数据集,构建训练集和测试集;
8.步骤2:在现有的dla34骨干网络基础上逐层增加特征融合模块实现输入图像的深浅层网络特征融合,得到三个特征融合后的二维特征图;
9.步骤3:根据特征融合后的二维特征图,采用transformer编码模块提取特征图中长距离特征依赖关系,得到提取依赖关系后的特征图;
10.步骤4:通过进一步特征融合及逻辑回归处理,生成热图以及目标边界框;
11.步骤5:利用多目标跟踪模块进行目标关联处理与跟踪,得到带有目标检测框的跟踪特征图;
12.步骤6,采用步骤1的训练集对由步骤2、3、4、5组成的多目标检测与跟踪模型进行训练,并采用测试集进行测试,最终得到训练好的多目标检测与跟踪模型;
13.步骤7,将待检测的视频数据输入训练好的多目标检测与跟踪模型,得到带有目标检测框的跟踪特征图。
14.进一步的,所述步骤1中,选择主流交通目标检测数据集visdrone中的visdrone_mot 作为本发明的数据集。
15.进一步的,所述步骤2具体包括如下子步骤:
16.步骤21,将训练集中的图像输入至dla34网络,经过batchnorm层和relu层对原始图像进行两次卷积核为3
×
3大小的卷积操作得到两张特征图,将卷积后的两张特征图输入聚合结点进行特征融合,得到分辨率为原输入特征图1/4大小的特征图;
17.步骤22,将步骤21中得到的1/4大小的特征图进行2倍下采样得到新的特征图,将该特征图重复两次步骤21中的卷积操作和聚合操作得到两张特征图,并与步骤21中得到的聚合结点作为共同输入再次进行聚合操作,得到分辨率为原输入特征图1/8大小的特征图;
18.步骤23,按照步骤22中由1/4大小的特征图得到原输入特征图1/8大小的特征图的相同的方式,由1/8大小的特征图得到1/16大小的特征图,再由1/16大小的特征图得到1/32大小的特征图;
19.步骤24,如图2所示,将得到的1/4大小的特征图、1/8大小的特征图、1/16大小的特征图、1/32大小的特征图依次采用特征融合模块进行相邻特征图特征融合,分别得到1/4大小、 1/8大小和1/16大小的新的特征图。
20.进一步的,所述步骤24中,所述的特征融合模块用于实现以下操作:
21.步骤241,对特征图f1进行卷积核为3
×
3大小的可变形卷积处理,将处理得到的结果通过batchnorm层和relu层得到经过映射的特征图;
22.步骤242,使用直接插值上采样加卷积处理的形式代替dla34骨干网络中的转置卷积,对步骤241中得到映射后的特征图进行2倍上采样,得到特征图f1';
23.步骤243,将步骤242中得到的特征图f1'与特征图f2对应通道值相加,得到合并特征图;
24.步骤244,将步骤243得到的合并特征图经3
×
3大小的可变形卷积处理后,依次通过 batchnorm层和relu层,得到二维特征图f2';
25.当特征图f1、特征图f2分别为1/4大小的特征图、1/8大小的特征图时,得到的二维特征图f2'为1/4大小的特征图;
26.当特征图f1、特征图f2分别为1/8大小的特征图、1/16大小的特征图时,得到的二维特征图f2'为1/8大小的特征图;
27.当特征图f1、特征图f2分别为1/16大小的特征图、1/32大小的特征图时,得到的二维特征图f2'为1/16大小的特征图。
28.进一步的,所述步骤3具体包括如下子步骤:
29.步骤31,将步骤2最终得到的1/16大小的二维特征图坍缩成一维序列,并卷积形成
k、 v、q特征图;
30.步骤32,将位置编码与步骤31得到的特征图k和特征图q分别进行逐像素相加得到带有位置信息的两个特征图,该两个特征图与特征图v作为共同输入进入多头注意力模块,经处理得到新的特征图;
31.步骤33,对步骤32得到的新的特征图再与步骤31得到的v、k、q特征图进行特征图间对应值相加的融合操作和layernorm操作;
32.步骤34,步骤33得到的结果进入前馈神经网络中进行处理,并通过残差连接输出,得到新的特征图。
33.进一步的,所述步骤32中的位置编码由下式得到:
34.pe
(pos,2i)
=sin(pos/10000
2i/d
)
35.pe
(pos,2i 1)
=cos(pos/10000
2i/d
)
36.其中,pe
(
·
)
为位置编码的矩阵,其分辨率大小与输入特征图分辨率大小一样,pos表示向量在序列中的位置,而i是通道的索引,d表示输入特征图的通道数。
37.进一步的,所述步骤4具体包括如下子步骤:
38.步骤41,将步骤3最终得到的特征图进行2倍上采样得到一个新的特征图。
39.步骤42,将步骤24得到的1/4大小与1/8大小的特征图采用与步骤24中相同的特征融合模块进行特征融合,得到一个1/4大小的新特征图;
40.步骤43,将步骤24得到的1/8大小、1/16大小的特征图采用特征融合模块进行特征融合,并与步骤41得到的特征图进行逐像素相加得到一个1/8大小的新特征图;
41.步骤44,将步骤42得到的1/4大小的特征图和步骤43得到的1/8大小的特征图仍采用特征融合模块进行特征融合生成分辨率为原图1/4大小的热图;
42.步骤45,对步骤44中得到的热图与步骤1得到的数据集中包含目标中心点的热图标签进行逻辑回归,得到预测目标的中心点
43.步骤46,通过式(3)得到每个目标对应的边框左上点与右下点坐标,生成目标边界框:
[0044][0045]
其中,即步骤45得到预测目标的中心点,表示中心点与目标中心点的偏移量,表示目标对应的边框的尺寸。
[0046]
进一步的,所述步骤5具体包括如下子步骤:
[0047]
步骤51,将输入步骤2的同一个图像作为第t-1帧图像,并选取其下一帧图像即第t帧图像,把第t帧和第t-1帧图像作为输入,经过centertrack骨干网络处理分别生成特征图f
t
和 f
t-1

[0048]
步骤52,将特征图f
t
和f
t-1
分别送入如图5所示的代价空间模块进行目标关联处理,得到输出特征图f

t

[0049]
步骤53,将步骤4中得到的热图与步骤51得到的特征图f
t-1
进行哈德玛乘积生成特征图将与步骤52得到的特征图f

t
一起进行可变形卷积生成特征图
[0050]
步骤54,将依次使用3个1
×
1卷积操作、下采样操作,生成第t-1帧特征图;将步骤51中得到的特征图f
t
使用3个1
×
1卷积进行操作,生成第t帧特征图;
[0051]
步骤55,将步骤54中的得到的第t帧特征图与第t-1帧特征图共同输入注意力传播模块进行特征传播得到带有目标检测框的跟踪特征图v

t

[0052]
进一步的,所述步骤52具体包括如下操作:
[0053]
步骤521,将特征图f
t
和f
t-1
分别送入代价空间模块中的三层权值共享的卷积结构生成特征图e
t
和e
t-1
,即目标的外观编码向量;
[0054]
步骤522,对特征图e
t
和e
t-1
进行最大池化操作得到e

t
和e

t-1
,以降低模型复杂度,使用e

t
和e

t-1
乘积的转置计算得到代价空间矩阵c,代价空间矩阵c上的目标在当前帧的位置为(i,j),从代价空间矩阵c中提取含有当前帧中的目标在前一帧图像中的位置信息的二维代价矩阵c
i,j
,对c
i,j
的水平方向和竖直方向分别取最大值得到对应方向的特征图
[0055]
步骤523,通过式(4)和(5)定义两个偏移模板
[0056]gi,j,l
=(l-j)
×
s1≤l≤wcꢀꢀ
(4)
[0057]mi,j,k
=(k-i)
×
s1≤k≤hcꢀꢀ
(5)
[0058]
其中,s为特征图相对于原图的下采样倍数,wc、hc为特征图的宽高尺寸大小,g
i,j,l
为t帧图像中的目标(i,j)在t-1帧图像中出现在水平位置l的偏移量,m
i,j,k
为t帧目标(i,j)在t-1 帧图像中出现在竖直位置k的偏移量;
[0059]
步骤524,将步骤522得到的与步骤523中定义的偏移模板g和m相乘之后进行通道上的叠加,得到特征图o
t
,代表目标在水平和竖直两个方向上的偏移模板;之后将o
t
进行2倍上采样恢复为hf×
wf大小,同时,将o
t
特征图的水平与竖直两个通道分别与步骤51 得到的f
t
、f
t-1
进行通道上的叠加,再经过卷积形成水平和竖直方向上特征图大小不变、通道数为9的2个特征图,将这2个特征图进行通道上的叠加得到输出特征图f

t

[0060]
与现有技术相比,本发明的有益效果为:
[0061]

在本发明中,适当增加所采用的数据集的输入图片分辨率,保证最终特征图的大小以保留更多的细节信息;
[0062]

本发明在多目标检测模块中,将含有更多语义信息的深层特征图与含有较多细节信息的浅层特征图通过特征融合模块进行融合,提高模型对小目标的检测能力;
[0063]

本发明在多目标检测模块中,通过引入transformer编码模块自注意力机制,捕捉长距离上的依赖关系,发掘特征图中的特征潜在联系,可以稳定识别外观尺度变化较大的目标;
[0064]

提出一种基于代价空间和帧间信息融合的多目标跟踪算法,使用代价空间矩阵预测当前帧目标在上一帧中的位置,可以将两帧之间的目标进行关联,实现跟踪的效果;
[0065]

在多目标跟踪模块中,引入注意力传播模块,将多帧目标的特征进行融合,弥补帧间目标运动造成的目标空间错位问题,使得模型在目标被遮挡的情况下依然能够准确的实现跟踪。
附图说明
[0066]
图1是本发明的多目标检测模块示意图;
[0067]
图2是多目标检测模块中的特征融合模块示意图;
[0068]
图3是多目标检测模块中的transformer编码模块示意图;
[0069]
图4是本发明的多目标跟踪模块示意图;
[0070]
图5是多目标跟踪模块中的代价空间模块示意图;
[0071]
图6是本发明的多目标检测模块实验结果示意图;它们分别为模块对小目标及大目标检测得到的目标中心点和目标边界框结果示意图。
[0072]
图7是本发明的多目标跟踪模块实验结果示意图。分别为两段测试用例的各四张图片,每段测试用例的四张图片分别为第0帧、5帧、10帧和15帧。
具体实施方式
[0073]
下面结合附图和具体实施方式对本发明进行详细说明。
[0074]
本发明的多目标检测与跟踪模型分为两个部分,首先如图1所示为多目标检测模块框架,主要基于改进的dla34作为骨干网络,通过添加特征融合模块得到深浅层网络融合特征图,引入transformer编码模块对融合后的特征图进行自注意力编码,解决因目标特征尺度差异过大导致的网络对大目标语义提取能力的限制问题;最终生成目标热图并回归,得到对应目标的边界框实现以交通目标检测。如图4所示为目标跟踪模块框架,通过centertrack骨干网络生成特征图,利用代价空间矩阵实现两帧之间的目标关联与跟踪;通过使用注意力传播模块,将前后两帧目标信息进行融合互补,实现目标模糊或被遮挡情况下的准确跟踪。
[0075]
本发明的复杂城市道路环境下的多目标检测与跟踪方法,具体包括以下步骤:
[0076]
步骤1:选取公共数据集进行数据增强,得到数据集,构建训练集和测试集。
[0077]
具体是:选择主流交通目标检测数据集visdrone中的visdrone_mot作为本发明的数据集。visdrone_mot数据集由无人机采集了中国多个城市的街道空中俯视景象,提供了96个视频序列,其中包括56个训练视频序列包含24201帧图像、7个验证视频序列包含2819帧图像、33个测试序列包含12968帧图像,并在每个视频帧中手动标注了识别对象的边界框。对 visdrone_mot数据集中的输入图片增加分辨率至1024
×
1024,保证多目标检测模块输出的最终特征图的大小为256
×
256,并保留更多的细节信息,同时,使用随机翻转、分辨率大小为 0.6至1.3倍间的随机缩放、随机裁剪和颜色抖动相结合的数据增强方式,作为扩展训练样本。
[0078]
步骤2:在现有的dla34骨干网络基础上逐层增加特征融合模块实现输入图像的深浅层网络特征融合,得到三个特征融合后的二维特征图。如图1所示,具体包括如下子步骤:
[0079]
步骤21,将训练集中的图像输入至dla34网络,经过batchnorm层和relu层对原始图像进行两次卷积核为3
×
3大小的卷积操作得到两张特征图,将卷积后的两张特征图输入聚合结点进行特征融合,得到分辨率为原输入特征图1/4大小的特征图。其中聚合结点的特征融合如式(1):
[0080]
n(x1,...,xn)=σ(bn(∑wixi b),...,bn(∑wixi b))
ꢀꢀ
(1)
[0081]
其中,n(
·
)表示聚合结点,σ(
·
)表示特征聚合,wixi b表示卷积操作,bn表示
batchnorm 操作,x
i=1...n
对应卷积模块的输出。
[0082]
步骤22,将步骤21中得到的1/4大小的特征图进行2倍下采样得到新的特征图,将该特征图重复两次步骤21中的卷积操作和聚合操作得到两张特征图,并与步骤21中得到的聚合结点作为共同输入再次进行聚合操作,得到分辨率为原输入特征图1/8大小的特征图。该步骤目的是将网络浅层特征信息传递到网络深层。
[0083]
步骤23,按照步骤22中由1/4大小的特征图得到原输入特征图1/8大小的特征图的相同的方式,由1/8大小的特征图得到1/16大小的特征图,再由1/16大小的特征图得到1/32大小的特征图;
[0084]
步骤24,如图2所示,将得到的1/4大小的特征图、1/8大小的特征图、1/16大小的特征图、1/32大小的特征图依次采用特征融合模块进行相邻特征图特征融合,分别得到1/4大小、 1/8大小和1/16大小的新的特征图;
[0085]
所述的特征融合模块用于实现以下操作:
[0086]
步骤241,对特征图f1进行卷积核为3
×
3大小的可变形卷积处理,将处理得到的结果通过batchnorm层和relu层得到经过映射的特征图;
[0087]
步骤242,使用直接插值上采样加卷积处理的形式代替dla34骨干网络中的转置卷积,对步骤241中得到映射后的特征图进行2倍上采样,得到特征图f1

,以获得更多目标位置信息并减小模型参数量;
[0088]
步骤243,将步骤242中得到的特征图f1

与特征图f2对应通道值相加,得到合并特征图;
[0089]
步骤244,将步骤243得到的合并特征图经3
×
3大小的可变形卷积处理后,依次通过 batchnorm层和relu层,得到二维特征图f2


[0090]
当特征图f1、特征图f2分别为1/4大小的特征图、1/8大小的特征图时,得到的二维特征图f2

为1/4大小的特征图;
[0091]
当特征图f1、特征图f2分别为1/8大小的特征图、1/16大小的特征图时,得到的二维特征图f2

为1/8大小的特征图;
[0092]
当特征图f1、特征图f2分别为1/16大小的特征图、1/32大小的特征图时,得到的二维特征图f2

为1/16大小的特征图。
[0093]
步骤3:根据步骤2得到的特征融合后的特征图,采用transformer编码模块提取特征图中长距离特征依赖关系,得到提取依赖关系后的特征图。如图3所示,具体包括如下子步骤:
[0094]
步骤31,将步骤2最终得到的1/16大小的二维特征图坍缩成一维序列,并卷积形成三份 k(key)、v(value)、q(query)特征图;
[0095]
步骤32,将位置编码与步骤31得到的特征图k和特征图q分别进行逐像素相加得到带有位置信息的两个特征图,该两个特征图与特征图v作为共同输入进入多头注意力模块经处理得到新的特征图,以捕捉图像中的长距离依赖。其中位置编码由式(1)(2)得到:
[0096]
pe
(pos,2i)
=sin(pos/10000
2i/d
)
ꢀꢀ
(1)
[0097]
pe
(pos,2i 1)
=cos(pos/10000
2i/d
)
ꢀꢀ
(2)
[0098]
其中,pe
(
·
)
为位置编码的矩阵,其分辨率大小与输入特征图分辨率大小一样,pos表示向量在序列中的位置,而i是通道的索引,d表示输入特征图的通道数。
[0099]
步骤33,对步骤32得到的新的特征图再与步骤31得到的v、k、q特征图进行特征图间对应值相加的融合操作和layernorm(ln)操作,以避免信息损失;
[0100]
步骤34,步骤33得到的结果进入前馈神经网络中进行处理,并通过残差连接输出,得到新的特征图。
[0101]
步骤4:根据步骤2、步骤3得到的特征图,通过进一步特征融合及逻辑回归处理,生成热图以及目标边界框。具体包括如下子步骤:
[0102]
步骤41,将步骤3最终得到的特征图进行2倍上采样得到一个新的特征图。
[0103]
步骤42,将步骤24得到的1/4大小与1/8大小的特征图采用与步骤24中相同的特征融合模块进行特征融合,得到一个1/4大小的新特征图;
[0104]
步骤43,将步骤24得到的1/8大小、1/16大小的特征图采用特征融合模块进行特征融合,并与步骤41得到的特征图进行逐像素相加得到一个1/8大小的新特征图;
[0105]
步骤44,将步骤42得到的1/4大小的特征图和步骤43得到的1/8大小的特征图仍采用特征融合模块进行特征融合生成分辨率为原图1/4大小的热图;
[0106]
步骤45,对步骤44中得到的热图与步骤1得到的数据集中包含目标中心点的热图标签进行逻辑回归,得到预测目标的中心点
[0107]
步骤46,通过式(3)得到每个目标对应的边框左上点与右下点坐标,生成目标边界框:
[0108][0109]
其中,即步骤45得到预测目标的中心点,表示中心点与目标中心点的偏移量,表示目标对应的边框的尺寸。
[0110]
步骤5:根据步骤2的输入图像以及步骤4得到的热图,利用多目标跟踪模块进行目标关联处理与跟踪,得到带有目标检测框的跟踪特征图。如图4所示,具体包括如下子步骤:
[0111]
步骤51,将输入步骤2的同一个图像作为第t-1帧图像,并选取其下一帧图像即第t帧图像,把第t帧和第t-1帧图像作为输入,经过centertrack骨干网络处理分别生成特征图f
t
和 f
t-1

[0112]
步骤52,将特征图f
t
和f
t-1
分别送入如图5所示的代价空间模块进行目标关联处理,得到输出特征图f

t
。具体包括如下操作:
[0113]
步骤521,将特征图f
t
和f
t-1
分别送入代价空间模块中的三层权值共享的卷积结构生成特征图e
t
和e
t-1
,即目标的外观编码向量;
[0114]
步骤522,对特征图e
t
和e
t-1
进行最大池化操作得到e

t
和e

t-1
,以降低模型复杂度,使用e

t
和e

t-1
乘积的转置计算得到代价空间矩阵c,以保存两帧特征图之间对应点的相似度,代价空间矩阵c上的目标在当前帧的位置为(i,j),从代价空间矩阵c中提取含有当前帧中的目标在前一帧图像中的位置信息的二维代价矩阵c
i,j
,对c
i,j
的水平方向和竖直方向分别取最大值得到对应方向的特征图
[0115]
步骤523,通过式(4)和(5)定义两个偏移模板
[0116]gi,j,l
=(l-j)
×
s1≤l≤wcꢀꢀ
(4)
[0117]mi,j,k
=(k-i)
×
s1≤k≤hcꢀꢀ
(5)
[0118]
其中,s为特征图相对于原图的下采样倍数,wc、hc为特征图的宽高尺寸大小,g
i,j,l
为t帧图像中的目标(i,j)在t-1帧图像中出现在水平位置l的偏移量,m
i,j,k
为t帧目标(i,j)在t-1 帧图像中出现在竖直位置k的偏移量。
[0119]
步骤524,将步骤522得到的与步骤523中定义的偏移模板g和m相乘之后进行通道上的叠加,得到特征图o
t
,代表目标在水平和竖直两个方向上的偏移模板;之后将o
t
进行2倍上采样恢复为hf×
wf大小,同时,将o
t
特征图的水平与竖直两个通道分别与步骤51 得到的f
t
、f
t-1
进行通道上的叠加,再经过卷积形成水平和竖直方向上特征图大小不变、通道数为9的2个特征图,将这2个特征图进行通道上的叠加得到输出特征图f

t

[0120]
步骤53,将步骤4中得到的热图与步骤51得到的特征图f
t-1
进行哈德玛乘积生成特征图将与步骤52得到的特征图f

t
一起进行可变形卷积生成特征图
[0121]
步骤54,将依次使用3个1
×
1卷积操作、下采样操作,生成第t-1帧特征图(q
t-1
、 k
t-1
、v
t-1
);将步骤51中得到的特征图f
t
使用3个1
×
1卷积进行操作,生成第t帧特征图(q
t
、k
t
、v
t
);
[0122]
步骤55,将步骤54中的得到的第t帧特征图与第t-1帧特征图共同输入注意力传播模块进行特征传播得到带有目标检测框的跟踪特征图v

t
。其中,注意力传播模块计算过程如式 (6)所示:
[0123][0124]
其中,为1
×
1卷积,dk为特征图q和k的维度,q
t
、k
t-1
、v
t-1
、v
t
为步骤54中得到的特征图。
[0125]
步骤6,采用步骤1的训练集对由步骤2、3、4、5组成的多目标检测与跟踪模型进行训练,并采用测试集进行测试,最终得到训练好的多目标检测与跟踪模型。
[0126]
步骤7,将待检测的视频数据输入训练好的多目标检测与跟踪模型,得到带有目标检测框的跟踪特征图。
[0127]
为验证本发明的可行性和有效性,本发明进行了如下实验:
[0128]
首先,针对多目标检测模块(即步骤2至步骤4),使用平均精确率和召回率对模型进行评价。平均精确率由精确率求得,精确率p和召回率r的公式具体如式(7)、(8)所示。
[0129][0130][0131]
其中,p为应该被检索的目标(tp)占所有被检索到的目标(tp fp)的百分比。r为应该被检索的目标(tp)占应该被检索到的所有目标(tp fn)的百分比。
[0132]
在检测任务中,精确率体现了模型查准的能力,而召回率体现了模型查全的能力。两个指标相互制约,通过在不同置信度阈值下的平均精确率(ap)寻找查准率与查全率间的相对平衡,做出以精确率和召回率作为横纵坐标的二维pr曲线。平均精确率(ap)则为pr曲线包围的面积,等于对精确率进行平均操作。
[0133]
本发明首先对多目标检测模块进行定量分析,通过与基线模型在visdrone_mot数据集上进行对比,并在实验中增加了本发明方法与各种基线方法具体到每一个类别的性能对比,从结果可得,相比于其他模型本发明所提出的方法能够保证针对较小目标正确识别
的情况下兼顾对一些大目标的识别性能。相比于性能优越的常用模型,本发明的方法针对大目标的识别性能最佳,精度达到了42.16和33.10,具有良好的检测能力。
[0134]
同时,为了直观地反应整体多目标检测模块性能,对模块进行定性分析,结果如图6所示,能够看出本发明模型对不同尺度的目标有很好的检测性能,添加了transformer模块之后,模型对远距离依赖关系的捕捉更加稳定,在对小目标拥有良好识别能力的同时对大目标的识别效果依然比较鲁棒。
[0135]
其次,针对多目标跟踪模块(即步骤5),使用mota(

)、motp(

)、idf1(

)、mt(

)、 ml(

)、fp(

)、fn(

)、frag(

)和idsw(

)等指标进行评价。

表示该指标数值越大模型性能越好,

表示该指标数值越小模型性能越好。
[0136]
其中,mota代表多目标跟踪准确度,衡量算法连续跟踪目标的能力,用于统计在跟踪中的误差累积情况,其式如(9)所示。
[0137][0138]
其中,m
t
对应fp,代表预测结果中的假阳性(误检数),即在第t帧中预测位置没有对应的跟踪目标与其匹配。fp
t
对应fn,代表假阴性(漏检数),即在第t帧中目标没有对应的预测位置与其匹配。mme
t
对应idsw,代表误配数,即在第t帧中跟踪目标发生id切换的次数, g
t
指帧中的真正目标数总和,mota综合考虑了目标轨迹中的误检、漏检和id交换。
[0139]
motp表示也直接反应了模型跟踪的效果,反映了跟踪结果与标签轨迹距离上的差距,公式表示为(10)所示。
[0140][0141]
其中,c
t
表示第t帧的匹配个数,对每对匹配计算轨迹误差再进行求和得到最终的数值,该指标越大表示模型性能越好,轨迹误差越小。
[0142]
mt为多数跟踪数(mostly tracked),指命中的轨迹大于80%标签轨迹的轨迹数,该数值越大越好。ml为多数丢失数(mostly lost),指丢失的轨迹大于80%标签轨迹的轨迹数,该数值越小越好。frag为跳变数,指跟踪轨迹从“跟踪”状态到“不跟踪”状态的变化数。
[0143]
对于一个多目标跟踪检测器,id相关的指标同样重要,具体有以下三个重要的指标: idp、idr、idf1。idp表示识别精确度(identification precision),指每个目标框的id识别准确率,其公式为(11)所示。
[0144][0145]
其中idtp和idfp分别是id预测的真阳例数和假阳例数。idr表示识别召回率 (identification recall),指每个目标框的id识别召回率,其公式为(12)所示。
[0146][0147]
其中idfn为id预测的假阴例。idf1表示id预测的f值(identification f-score),指每个目标框的id识别f值,该指标值越大越好,其计算公式为(13)所示。
[0148][0149]
idf1是用来评价跟踪器好坏的第一默认指标,上述三个指标可以使用任意的两个推断另外一个。
[0150]
首先,将多目标跟踪模块与近些年的主流基线模型的定量实验对比,在visdrone_mot数据集上,相比于第二好的模型,本发明提出的跟踪方法在mota和motp指标上分别高出了 3.2和1.8,并且在其他指标上均取得了比较好的结果,而由于本发明模型的误检率较少,导致了ml、mt指标的在正常范围的扰动。相比于tbd模型,jdt模型由于检测和跟踪任务相互促进,在训练过程中能够进行端对端的优化,并且能够在跟踪任务上取得更好的效果。
[0151]
其次,在上述数据集中对模型进行定性分析,如图7所示,其中展示了两段测试样例,每一段选取了其中的四张图片进行展示,分别是时间维度上的第0帧、5帧、10帧和15帧图像。从图中可以看出,模型能够对交通场景下的多目标进行稳定的跟踪,尤其对交通场景下的小目标拥有优秀的检测跟踪能力。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献