一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

无人驾驶目标检测方法、装置、设备及介质与流程

2022-04-16 13:41:23 来源:中国专利 TAG:


1.本发明涉及目标检测技术领域,尤其涉及一种无人驾驶目标检测方法、装置、设备及介质。


背景技术:

2.随着车联网技术的迅速发展,无人自动驾驶系统中的目标检测已成为研究焦点之一。目前,为克服传统机器学习方法的局限,卷积神经网络(cnn)应运而生。与传统方法相比,cnn可以准确地提取出合适的特征,无需额外设计特定的特征。基于cnn的检测方法可以分为one-stage和two-stage两大类。yolo系列属于one-stage的检测方法,因其检测速度快而被广泛应用于目标检测任务中。最新发布的yolov5中,给出了四个应用于目标检测的模型,分别是yolov5s、yolov5m、yolov5l和yolov5x。这四个模型的参数量从小到大依次递增,相比于two-stage检测方法,yolov5由于网络深度较浅因而速度更快,但同时其目标识别精度也有所下降。其中,yolov5s的模型参数最少,但是检测精度不高,在实际应用时无法保证识别的可靠性;而yolov5l、yolov5x其识别准确率提高后检测速度则无法满足实时要求。


技术实现要素:

3.本发明提供一种无人驾驶目标检测方法、装置、设备及介质,能够在原有yolov5算法的基础上,提高检测精度与检测速率,优化yolov5对小目标检测的有效性。
4.为实现上述目的,本发明实施例提供了一种无人驾驶目标检测方法,包括以下步骤:
5.获取路面图像的样本集,对所述样本集进行预处理,并将经过预处理后的样本集分为训练集、验证集和测试集;其中,所述路面图像是由无人驾驶汽车上的图像采集设备采集到的;
6.构建改进yolov5模型;其中,改进主要包括:对bottleneckcsp的模块数量进行修改;在spp结构后引入协同注意力机制;在panet中采用双线性插值法进行上采样;在原有网络结构三层检测层的基础上,增加小目标检测层,以对小目标物体进行检测;将panet中的低层特征与高层特征进行融合;在panet中使用基于分离的卷积运算;采用ciouloss作为目标检测任务的回归损失函数;在预测阶段利用diou作为nms的评判标准;
7.将所述训练集和所述验证集输入到所述改进yolov5模型中进行训练,得到训练好的改进yolov5模型;
8.将所述测试集输入到所述训练好的改进yolov5模型中,对所述测试集中的每一图像进行检测,得到目标检测结果。
9.作为上述方案的改进,所述对bottleneckcsp的模块数量进行修改,包括:
10.将yolov5模型的主干网络中bottleneckcsp的模块数量由(
×
3,
×
9,
×
9,
×
3)修改为(
×
2,
×
6,
×
6,
×
2)。
11.作为上述方案的改进,所述在spp结构后引入协同注意力机制,包括:
12.将位置信息嵌入到通道注意力中,以捕获跨通道的信息、方向感知和位置感知信息,使模型更加精准地定位和识别感兴趣的目标;其中,所述协同注意力机制将通道注意力分解为两个一维特征进行编码,沿着不同的空间方向,分别捕获长程依赖与精确的位置信息,编码形成方向感知和位置敏感的注意力特征图来互补地应用到输入特征图,以增强感兴趣目标的表示。
13.作为上述方案的改进,所述将panet中的低层特征与高层特征进行融合,包括:
14.将原始yolov5模型中14与18层的特征融合改为12与26层,并配合增加检测层之后16与23层的特征融合操作;其中,特征融合操作使用concat方法。
15.作为上述方案的改进,所述采用ciouloss作为目标检测任务的回归损失函数具体为:
[0016][0017][0018]
其中:
[0019][0020][0021]
式中,为giou损失,iou表示pb和gt的交并比,pb中心点用b表示,gt中心点用b
gt
表示,ρ2(
·
)表示欧氏距离,c代表pb与gt的最小包围框的最短对角线长度,α是一个正平衡参数,υ代表长宽比一致性的参数,ω
gt
、h
gt
和ω、h分别表示gt和pb的宽度和高度,预测边界框为(predicted box,pb),真实边界框为(ground truth,gt)。
[0022]
作为上述方案的改进,所述在预测阶段利用diou作为nms的评判标准,包括:
[0023]
diou在iou的基础上考虑了两个边界框中心点的距离,如公式:
[0024][0025]
其中,diou-nms的定义为:
[0026][0027]
表示预测分数最高的一个预测框,bi表示判断是否需要被移除的预测框,si表示分类分数,ε表示nms的阈值。
[0028]
本发明另一实施例对应提供了一种无人驾驶目标检测装置,包括:
[0029]
数据获取模块,用于获取路面图像的样本集,对所述样本集进行预处理,并将经过预处理后的样本集分为训练集、验证集和测试集;其中,所述路面图像是由无人驾驶汽车上的图像采集设备采集到的;
[0030]
模型构建模块,用于构建改进yolov5模型;其中,改进主要包括:对bottleneckcsp的模块数量进行修改;在spp结构后引入协同注意力机制;在panet中采用双线性插值法进
行上采样;在原有网络结构三层检测层的基础上,增加小目标检测层,以对小目标物体进行检测;将panet中的低层特征与高层特征进行融合;在panet中使用基于分离的卷积运算;采用ciouloss作为目标检测任务的回归损失函数;在预测阶段利用diou作为nms的评判标准;
[0031]
模型训练模块,用于将所述训练集和所述验证集输入到所述改进yolov5模型中进行训练,得到训练好的改进yolov5模型;
[0032]
目标检测模块,用于将所述测试集输入到所述训练好的改进yolov5模型中,对所述测试集中的每一图像进行检测,得到目标检测结果。
[0033]
本发明另一实施例对应提供了一种终端设备,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器执行所述计算机程序时实现上述发明实施例所述的无人驾驶目标检测方法。
[0034]
本发明另一实施例提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行上述发明实施例所述的无人驾驶目标检测方法。
[0035]
与现有技术相比,本发明实施例提供的一种无人驾驶目标检测方法、装置、设备及介质,通过在主干网络中引入协同注意力机制,添加小目标检测层,并使用ciou作为边界框回归的损失函数,能够在原有yolov5算法的基础上,提高了检测精度与检测速率,优化了yolov5对小目标检测的有效性,保证了无人驾驶过程中对路面各种大小的复杂物体的精确检测。
附图说明
[0036]
图1是本发明实施例提供的一种无人驾驶目标检测方法的流程示意图;
[0037]
图2是本发明实施例提供的改进的bottleneckcsp模块的结构示意图;
[0038]
图3是本发明实施例提供的引入ca机制的spp结构示意图;
[0039]
图4是本发明实施例提供的将panet中的低层特征与高层特征进行融合的网络结构示意图;
[0040]
图5是本发明实施例提供的一种基于拆分的卷积操作的结构示意图;
[0041]
图6是本发明实施例提供的一种无人驾驶目标检测装置的结构示意图;
[0042]
图7是本发明实施例提供的一种终端设备的结构示意图。
具体实施方式
[0043]
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本发明保护的范围。
[0044]
参见图1,是本发明实施例提供的一种无人驾驶目标检测方法的流程示意图,所述方法包括步骤s11至步骤s14:
[0045]
s11、获取路面图像的样本集,对所述样本集进行预处理,并将经过预处理后的样本集分为训练集、验证集和测试集;其中,所述路面图像是由无人驾驶汽车上的图像采集设备采集到的。
[0046]
s12、构建改进yolov5模型;其中,改进主要包括:对bottleneckcsp的模块数量进行修改;在spp结构后引入协同注意力机制;在panet中采用双线性插值法进行上采样;在原有网络结构三层检测层的基础上,增加小目标检测层,以对小目标物体进行检测;将panet中的低层特征与高层特征进行融合;在panet中使用基于分离的卷积运算;采用ciouloss作为目标检测任务的回归损失函数;在预测阶段利用diou作为nms的评判标准。
[0047]
s13、将所述训练集和所述验证集输入到所述改进yolov5模型中进行训练,得到训练好的改进yolov5模型。
[0048]
s14、将所述测试集输入到所述训练好的改进yolov5模型中,对所述测试集中的每一图像进行检测,得到目标检测结果。
[0049]
示例性地,通过无人驾驶汽车车载摄像头采集路面图像,并实时上传至车联网信息网络服务器中,应用本实施例所述的改进yolov5算法对图像中的路面情况进行目标分析,最后由目标检测结果引导车辆选择最佳行驶路径。
[0050]
可以理解的是,近年来,国内车联网技术迅速发展。目前中国车联网标准体系建设基本完备,车联网成为汽车工业产业升级的创新驱动力。车联网的装机率大概有三百多万台,市场增长率有107%,渗透率有15%。而随着车联网技术的迅速发展,无人驾驶也逐渐进入大众视野,成为世界各国政府和科技公司发展的对象,而无人自动驾驶系统中的目标检测就成为研究人员研究的焦点。但是在驾驶场景的条件下,无人驾驶目标检测中速度和准确率漏检率就是最核心的因素,所以无人驾驶未来的优化方向会是检测速度,检测准确率和检测漏检率等方面。
[0051]
目前基于深度学习常用的目标检测算法主要分为基于检测区域的r-cnn算法,以r-cnn算法为基础而优化提出的fast-rcnn算法以及faster-rcnn系列算法和实时目标检测的yolo算法,yolo9000算法和yolov3算法以及ssd算法为代表的目标检测算法已经在实际场景中发挥了很好的检测效果。目标检测算法在检测过程通过回归算法实现目标检测,这样就不能将检测区域进行分割检测从而对于目标检测产生混淆,容易产生误检和漏检。但是yolo算法采用直接回归的方式,在网络结构方面对比ssd算法更具有速度和精度优势。
[0052]
进一步的,yolov5是一种单阶段目标检测算法,yolov5相比yolov4而言,在检测平均精度降低不多的基础上,具有均值权重文件更小,训练时间和推理速度更短的特点。yolov5的网络结构分为输入端、backbone、neck、head四个部分:
[0053]
输入端主要包括mosaic数据增强、图片尺寸处理以及自适应锚框计算三部分。mosaic数据增强将四张图片进行组合,达到丰富图片背景的效果;图片尺寸处理对不同长宽的原始图像自适应的添加最少的黑边,统一缩放为标准尺寸;自适应锚框计算在初始锚框的基础上,将输出预测框与真实框进行比对,计算差距后再反向更新,不断迭代参数来获取最合适的锚框值。
[0054]
backbone主要包含了bottleneckcsp和focus模块。bottleneckcsp模块在增强整个卷积神经网络学习性能的同时大幅减少了计算量;focus模块对图片进行切片操作,将输入通道扩充为原来的4倍,并经过一次卷积得到下采样特征图,在实现下采样的同时减少了计算量并提升了速度。
[0055]
neck中采用了fpn与pan结合的结构,将常规的fpn层与自底向上的特征金字塔进行结合,将所提取的语义特征与位置特征进行融合,同时将主干层与检测层进行特征融合,
使模型获取更加丰富的特征信息。
[0056]
head输出一个向量,该向量具有目标对象的类别概率、对象得分和该对象边界框的位置。检测网络由三层检测层组成,不同尺寸的特征图用于检测不同尺寸的目标对象。每个检测层输出相应的向量,最后生成原图像中目标的预测边界框和类别并进行标记。
[0057]
尽管yolov5已经具有了良好的检测性能和推理速度,但针对无人驾驶,仍然存在以下缺陷:
[0058]
(1)算法中主干网络有较多的bottleneck结构,卷积操作中的卷积核包含大量参数,导致识别模型中含有大量参数,增加了模型的部署成本。由于无人驾驶行车图像中小目标物体占据大部分,且小目标的物体更依赖于浅层特征,故特征提取中通过大量的卷积之后容易对小目标对象的特征提取造成一定的信息丢失。
[0059]
(2)原始模型中分别利用8倍下采样、16倍下采样、32倍下采样的特征图作为特征层去检测目标,当输入图像尺寸为640
×
640时,大小分别为80
×
80、40
×
40、20
×
20的检测层大小可以用来分别检测大小在8
×
8、16
×
16、32
×
32以上的目标,所以当某一目标在原输入图像中大小小于8
×
8时去检测目标将会变得困难。
[0060]
(3)在路径聚合网络panet(path aggregationnetwork)中虽然将深层特征图和浅层特征图拼接来融合不同级别的特征信息,但其并未将更加底层的特征图与高层特征图进行融合,且未考虑特征内部的模式冗余。
[0061]
(4)当预测框在目标框内部且预测框大小一致时,边界框回归损失函数giou完全退化为iou损失函数,无法实现高精度的定位。
[0062]
而与现有技术相比,本发明实施例提供的一种无人驾驶目标检测方法,通过在主干网络中引入协同注意力机制,添加小目标检测层,并使用ciou作为边界框回归的损失函数,能够在原有yolov5算法的基础上,提高了检测精度与检测速率,优化了yolov5对小目标检测的有效性,保证了无人驾驶过程中对路面各种大小的复杂物体的精确检测。
[0063]
作为上述方案的改进,所述对bottleneckcsp的模块数量进行修改,包括:
[0064]
将yolov5模型的主干网络中bottleneckcsp的模块数量由(
×
3,
×
9,
×
9,
×
3)修改为(
×
2,
×
6,
×
6,
×
2)。
[0065]
示例性的,在原始模型主干网络中,小目标所具有的特征信息会随着卷积操作而减少或者消失,从而增加了小目标物体的检测难度。改进的yolov5算法简化了主干网络中的特征提取层,将原来主干网络中bottleneckcsp的模块数量(
×
3,
×
9,
×
9,
×
3)变为(
×
2,
×
6,
×
6,
×
2)来提取更多的浅层特征信息;并对由于过多卷积核导致参数量较大的bottleneckcsp的结构进行了改进设计,删除了原始模块分支上的卷积层,并且将bottleneckcsp模块的输入特征映射与另一个分支的输出特征图直接连接,有效地减少了模块中的参数数量。改进的bottleneckcsp模块称为bcsp_1,其结构如附图2所示。
[0066]
作为上述方案的改进,所述在spp结构后引入协同注意力机制,包括:
[0067]
将位置信息嵌入到通道注意力中,以捕获跨通道的信息、方向感知和位置感知信息,使模型更加精准地定位和识别感兴趣的目标;其中,所述协同注意力机制将通道注意力分解为两个一维特征进行编码,沿着不同的空间方向,分别捕获长程依赖与精确的位置信息,编码形成方向感知和位置敏感的注意力特征图来互补地应用到输入特征图,以增强感兴趣目标的表示。
[0068]
示例性的,通常情况下通道注意力会给模型带来比较显著的性能提升,但它们通常会忽略位置信息。为解决这个问题,在spp(spatialpyramid pooling,空间金字塔池化)结构之后增加协同注意力机制(coordattention机制,简称ca机制),将位置信息嵌入到通道注意力中,通过操作不仅能捕获跨通道的信息,还能捕获方向感知和位置感知信息,帮助模型更加精准地定位和识别感兴趣的目标。ca注意力机制将通道注意力分解为两个一维特征进行编码,沿着不同的空间方向,分别捕获长程依赖与精确的位置信息,编码形成方向感知和位置敏感的注意力特征图来互补地应用到输入特征图,从而增强感兴趣目标的表示,其结构附图3所示。
[0069]
具体的,协同注意力机制通过精确的位置信息对通道关系和长期依赖性进行编码,为了实现坐标信息嵌入,首先通过全局平均池化分别对水平方向和垂直方向进行分解,得到两个一维特征编码向量。操作对应图3的x avg pool和y avg pool部分,通过操作解决了全局池化方法难以保存位置信息的缺陷。为了利用上述操作产生的信息表征,首先使用conact级联之前模块生成的两个特征图,然后使用1
×
1卷积变换函数f1对其进行变换操作:
[0070]
f=δ(f1([zh,zw]))(1)
[0071]
式中,[
·
,
·
]为沿空间维数的拼接操作,δ为非线性激活函数,f为在水平方向和垂直方向的空间信息进行编码的中间特征映射。沿着空间维度将f分解个张量fh∈r
c/r
×w和fw∈r
c/r
×w,其中r表示下采样比例。利用2个1
×
1卷积变换fh和fw分别对fh和fw进行变换,使之具有相同通道数的张量,结果如式(2)、式(3)所示:
[0072]gh
=σ(fh(fh))(2)
[0073]gw
=σ(fw(fw))(3)
[0074]
这里σ是sigmoid激活函数。为了降低模型的复杂性和计算开销,这里通常使用适当的缩减比r来减少f的通道数。然后对输出gh和gw进行扩展,分别作为注意力权重。其最终输出如式(4)所示:
[0075][0076]
值得说明的是,通过在主干网络中引入协同注意力机制,在捕获跨通道信息的同时,还能捕获方向感知和位置感知信息,帮助模型更加精准地定位和识别感兴趣区域。对bottleneckcsp结构修改,并减少模块数量来保留更多的浅层特征。另外,采用ca注意力模块与改进的bsp_1模块设计主干网络,提高小目标物体的检测精度能够捕获方向和位置感知信息,更精准地定位和识别感兴趣区域,提高了无人驾驶行车过程中的信息捕捉效率及精度,确保车联网的有效实施。
[0077]
作为上述方案的改进,所述在panet中采用双线性插值法进行上采样,示例性的,可以为:
[0078]
pan需先对高层特征上采样后再向下传递,原始yolov5模型采用最邻近插值法上采样,最邻近插值法的计算开销极小,但算法精度低,本文改进使用双线性插值法上采样,削弱离群点对特征传递造成的干扰。最邻近插值法和双线性插值法都基于后向映射原理,从目标特征映射到源特征,区别在于最邻近插值法在源特征中只取一个参考点,双线性插值法同时计算四个参考点。若上采样后特征大小为n
×
n,则最邻近插值法时间复杂度为o(n2),双线性插值法时间复杂度为o(4n2)。
[0079]
值得说明的是,基于双线性插值法上采样算法将离群点对特征传递造成的干扰削弱,在panet中使用特征图融合以及基于分离的卷积运算来消除同一层内输入特征图中存在的冗余问题。
[0080]
作为上述方案的改进,所述在原有网络结构三层检测层的基础上,增加小目标检测层,以对小目标物体进行检测,示例性的,包括:
[0081]
原有网络结构中采用三层尺度特征图层检测设计,对于640
×
640的输入图像尺度,分别利用8倍、16倍、32倍下采样的特征图作为特征层去检测不同大小尺寸的目标。在无人驾驶的行车过程中所需检测目标通常较小,原有多尺度检测结构对此类目标容易造成漏检。因此,针对该问题改进多尺度检测结构以减少小目标误检率。
[0082]
改进的yolov5算法在原有的网络结构上增加一个特征尺度。conv模块由conv2d与批量归一化bn(batch normalization)层以及leaky relu激活函数构成。其中,conv2d卷积核为1
×
1,步长为1;leakyrelu激活函数可以使网络快速收敛,具有较高的计算效率,同时解决了传统relu激活函数在负区间导致神经元不学习的问题;bn层防止在训练过程中梯度消失或爆炸,加快训练速度。upsample为上采样模块,经过上采样操作扩大特征图。concat代表张量拼接操作,通过操作扩充张量维度,完成特征融合。具体操作为:在第17层后,继续对特征图进行上采样等处理,使得特征图继续扩大,同时在第21层时,将获取到的大小为160
×
160的特征图与骨干网络中第2层特征图进行张量拼接融合,获取更大的特征图便于小目标物体检测。在第22层,即检测层,增加小目标检测层,整个模型在改进以后一共使用四层检测层来进行检测,设计的4个检测尺度同时利用了底层特征高分辨率和深层特征的高语义信息,且没有显著增加网络复杂度。
[0083]
作为上述方案的改进,所述将panet中的低层特征与高层特征进行融合,示例的,包括:
[0084]
在卷积神经网络中,通过卷积核来提取图像的特征图,从而完成对图像多角度的完备描述。低层特征具有更高的分辨率,目标位置较为准确,更能反映图像的具体内容,轮廓、边缘、颜色、纹理和形状特征等特征较为明显;高层特征经过多次卷积操作以后,具有更强的语义信息,能更好的表达人类所能够理解的图像信息,但其分辨率较低。通过对所构建数据路面物体图像进行分析,发现在大多数图像中,需要识别的路面目标大部分都属于中小尺寸情况。为了提高目标检测网络的识别性能,可以将低层特征与高层特征进行高效融合,使之在具有强语义信息的同时对细节仍有较强的感知力。由于改进的网络架构的第25层和28层输出特征图为小型和中型对象目标检测层的输入特征图,因此,为了提高无人驾驶过程中的目标检测准确率,弥补高层特征低分辨率造成的空间信息损失,通过融合多层来提升模型检测性能,对原始体系结构中输入到小型和中型对象规模目标检测层的特征融合进行了改进,将原始模型中14与18层的特征融合改为12与26层,配合增加检测层之后16与23层的特征融合操作,将下层感受野较大的特征提取层的输出与目标检测层之前特征提取层的输出融合。特征融合的操作使用concat方法,concat方法避免了add方法可能造成的信息丢失,而且不受特征图的通道数量限制。通过在特征图的通道进行合并,使描述图像本身的通道数增加,达到信息增广的效果。使模型在检测中小尺寸目标物体时可以具有更好的检测性能。具体网络结构设计如附图4所示。
[0085]
作为上述方案的改进,所述在panet中使用基于分离的卷积运算,示例的,包括:
[0086]
在原有panet中,同一层内的输入特征图具有相似但不完全相同的特征冗余问题,但并不存在相同的两个通道特征,因此无法直接删除冗余通道特征。选择一些具有代表性的特征图来补充代表性信息,而剩余的只需要补充微小的不同细节信息即可。
[0087]
为了确定具有类似模式的特征图是否冗余,可以在层与层之间采取一种基于拆分的卷积操作,即spconv。它可以消除相似特征图中的冗余且需要较少的计算量。
[0088]
在spconv中将输入特征拆分为代表性部分与不确定部分,令x∈r
l
×h×w和y∈rm×h×w分别表示输入、输出特征,其中l表示输入通道个数,m表示输出通道个数,w表示大小为k
×
k的卷积核,对应的卷积计算可以描述为y=wx b。为简化表示,在后续介绍中忽略了偏置项b。卷积计算的矩阵表示为式(5),其中x表示l个输入矩阵,y代表m个输出矩阵,w
ij
代表m个k
×
k大小卷积核的参数。
[0089][0090]
基于拆分的卷积运算将输入通道按比例α拆分为两部分:代表性部分用k
×
k卷积来提供内在信息;冗余性部分用1
×
1卷积来补充微小的隐藏细节。矩阵表示如式(6)所示,其中前半部分是代表性部分,后半部分是冗余性部分:
[0091][0092]
其中,y表示输出矩阵,x表示αl个输入矩阵,w
ij
表示代表性部分在αl个通道上3
×
3卷积核的参数,ω
ij
代表冗余性部分在(1-α)l个通道上1
×
1卷积核的参数(本文中α取0.5)。
[0093]
由于划分卷积之后的代表性部分可以代表不同的特征类别,因此可以将代表性的通道进行划分,每个部分代表一个主要的特征类别。其中在代表性通道上使用3
×
3的群组卷积来进一步减少冗余信息,但是这样的操作有可能削减了必要的通道连接,故在代表性通道中添加1
×
1的点卷积操作来解决此信息的丢失问题。然后将得到的两个特征进行直接求和融合,得到一个额外的分数,式(6)中代表性部分可以表示为式(7):
[0094][0095]
其中,是第l组的逐分组卷积的参数,这里将αc
l
的代表性通道划分为g组,每个组z
l
包括αc
l
/g个通道。通过前述操作得到了两类特征,通过gap全局平均池化操作,生成通道级别的统计量s3、s1用于全局信息的嵌入,得到k个1
×
1的特征图,之后堆叠生成的s3与s1,并经过一个全连接层,得到一个压缩的特征向量z,然后将这个压缩的单维度向量经过softmax层,重新分为两个特征向量β,γ,之后分别与相应的代表性部分和冗余性部分的特征向量进行通道的相乘操作,再通过张量的相加得到最后的输出特征,具体操作如图5所示。
[0096]
值得说明的是,通过采用基于分离的卷积运算spconv及双线性插值法上采样算法,在减少参数量的同时有效消除各层特征图之间的冗余,在降低模型冗余的同时加速模型推理速度,使车联网的数据处理能力提升,保证无人驾驶过程中的指令迅速发放,及时规划行车路线、改变车速等。
[0097]
作为上述方案的改进,所述采用ciouloss作为目标检测任务的回归损失函数,示例性的,具体包括:
[0098]
yolov5损失函数的定义如式(8)所示,其损失函数由三部分组成,分别为置信度损失l
obj
、分类损失l
cls
以及目标框和预测框的位置损失l
box

[0099]
loss=l
obj
l
cls
l
box
ꢀꢀ
(8)
[0100]
目标置信度误差l
obj
定义如式(9)所示:
[0101][0102]
目标分类误差l
cls
定义如式(10)所示:
[0103][0104]
目标框位置误差l
box
使用giou loss作为边界框回归损失函数,用以评判预测边界框(predicted box,pb)和真实边界框(ground truth,gt)的距离,如公式(11)(12)所示:
[0105][0106][0107]
式中iou表示pb和gt的交并比,ac表示将pb和gt同时包含的最小的矩形框的面积,μ表示pb和gt的并集,为giou损失。
[0108]
yolov5原始模型中使用giou loss的优势是尺度不变性,即pb和gt的相似性与它们的空间尺度大小无关。giou loss的问题在于当pb或者gt被对方完全包围的时候,因为这时pb和gt的差集都是相同的,giou loss完全退化为iou loss,由于它严重地依赖于iou项,导致在实际训练中收敛速度过慢,并且预测的边界框精度较低。本文采用ciou_loss作为目标检测任务的回归损失函数。ciou loss针对以上问题,同时考虑了pb和gt的重叠面积、中心点距离、长宽比例,当gt包裹pb的时候,直接度量2个框的距离,从而考虑了边界框中心点距离的信息与边界框宽高比的尺度信息,与此同时也考虑了pb和gt的长宽比,使边界回归结果更好。如公式(13)(14):
[0109][0110]
[0111]
其中,pb中心点用b表示,gt中心点用b
gt
表示,ρ2(
·
)表示欧氏距离,c代表pb与gt的最小包围框的最短对角线长度,α是一个正平衡参数,υ代表长宽比一致性的参数,计算公式如式(15)、(16)所示:
[0112][0113][0114]
式中ω
gt
、h
gt
和ω、h分别表示gt和pb的宽度和高度。
[0115]
相比原始yolov5中使用的giou loss,ciou loss在损失项中加入了pb、gt中心距离和长宽比例的惩罚项,使网络在训练时可以保证预测框更快的收敛,并且得到更高的回归定位精度。
[0116]
值得说明的是,通过采用ciou及diou函数,能够在密集并且容易产生遮挡的场景中精确检测出被遮挡物体,提高了定位精度,保证车联网的无人驾驶行车过程中对复杂图像的准确分析,降低漏检率,减少因图像遮挡导致的交通事故。
[0117]
作为上述方案的改进,所述在预测阶段利用diou作为nms的评判标准,示例性的,包括:
[0118]
在预测阶段,通常使用nms移除多余的检测框,评判的标准是某个检测框与预测得分最高的检测框的交并比iou,当iou大于设定的阈值时,预测的检测框将被移除。在一般场景下,这种方法是有效的,但是在目标密集的环境中,由于各个目标之间相互存在遮挡,不同目标的检测框非常近,重叠面积较大,因此会被nms错误的移除,导致目标检测失败。在监控视频中,车辆目标集中在图像中的道路中间,是一种较为密集并且容易产生遮挡的场景,本文利用diou作为nms的评判标准改善这个问题。
[0119]
diou在iou的基础上考虑了两个边界框中心点的距离,如公式(17):
[0120][0121]
式中ρ2(
·
)、c、b和b
gt
定义与公式(13)相同。
[0122]
diou-nms的定义如公式(18):
[0123][0124]
表示预测分数最高的一个预测框,bi表示判断是否需要被移除的预测框,si表示分类分数,ε表示nms的阈值。diou-nms考虑iou的同时,判断两个边界框和bi中心点的距离,当距离较远时不会移除预测框,而是认为检测到了另外的目标,这有助于解决目标互相遮挡情况下的漏检问题。
[0125]
参见图6,是本发明实施例提供的一种无人驾驶目标检测装置的结构示意图,包括:
[0126]
数据获取模块61,用于获取路面图像的样本集,对所述样本集进行预处理,并将经过预处理后的样本集分为训练集、验证集和测试集;其中,所述路面图像是由无人驾驶汽车上的图像采集设备采集到的;
[0127]
模型构建模块62,用于构建改进yolov5模型;其中,改进主要包括:对bottleneckcsp的模块数量进行修改;在spp结构后引入协同注意力机制;在panet中采用双线性插值法进行上采样;在原有网络结构三层检测层的基础上,增加小目标检测层,以对小目标物体进行检测;将panet中的低层特征与高层特征进行融合;在panet中使用基于分离的卷积运算;采用ciouloss作为目标检测任务的回归损失函数;在预测阶段利用diou作为nms的评判标准;
[0128]
模型训练模块63,用于将所述训练集和所述验证集输入到所述改进yolov5模型中进行训练,得到训练好的改进yolov5模型;
[0129]
目标检测模块64,用于将所述测试集输入到所述训练好的改进yolov5模型中,对所述测试集中的每一图像进行检测,得到目标检测结果。
[0130]
与现有技术相比,本发明实施例提供的一种无人驾驶目标检测装置,通过在主干网络中引入协同注意力机制,添加小目标检测层,并使用ciou作为边界框回归的损失函数,能够在原有yolov5算法的基础上,提高了检测精度与检测速率,优化了yolov5对小目标检测的有效性,保证了无人驾驶过程中对路面各种大小的复杂物体的精确检测。
[0131]
另外,需要说明的是,本实施例的无人驾驶目标检测装置的各实施例的相关具体描述和有益效果可以参考上述的无人驾驶目标检测方法的各实施例的相关具体描述和有益效果,在此不作赘述。
[0132]
参见图7,是本发明实施例提供的一种终端设备的结构示意图。该实施例的终端设备7包括:处理器70、存储器71以及存储在所述存储器71中并可在所述处理器70上运行的计算机程序。所述处理器70执行所述计算机程序时实现上述各个车载氛围灯的控制方法实施例中的步骤。或者,所述处理器70执行所述计算机程序时实现上述各装置实施例中各模块的功能。
[0133]
示例性的,所述计算机程序可以被分割成一个或多个模块,所述一个或者多个模块被存储在所述存储器71中,并由所述处理器70执行,以完成本发明。所述一个或多个模块可以是能够完成特定功能的一系列计算机程序指令段,该指令段用于描述所述计算机程序在所述终端设备7中的执行过程。
[0134]
所述终端设备7可以是桌上型计算机、笔记本、掌上电脑及云端服务器等计算设备。所述终端设备7可包括,但不仅限于,处理器70、存储器71。本领域技术人员可以理解,所述示意图仅仅是终端设备的示例,并不构成对终端设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件,例如所述终端设备7还可以包括输入输出设备、网络接入设备、总线等。
[0135]
所称处理器70可以是中央处理单元(central processing unit,cpu),还可以是其他通用处理器、数字信号处理器(digital signal processor,dsp)、专用集成电路(application specific integrated circuit,asic)、现场可编程门阵列(field-programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等,所述处理器70是所述终端设备7的控制中心,利用各种接口和线路连接整个终端设备7的各个部分。
[0136]
所述存储器71可用于存储所述计算机程序和/或模块,所述处理器70通过运行或
执行存储在所述存储器71内的计算机程序和/或模块,以及调用存储在存储器71内的数据,实现所述终端设备7的各种功能。所述存储器71可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等;存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外,存储器71可以包括高速随机存取存储器,还可以包括非易失性存储器,例如硬盘、内存、插接式硬盘,智能存储卡(smart media card,smc),安全数字(secure digital,sd)卡,闪存卡(flash card)、至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。
[0137]
其中,所述终端设备7集成的模块如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于计算机可读存储介质中,该计算机程序在被处理器70执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括:能够携带所述计算机程序代码的任何实体或装置、记录介质、u盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、电载波信号、电信信号以及软件分发介质等。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。
[0138]
需说明的是,以上所描述的装置实施例仅仅是示意性的,其中所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本实施例方案的目的。另外,本发明提供的装置实施例附图中,模块之间的连接关系表示它们之间具有通信连接,具体可以实现为一条或多条通信总线或信号线。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。
[0139]
综上所述,而与现有技术相比,本发明实施例提供的一种无人驾驶目标检测方法、装置、设备及介质,具有以下有益效果:
[0140]
(1)在主干网络中引入协同注意力机制,在捕获跨通道信息的同时,还能捕获方向感知和位置感知信息,帮助模型更加精准地定位和识别感兴趣区域。对bottleneckcsp结构修改,并减少模块数量来保留更多的浅层特征。
[0141]
(2)在原有网络结构三层检测层的基础上,添加小目标检测层,从而提高对小目标物体的检测性能。
[0142]
(3)在pan结构中采用双线性插值法上采样算法,削弱离群点对特征传递造成的干扰。
[0143]
(4)将panet中更加底层的特征图与高层特征图进行融合,且在panet中使用基于分离的卷积运算来消除同一层内输入特征图中存在的冗余问题。
[0144]
(5)使用ciou作为边界框回归的损失函数,解决预测框在目标框内部且预测框大
小一致的情况,提高定位精度。
[0145]
(6)在预测阶段,利用diou作为nms的评判标准改善,解决目标互相遮挡情况下的漏检问题。
[0146]
本发明实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序,其中,在所述计算机程序运行时控制所述计算机可读存储介质所在设备执行如上述所述的无人驾驶目标检测方法。
[0147]
本领域技术人员可以理解,可以对实施例中的装置中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个装置中。可以把实施例中的模块或单元组合成一个模块或单元,以及此外可以把它们分成多个子模块或子单元。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
[0148]
应该注意的是,上述实施例对本发明进行说明而不是对本发明进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包括”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。
[0149]
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本发明的范围之内并且形成不同的实施例。例如,在本发明的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
[0150]
以上所述是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也视为本发明的保护范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献