技术新讯 > 计算推算,计数设备的制造及其应用技术 > 自动驾驶场景下的跨模态特征级融合目标检测方法及系统  >  正文

自动驾驶场景下的跨模态特征级融合目标检测方法及系统

  • 国知局
  • 2024-11-06 14:29:18

本发明属于目标检测,尤其是涉及一种自动驾驶场景下的跨模态特征级融合目标检测方法及系统。

背景技术:

1、近年来,自动驾驶技术逐渐成为产业界和科研界的热门方向,其中,感知技术在其中作为关键一环发挥重要作用。当前研究中,基于可见光的目标感知检测技术已经获得长足进步,然而在某些极端环境下,如光线不足、目标遮挡,其检测准确性和实时性会受到影响。为解决这些问题,研究人员引入红外传感器,利用其在恶劣环境的适应性和良好的模态互补性作为可见光的信息补充。

2、发明人发现,现有的基于可见光和红外光的目标检测方案,在对两种光进行利用时,通常仅是对两种光下的成像进行特征提取后简单拼接,获得融合特征,但是,由于两种模态的成像机理各有不同,且表征的信息也存在模态差异,进而导致传统方法的融合特征方式无法实现两种模态信息的优势互补,无法有效提升环境感知目标检测效率。

技术实现思路

1、本发明实施例提供了一种自动驾驶场景下的跨模态特征级融合目标检测方法及系统,以解决由于可见光和红外光的成像机理各有不同,且表征的信息也存在模态差异,进而导致传统方法的融合特征方式无法实现两种模态信息的优势互补,无法有效提升环境感知目标检测效率的问题。

2、根据本发明实施例的第一方面,提供了一种自动驾驶场景下的跨模态特征级融合目标检测方法,包括:

3、实时获取待目标检测区域的可见光图像和红外图像;

4、基于获得的可见光图像和红外图像,利用预先训练的跨模态特征级融合目标检测模型,获得目标检测结果;

5、所述跨模态特征级融合目标检测模型,具体执行如下处理过程:对于输入的可见光图像和红外图像,分别提取可见光图像的多尺度特征以及红外图像的多尺度特征;基于可见光图像的多尺度特征以及红外图像的多尺度特征,利用预先构建的双流动态卷积融合模块,获得可见光图像和红外图像的融合特征;基于所述融合特征,利用预先构建的检测头,获得目标检测结果;

6、其中,所述双流动态卷积融合模块,具体执行如下处理过程:基于可见光图像的多尺度特征以及红外图像的多尺度特征,利用模态视差提取网络,获得两种模态特征的视差注意掩码;基于所述视差注意掩码以及基于预设的若干初始卷积核获得的特征注意掩码,获得可见光动态卷积核和红外光动态卷积核;将可见光动态卷积核与红外图像的多尺度特征进行卷积,红外光动态卷积核与可见光图像的多尺度特征进行卷积,获得包含模态特有特性和模态间差异性的可见光特征和红外光特征;将获得的可见光特征和红外光特征进行互补融合,获得融合特征。

7、进一步的,基于所述视差注意掩码以及基于预设的若干初始卷积核获得的特征注意掩码,获得可见光动态卷积核和红外光动态卷积核,具体表示为不同卷积核对应的特征注意力掩码、卷积核以及视差注意力掩码点乘后求和得到。

8、进一步的,所述将获得的可见光特征和红外光特征进行互补融合,具体表示如下:

9、

10、其中,fir,fv分别为包含模态特有特性和模态间差异性的红外光特征和可见光特征,[fir,fv]为fir和fv的拼接特征;表示softmax操作的输出概率,ff为融合特征。

11、进一步的,所述跨模态特征级融合目标检测模型的训练中,采用监督学习方式,并采用引入核信息散度损失的损失函数;其中,所述核信息散度损失表示为:

12、

13、其中,kv,kir分别为可见光动态卷积核和红外光动态卷积核,dkl(kv,kir)表示kv和kir的kl散度。

14、进一步的,所述损失函数具体表示为:

15、

16、其中,为核信息散度损失,以及分别为yolov5中的边界框回归损失、目标分类损失和目标置信度损失。

17、进一步的,所述视差注意掩码采用模态视差提取网络进行生成,所述视差注意掩码的生成具体表示为:

18、

19、其中,σ表示sigmoid函数,ha表示由mlp和一个全局最大池化层组成的网络,hm表示由mlp和一个全局平均池化层组成的网络,mlp是由一个1×1卷积、一个relu激活和另一个1×1卷积组成的网络。

20、进一步的,所述可见光图像的多尺度特征以及红外图像的多尺度特征的提取,具体采用yolov5中的cspdarknet进行特征提取。

21、根据本发明实施例的第二方面,提供了一种自动驾驶场景下的跨模态特征级融合目标检测系统,包括:

22、数据获取模块,其用于实时获取待目标检测区域的可见光图像和红外图像;

23、目标检测模块,其用于基于获得的可见光图像和红外图像,利用预先训练的跨模态特征级融合目标检测模型,获得目标检测结果;所述跨模态特征级融合目标检测模型具体执行如下处理过程:对于输入的可见光图像和红外图像,分别提取可见光图像的多尺度特征以及红外图像的多尺度特征;基于可见光图像的多尺度特征以及红外图像的多尺度特征,利用预先构建的双流动态卷积融合模块,获得可见光图像和红外图像的融合特征;基于所述融合特征,利用预先构建的检测头,获得目标检测结果;其中,所述双流动态卷积融合模块具体执行如下处理过程:基于可见光图像的多尺度特征以及红外图像的多尺度特征,利用模态视差提取网络,获得两种模态特征的视差注意掩码;基于所述视差注意掩码以及基于预设的若干初始卷积核获得的特征注意掩码,获得可见光动态卷积核和红外光动态卷积核;将可见光动态卷积核与红外图像的多尺度特征进行卷积,红外光动态卷积核与可见光图像的多尺度特征进行卷积,获得包含模态特有特性和模态间差异性的可见光特征和红外光特征;将获得的可见光特征和红外光特征进行互补融合,获得融合特征。

24、根据本发明实施例的第三个方面,提供了一种电子设备,包括存储器、处理器及存储在存储器上运行的计算机程序,所述处理器执行所述程序时实现所述的一种自动驾驶场景下的跨模态特征级融合目标检测方法。

25、根据本发明实施例的第四个方面,提供了一种非暂态计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现所述的一种自动驾驶场景下的跨模态特征级融合目标检测方法。

26、以上一个或多个技术方案存在以下有益效果:

27、(1)本发明提供了一种自动驾驶场景下的跨模态特征级融合目标检测方法及系统,所述方案基于提出的双流动态卷积融合模块,进行不同模态图像特征的融合,最大限度地保留了不同模态输入数据中的独特特征,使内核能够专注于特定于模态的特征,同时,基于双流动态卷积融合模块,结合yolov5的主干网络,提出一种跨模态特征级融合目标检测模型,有效提高了目标检测的精度。

28、(2)本发明所述双流动态卷积融合模块中通过引入视差注意掩码,使得卷积核对模态间差异更加敏感,允许它们选择性地提取不同的特征进行互补融合。

29、(3)本发明还提供了一种核信息散度损失,通过充分利用模态之间的差异性特征来指导单模态特征学习。通过将核信息散度损失直接作用在跨模态特征级融合目标检测上,有利于鲁棒特征的生成。

30、本发明附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。

本文地址:https://www.jishuxx.com/zhuanli/20241106/322371.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。