一种跨模态图像融合的全时复杂场景理解方法
- 国知局
- 2024-07-31 23:09:11
本发明涉及无人系统的环境感知领域,尤其涉及一种跨模态图像融合的全时复杂场景理解方法。
背景技术:
1、随着计算机视觉、高性能计算等前沿技术的不断进步,以机器人和自动驾驶汽车为代表的无人系统已经在各个领域展现出了广泛的应用前景。在这些无人系统中,复杂场景的感知与理解显得尤为重要,它直接影响着系统的安全性和可靠性。通过对复杂场景的深度理解,这些无人系统能够更准确地感知周围环境,识别障碍物、行人、交通标志等重要元素,并做出智能决策和行为规划,从而确保系统在各种复杂情况下的稳健运行。
2、语义分割在复杂场景理解中发挥着重要作用,它通过为每个图像元素分配逐像素的类别标签,实现对场景的细粒度理解。基于深度学习的语义分割技术取得了重要的进展,然而,其模型在面对复杂情况时仍然存在鲁棒性不足的问题。在光照较暗或存在遮挡物等复杂场景下,现有模型往往缺乏足够的抗干扰能力,容易出现误判或错判的情况。一些研究表明,通过引入红外热感图像、深度图像、激光雷达图像、超光谱图像等模态数据,作为rgb图像的补充,能够有效增强模型的抗干扰能力,进而提升语义分割模型的精度和鲁棒性。例如,深度信息可以通过提供物体的几何信息,如物体的距离、物体边界和轮廓来作为语义分割的一种补充信息。又如热感图像利用红外辐射捕捉物体表面的热量分布,可以直观地显示物体表面的热量分布情况,其中不同区域的亮度对应着物体的温度,从而准确地反映了物体的热态特征。通过这种联合跨模态数据能够为语义分割模型提供更丰富的信息,帮助模型更好地理解复杂场景,从而提高系统在实际应用中的性能和可靠性。
3、现有的多模态图像语义分割网络主要针对rgb与特定模态的图像设计,即一个输入固定为rgb图像,另外一个输入预先固定为红外热感图像、深度图像、激光雷达图像、超光谱图像的一种图像。针对rgb与深度图像(depth)组成的多模态图像,hazirbas等人提出了一种融合深度信息的卷积神经网路fusenet,引入了空间转换层通过学习来校正输入的rgb和深度图像之间的对应关系。cheng等人提出了第一个局部感知的反卷积神经网络,在每一个反卷积层结合了局部视觉信息和几何信息。lee等人提出了rdfnet网络,提出了一种多层残差特征融合方法,通过在不同层级上融合rgb和深度特征,并采用残差连接方式,实现了更好的特征融合和信息传递。chen等人提出了一种双向跨模态特征传播的方法,引入了分离和聚合门机制和非对称反卷积操作,改善了特征传播和融合的过程。
4、针对rgb与热感图像(thermal)组成的多模态图像,ha等人提出了mfnet网络以及第一个rgb-t城市街景语义分割数据集。该网络采用了两个编码器来分别提取rgb和热感图的特征,并结合一个解码器结构,在编码器的部分上采样操作前融合了两个模态的信息。接着,sun等人设计了rtfnet,采用了resnet作为主干网络,在编码器中通过相加来连接两个模态的相应阶段的特征图,并设计了两个模块来逐步完成特征的提取和分辨率的恢复。li等人充分考虑了不同层次的跨模态特征的特点,提出了分层监督方法来构建和优化模型。而zhou等人则提出了基于模态记忆共享模块和多尺度辅助来处理不同形态特征之间的差异和互补性。
5、但是,实际应用中不同厂家生产的机器人所配置的传感器可能不一样,无法事先知道传感器的配置情况,而现有方法均假定机器装载的传感器为已知,即输入的两种图像模态已知,例如预先设定为rgb-d、rgb-t,导致现有方法可重用性和通用性差。为此,在确定rgb图像为一个输入,另一输入模态未知的情况下,如何解决成像机制带来的误差,充分利用模态之间特征信息得到高质量的语义分割结果是目前仍需要解决的问题。
技术实现思路
1、本发明针对上述已有方法存在的不足,发明了一种跨模态图像融合的全时复杂场景理解方法,在编码器阶段引入了跨模态交互模块,用于促进网络传播过程中两个模态的特征信息交互,以增强特征的互补性。同时,为了充分利用高级语义信息,设计了语义信息增强模块,并对高级语义信息进行了目标和背景的监督。这样能够促进网络对图像中目标的识别和定位,并利用跳跃连接将高级特征融入解码器中,指导模型进行特征学习和表示学习。在解码器阶段,针对模态特征的差异性设计了特征补偿模块,根据模态特征的特点进行特征提取,并将其融合后进行上采样。同时,在模型的输出中,采用了多任务学习,包括边缘分割和语义分割任务,以进一步提升模型的准确性。
2、根据上述思路,实现本发明采取的技术方案为:
3、一种跨模态图像融合的全时复杂场景理解方法,分割模型包括:
4、主干特征提取网络,用于对输入的可见光图像和多模态图像提取不同层次的特征;
5、跨模态交互模块,用于促进网络传播过程中两个模态的特征信息交互,以增强特征的互补性;
6、语义信息增强模块,用于充分利用高级语义信息,并对高级语义信息进行了目标和背景的监督,促进网络对图像中目标的识别和定位;
7、特征补偿模块,用于模态特征的特点进行特征提取、融合和上采样;
8、多任务学习,包括边目标监督、目标轮廓监督和语义分割监督任务,以进一步提升模型的准确性。
9、可选地,所述主干特征提取网络为segformer网络,所述segformer是一种基于transformer架构的语义分割模型,它将自注意力机制引入了语义分割任务中。segformer引入了跨尺度特征融合机制,通过在编码器和解码器中使用不同分辨率的特征图来融合多尺度信息,从而提高了模型对不同尺度目标的感知能力。
10、可选地,所述跨模态交互模块将输入特征和另一个输入特征逐元素相加,得到特征p1;特征p1并行输入到自适应平均池化和自适应最大池化,分别得到特征va和vm,特征va和vm通过共享多层感知机(sharemlp)模块,分别得到权重weighta和weightm;将权重weighta和weightm相加并通过sigmoid函数得到权重weight;将特征和输入到交叉交互模块得到两个输出特征和
11、可选地,所述语义信息增强模块将可见光高级语义信息特征和多模态图像高级语义信息特征逐元素相加得到特征特征依次输入卷积层、正则化、relu激活函数得到特征通过跳跃连接将特征和特征逐元素相加得到特征可见光高级语义信息特征和多模态图像高级语义信息特征元素相乘得到特征特征依次输入卷积层、relu激活函数、卷积层、sigmoid激活函数得到权重weightt,特征和权重weightt通过跳跃连接相乘得到特征特征和特征逐元素相加得到语义信息增强模块的输出特征fsiem。
12、可选地,所述特征补偿模块包含高级特征补偿模块、中级特征补偿模块、低级特征补偿模块;所述高级特征补偿模块是将输入特征和特征在通道上拼接,输入到1×1卷积得到特征将特征分别输入到3×3卷积模块、5×5卷积模块、7×7卷积模块得到特征fcbr3×3、fcbr5×5、fcbr7×7,将特征特征fcbr3×3、特征fcbr5×5和fcbr7×7相加得到特征将特征并行经过全局平均池化、全局最大池化分别得到特征fa和特征fm,将特征fa和特征fm在通道上拼接,依次经过reshape操作、全连接层模块和reshape操作得到权重特征和权重相乘得到特征特征和特征相加后输入到转置卷积模块得到特征fafcm;所述中级特征补偿模块是将输入特征和特征在通道上拼接,输入到1×1卷积得到特征特征分别输入到3×3卷积模块、5×5卷积模块、7×7卷积模块得到特征fcbr3×3、fcbr5×5、fcbr7×7,将特征特征fcbr3×3、特征fcbr5×5和fcbr7×7相加得到特征特征和高级特征补偿模块输出特征fafcm相加得到特征特征并行经过全局平均池化、全局最大池化分别得到特征fa和特征fm,将特征fa和特征fm在通道上拼接,依次经过reshape、全连接层模块和reshape操作,得到权重特征和权重相乘得到特征特征和特征相加后输入到转置卷积模块得到特征fifcm。所述低级特征补偿模块是将输入特征和特征在通道上拼接,输入到1×1卷积得到特征特征分别输入到3×3卷积模块、5×5卷积模块、7×7卷积模块得到特征fcbr3×3、fcbr5×5、fcbr7×7,将特征特征fcbr3×3、特征fcbr5×5和fcbr7×7相加得到特征特征和中级特征补偿模块输出特征fifcm相加得到特征特征并行经过全局平均池化、全局最大池化分别得到特征fa和特征fm,将特征fa和特征fm在通道上拼接,依次经过reshape、全连接层模块和reshape操作得到权重特征和权重相乘得到特征特征和特征相加后输入到转置卷积模块得到特征flfcm。
13、可选地,多损失监督模块这模块得到目标监督、目标轮廓监督和语义分割监督,同时使用三个交叉熵损失函数对三个分割预测计算相应的损失,将三个损失相加得到整个网络损失输出;
14、本发明具有如下优点:
15、1.本发明对复杂的场景下目标的分割精度显著提升,同时模型的参数量较小,便于在嵌入式设备上的部署。
16、2.本发明不针对特定的输入模态对,模型的通用性好。
本文地址:https://www.jishuxx.com/zhuanli/20240730/196105.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表