基于PSMNet优化特征提取的深度立体匹配方法
- 国知局
- 2024-09-05 14:37:30
本发明属于计算机视觉,尤其涉及基于psmnet优化特征提取的深度立体匹配方法。
背景技术:
1、立体图像的深度估计对于计算机视觉应用至关重要,包括车辆的自动驾驶、3d模型重建以及物体检测和识别,目的是在立体图像的左视图和右视图中找到对应点。然而,目前深度估计仍存在许多挑战,如弱纹理区域、重复纹理区域、反射区域、遮挡区域等,这些都会导致较差的立体匹配结果。
2、立体匹配基本包括四个步骤:成本计算、成本聚合、视差计算和视差细化。传统算法精度较低,但速度较快。基于学习的方法逐渐提高了特征提取的准确性,但需要大量的训练时间。目前,越来越多的学者关注深度学习方法。zbontar和lecun使用卷积神经网络从立体图像中提取特征。与传统的手动特征提取方法相比,基础卷积层可以有效地提高特征提取效率,并具有较高的鲁棒性。然而,这种方法在其他步骤中仍然使用传统的管道,导致实时性较差。mayer等人首先提出了一种称为dispnet的端到端立体匹配网络,该网络将传统算法的所有步骤集成到一个网络中。它可以通过向具有良好性能的网络输入发送立体图像对来直接获得视差图。chang等人提出了立体匹配网络psmnet,该网络使用残差神经网络作为特征提取部分的骨干部分。
3、因此,如何对现有的立体图像的深度立体匹配方法进行改进,以提高特征提取的准确性,增强特征提取效果,是目前亟需解决的技术问题。
技术实现思路
1、本发明的目的在于提供基于psmnet优化特征提取的深度立体匹配方法,用以实现对现有的立体图像的深度立体匹配方法进行改进,以提高特征提取的准确性,增强特征提取效果。
2、为实现上述技术效果,本发明采用的技术方案如下:
3、基于psmnet优化特征提取的深度立体匹配方法,包括以下步骤:
4、s1:将特征提取类中firstconv拼接的原psmnet中由卷积、归一化和线性校正单元relu三层分别拆分出来搭建成三层基础卷积层,并将每部分的卷积层和bn层通过定义convbn层结合起来;
5、s2:根据定义的convbn层对初始图像进行卷积归一化处理,并对卷积归一化处理后的初始图像加入线性校正单元relu,提取初始图像的第一部分深度图像特征;
6、s3:基于滞回注意力机制算法对所述第一部分深度图像特征进行进一步提取得到第二部分深度图像特征;
7、s4:通过aspp的模块对所述第二部分深度图像特征进行多尺度特征提取,并输出最终图像特征。
8、优选的,步骤s1中,还包括对定义convbn层设置参数,设置的参数包括in_planes,out_planes,kernel_size,stride,pad, dilation,其中in_planes对应输入图像大小,out_planes对应输出图像大小,kernel_size对应卷积核大小,stride对应卷积核步距,pad对应图像周围填充大小,dilation对应卷积扩展率。
9、优选的,步骤s2中包括以下过程:
10、s21:根据搭建的三层基础卷积层,包括第一层基础卷积层,第二层基础卷积层和第三基础卷积层,在第三层基础卷积层提取的特征上添加第一层基础卷积层和第二层基础卷积层穿插而来的特征提取结果;
11、s22:通过步骤s1的过程构建龙格库塔结构,具体公式为:
12、;
13、其中,为图像经过第一层基础卷积层之后输出的特征结果,为的特征结果经过第二层基础卷积层之后加上前后特征结果项之差的1.5倍。
14、优选的,步骤s3包括以下具体过程:
15、s31:构建resnet基本块,原psmnet中基本块共四层,由定义的convbn层搭建两层卷积层结合一层下采样层,降低特征图像的维度;
16、s32:resnet基本块的第二层和第四层中加入cbam注意力机制,所述cbam注意力机制包括通道注意力机制和空间注意力机制,将第一部分深度图像特征输入通道注意力机制模块;
17、s33:将输出特征传入到空间注意力机制模块中;
18、s34:将cbam注意力机制融合滞回结构,衔接在第一部分深度图像特征之后;
19、s35:在第二、四层resnet基本块加入cbam注意力机制融合滞回结构后,利用concat函数拼接和额外两层卷积层,对cbam注意力机制更加的关注的图像特征部分进行进一步的细化。
20、优选的,步骤s32中将第一部分深度图像特征输入通道注意力机制模块的具体公式如下:
21、mc(f) = σ (mlp(avgpool(f))+mlp(maxpool(f)));
22、其中,mc为通道注意力权重矩阵,σ为sigmoid激活函数,mlp模块将通道压缩再扩张,avgpool是平均池化操作,maxpool是最大池化操作,f是给定一个中间特征映射作为输入。
23、优选的,步骤s33中将输出特征传入到空间注意力机制模块中的具体公式如下:
24、;
25、其中,ms为空间注意力权重矩阵,是选用了7×7的卷积操作,σ 为sigmoid激活函数,avgpool是平均池化操作,maxpool是最大池化操作,f是给定一个中间特征映射作为输入;
26、步骤s34中,将cbam注意力机制融合滞回结构,衔接在第一部分深度图像特征之后,滞回结构在网络中的公式如下:
27、;
28、其中,sn,n=0,1...,n-1表示第n个卷积块的输出,为定义的每步卷积操作,input为输入维度,α为定义的超参数,用来调整滞回结构向反方向传输特征的大小, an-1是注意力掩码,以自监督的方式通过反向传播来学习,sn和sn-1是前后输出的图像结果。
29、优选的,步骤s4中包括以下具体过程:
30、s41:搭建基础的aspp的模块,根据convbn层搭配relu线性激活单元,由于aspp模块是并行结构,在convbn中的dilation参数调整为各自的大小;
31、s42:构建五层aspp模块,承接步骤s3得到的图像特征,分别设置扩展率1,6,12,18,24;
32、s43:利用一层concat拼接和lastconv卷积操作,将不同大小的信息特征融合在一起,通过一层卷积输出最终的图像特征。
33、本发明的有益效果包括:
34、本发明提供的基于psmnet优化特征提取的深度立体匹配方法,通过将特征提取类中firstconv拼接的原psmnet中由卷积、归一化和线性校正单元relu三层分别拆分出来,将每部分的卷积层和bn层通过定义convbn层结合;定义的convbn层对初始图像进行卷积归一化处理,对卷积归一化处理后的初始图像加入线性校正单元relu,提取初始图像的第一部分深度图像特征;基于滞回注意力机制算法对第一部分深度图像特征进行进一步提取得到第二部分深度图像特征;通过aspp的模块对第二部分深度图像特征进行多尺度特征提取。
35、在特征提取上添加了龙格库塔结构,有效减少特征信息在层与层之间传递时的丢失。通过滞回注意力机制模块,有效增加了感兴趣区域的特征提取效果。通过加入aspp模块提升了不同尺度信息提取的能力。相对于基础模型psmnet,本技术的模型增强了特征提取的效果,而且在没有过于增加模型复杂度的情况下完成了显著的特征提取性能的提升。
本文地址:https://www.jishuxx.com/zhuanli/20240905/287356.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表