技术新讯 > 计算推算,计数设备的制造及其应用技术 > 融合交替序列注意力感知的立体匹配网络构建方法及存储介质 > 正文

融合交替序列注意力感知的立体匹配网络构建方法及存储介质

国知局
2024-07-31 23:16:06

本发明主要涉及到计算机视觉应用，特指一种融合交替序列注意力感知的立体匹配网络构建方法及存储介质。

背景技术：

1、双目立体视觉是计算机视觉领域中感知空间三维信息的一种重要手段，通过双目相机采集二维图像恢复出真实空间的三维信息。而立体匹配是其中一个较重要的环节，即寻找空间中点在不同视角下的同名点，然后基于同名点构造相似三角形计算视差信息，生成的视差图通过相机固有参数转换成精确的深度图，广泛应用于自动驾驶、三维重建、无人机导航和工业检测等领域。

2、现今较主流的立体匹配方法都是基于神经网络数据监督方法构建的，其主要步骤可归纳为以下四步：提取图像特征，构建匹配代价卷，聚合代价卷，视差回归。许多现有的方法通过一些策略不断优化其中的环节，比较常见的改进措施有:替换先进的骨干网络去提取更加丰富的图像特征、引入上下文信息引导代价卷的聚合优化和采用由粗到细的逐级优化视差的级联框架等。尽管这些方法在大多数的场景匹配效果上取得了显著的提升，但是在一些重复纹理和弱纹理区域的匹配效果还是会受到限制，并且基于合成场景数据集训练的模型在一些复杂的真实场景的泛化效果较差，因此需要有效的方法去提高模型在通用场景的泛化性。

3、现有主流的立体匹配网络的特征提取模块都是基于cnn(卷积神经网络)实现的，cnn中特征提取是通过卷积层实现的，主要提取物体纹理、颜色、形状和层次等图像固有属性特征，这种特征在弱纹理以及重复纹理的区域不易区分，从而导致匹配效果变差。除此之外，现有立体匹配方法主要通过构建四维匹配代价卷去联结左右视图特征，四维匹配代价卷的维度中有一项是视差范围，这要求模型在构建的过程中就初始化确定视差范围，但不同的数据集可能包含不同视差范围的场景，初始固定视差范围会对不同场景和数据集的泛化性产生影响。

技术实现思路

1、本发明要解决的技术问题就在于：针对现有技术存在的技术问题，本发明提供一种原理简单、实现简便、能够大幅提高精确度的融合交替序列注意力感知的立体匹配网络构建方法及存储介质。

2、为解决上述技术问题，本发明采用以下技术方案：

3、一种融合交替序列注意力感知的立体匹配网络构建方法，包括：

4、步骤s1：嵌入；使用嵌入方式将输入左右图像数据转化为低维度空间得向量表示，使得相似的图像在数据表示上更加接近；

5、步骤s2：自我注意力；将转换后的低维度数据进行自我注意力，用来进行深层次跨极线的特征挖掘，使模型提取图像的层次化低维度的特征表示；

6、步骤s3：交叉注意力；进行自我注意力特征提取之后，通过交叉注意力建立左右图像特征的相关性，获取左右待匹配像素之间的相关度；

7、步骤s4：在产生的权重注意力矩阵上进行soft-max操作进行预测回归视差，经过双线性插值精细化视差，完成立体匹配网络构建。

8、作为本发明方法的进一步改进：所述步骤s1中，利用极线约束来进行像素匹配，在进入匹配网络框架之前，保留图片的尺寸完整信息；对于每一个像素进行嵌入,采用线性映射的方法进行，将原始数据投影到需要的维度,并且左右图片之间会共享权重。

9、作为本发明方法的进一步改进：所述步骤s2中，采取窗口自注意力机制，其流程包括：

10、给定初始的图片尺寸(h,w)；

11、窗口自注意力机制将图片划分为互不重叠的m×m的窗口；

12、分别在每个窗口执行点积自注意力；假设将每个窗口中的所有像素展开成一组序列x＝[x1,x2,x3,…,xn]，以该序列x通过可训练的线性变换矩阵wq,wk,wv生成查询向量q、键向量k和数值向量v；

13、计算注意力输出的过程如下：

14、

15、其中，dk是查询向量或键向量的维度来控制梯度的大小，·代表点积操作,t代表向量进行转置。

16、作为本发明方法的进一步改进：所述步骤s3中，所述交叉注意力的作用是建立左右图像特征的相关性；同一条极线上具有左右序列，左序列lx＝[l1,l2,l3,…，lw]，右序列rx＝[r1,r2,r3,…,rw],右序列rx进行注意力特征计算通过可训练的线性变换矩阵生成查询向量qr,左序列lx通过可训练线性变换矩阵生成键向量kl,数值向量vl,进行点积注意力得到右序列中间注意力特征完整的右序列更新特征为左序列lx进行注意力特征计算通过可训练的变换矩阵生成查询向量ql，利用右序列产生的中间注意力特征进行线性变换生成键向量kr，数值向量vr，进行点积注意力得到左序列中间注意力特征完整的右序列更新特征为

17、作为本发明方法的进一步改进：给予每个像素一个位置向量，计算位置向量和数据向量之间的注意力特征；即对于位置m的像素而言，它的位置编码分为正弦部分和余弦部分并且是分别计算的，然后在最终的位置编码中相加，完整的位置编码计算如下：

18、

19、其中，m是位置信息，i是维度，表示位置编码的向量中的某个维度，dmodel是模型的隐藏层维度。

20、作为本发明方法的进一步改进：所述交叉注意力同时考虑像素的数据特征和位置特征作为像素匹配之间的参考依据，最后的注意力特征包含了数据-数据，位置-数据，数据-位置向量之间点积注意力结果，以同一极线上左边序列的i和右边序列的j来说，总的注意力计算结果为：

21、

22、其中，di,dj分别代表序列i,j的数据向量，pi-j,pj-i分别代表序列i相对于的j位置，序列j相对于i的位置，代表两个向量进行注意力。

23、作为本发明方法的进一步改进：所述步骤s4中，以权重矩阵(h,w,w)的值作为匹配参考，利用softmax将权重值进行归一化，找到左序列的每一个像素在权重矩阵对应的最大值的右像素，以该像素点为窗口中心，进行双线性插值得到最后的视差。

24、作为本发明方法的进一步改进：采用多尺度的结构，即在不同的图像尺度下反复进行自我-交叉注意力操作；其中，包括上采样和下采样，所述下采样的过程是进行深层次的特征提取，所述上采样的过程在跳跃连接的作用下的监督下进行特征融合；最后在产生的权重注意力矩阵上进行soft-max操作进行预测回归视差，经过双线性插值精细化视差。

25、作为本发明方法的进一步改进：网络结构采用呈上下采样的对称式的u型结构。

26、本发明进一步提供一种存储介质，所述存储介质能够被计算机或处理器读取，所述存储介质中存储有用来执行上述任意一种方法的计算机程序。

27、与现有技术相比，本发明的优点就在于：

28、1、本发明的融合交替序列注意力感知的立体匹配网络构建方法及存储介质，原理简单、实现简便、能够大幅提高精确度；本发明是一种基于交替序列自我-交叉注意力感知的高泛化性立体匹配网络构建方法，将传统二维图像特征匹配机制转换成基行序列像素的相关性匹配，包括：选取自我注意力特征提取模块分别处理双目立体匹配的左右视图，并使用窗口自注意机制提取局部领域特征和保持序列注意力的长短期独立性；基于双目几何约束将左右视图特征按照极线划定像素匹配范围，并在极线上进行交叉注意力生成序列相关性权重矩阵；采用soft-max函数处理权重矩阵寻找相关性最高的像素，并通过双线性插值回归最后的视差图。本发明完全基于注意力机制实现端到端的立体匹配，有效的避免了传统代价几何体视差范围限制的缺陷，提升模型在复杂场景的泛化性，预测出更加准确真实的视差图。

29、2、本发明的融合交替序列注意力感知的立体匹配网络构建方法及存储介质，其中自我-注意力采用窗口自注意力机制，既能较好的提取图像有关的空间局部相关性特征，同时也能图像不同位置之间的长距离依赖关系，从而去通过位置信息改善一些难匹配区域；交叉注意力基于极线对左右视图的像素进行点积注意力来获取像素之间的相关度进行匹配，无需构建匹配代价卷，较好的解决了视差范围限制的问题，提高不同场景数据集的泛化性。