一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

用于立体视觉在线自校正与自监督视差估计的优化方法

2022-06-29 16:54:14 来源:中国专利 TAG:


1.本发明属于计算机视觉技术领域,具体涉及用于立体视觉在线自校正与自监督视差估计的优化方法。


背景技术:

2.立体视觉是计算机视觉领域的经典问题之一,在三维重建、机器人导航、工业检测等领域应用广泛。立体校正和立体匹配是立体视觉系统的两个关键组成部分。前者是通过对左右图像对进行投影变换或者单应变换,使得两幅图像的极线水平对齐,经过极线校正后的对应像素一般位于两幅图像的同一水平图像行上。然后,立体匹配在计算对应点间的偏移量(即视差估计)时只需沿x轴方向搜索,从而显著降低计算开销。
3.得益于深度学习技术的快速发展,近几年立体匹配网络在计算精度和处理速度方面相比于传统方法取得了大幅提升。但是,现有的立体匹配网络均假定输入数据是经过离线校正的左右图像对。在实际使用过程中,一旦立体视觉系统因受到碰撞或颠簸而引起机械错位,离线计算的变换参数将会失效,无法有效校正图像,也会导致后续视差估计出错。因此,在移动终端部署的立体视觉系统需要具备实时在线自校正功能以保证后续视差估计的准确性。
4.在已有工作中,立体校正和立体匹配通常被当作两个独立的模块设计。立体校正以传统方法居多,一般首先采用棋盘格离线标定相机的内外参,然后再根据标定参数计算单应变换矩阵。常用方法包括loop、hartley、fusiello等主要基于sift ransac的方式进行特征点提取并计算单应矩阵,虽然这些方法可以用于在线校正,但传统的特征提取算子提取的特征点准确性不高,处理速度也相对较慢,难以满足实时在线自校正的需求。对于立体匹配而言,目前已有方法大多数采用有监督回归的方式预测视差图,需要严重依赖大规模的激光雷达点云数据。但是,基于点云得到真值标签的处理流程复杂且成本高,大大限制了立体视觉的适用性。综上所述,立体视觉系统需要一个更加鲁棒的解决方案,从而一定程度上能够容忍立体图像对的轻微扰动或变化。


技术实现要素:

5.本发明的目的在于提出用于立体视觉在线自校正与自监督视差估计的优化方法,该方法是一种端到端联合优化方法,能够克服现有技术的缺点。本发明联合学习单应变换矩阵和空间匹配关系,从而使立体视觉系统同时具备立体图像对的线上实时自校正和自监督视差预测功能。
6.为达到上述目的,本发明采用如下技术方案来实现:
7.用于立体视觉在线自校正与自监督视差估计的优化方法,包括如下过程:
8.利用权重共享的特征提取方法对未校正的立体图像进行特征提取,得到未校正图像对的特征,对未校正图像对的特征进行拼接,然后再进行编解码处理,得到四点法参数化后的单应性参数,将所述单应性参数用归一化的直接线性变换算法计算得到单应性变换矩
阵,得到校正后的图像;
9.将所述校正后的图像进行特征提取,得到不同尺度特征,再用关联的方式构建对应的多尺度代价体,最后进行代价聚合,利用视差回归得到最终的视差预测结果,实现立体视觉在线自校正和自监督视差估计的端到端联合优化。
10.优选的,所述四点法参数化的过程包括:在未校正图像上随机找一个矩形区域,设该矩形区域的四个顶点坐标为(xk,yk)
k=1,2,3,4
,校正后图像中对应点的四个顶点坐标为(x
′k,y
′k)
k=1,2,3,4
,单应性参数h
4pt
如下:
[0011][0012]
优选的,利用权重共享的特征提取方法对未校正的立体图像进行特征提取时,用二维卷积将输入图像逐级下采样到第一分辨率和第二分辨率,然后用若干个包含扩张卷积的残差块进一步提取图像特征。
[0013]
优选的,对未校正图像进行特征提取后,将立体图像对应的未校正两幅图像的特征进行拼接,连续用若干次编解码的过程,来学习这两幅图像特征之间的关联性,最后计算得到单应性参数。
[0014]
优选的,将所述校正后的图像进行特征提取时,得到第一分辨率、第二分辨率和第三分辨率下的特征。
[0015]
优选的,用关联的方式构建对应的多尺度代价体,最后进行代价聚合时:
[0016]
将第一分辨率、第二分辨率和第三分辨率下校正后图像对特征分别关联起来,并分别在第一分辨率、第二分辨率和第三分辨率尺度上构建三维代价体,随后用跨尺度聚合方法进行代价聚合;进行代价聚合时,在每个尺度上,一个聚合代价体由第一分辨率、第二分辨率和第三分辨率三个尺度的三维代价体加和产生;加和计算多尺度代价体时,通过下采样和上采样操作统一到相同尺寸;
[0017]
利用视差回归得到最终的视差预测结果时,使用soft argmin机制对所有尺度的聚合代价进行回归。
[0018]
优选的,第一分辨率为未校正的立体图像分辨率的1/2,第二分辨率为未校正的立体图像分辨率的1/4,第三分辨率为未校正的立体图像分辨率的1/8;所述未校正的立体图像包含其对应的左图像和右图像。
[0019]
本发明还提供了用于立体视觉在线自校正与自监督视差估计的优化系统,包括:
[0020]
立体校正模块:用于利用权重共享的特征提取方法对未校正的立体图像进行特征提取,得到未校正图像对的特征,对未校正图像对的特征进行拼接,然后再进行编解码处理,得到四点法参数化后的单应性参数,将所述单应性参数用归一化的直接线性变换算法计算得到单应性变换矩阵,得到校正后的图像;
[0021]
立体匹配模块:用于将所述校正后的图像进行特征提取,得到不同尺度特征,再用关联的方式构建对应的多尺度代价体,最后进行代价聚合,利用视差回归得到最终的视差预测结果,实现立体视觉在线自校正和自监督视差估计的端到端联合优化。
[0022]
优选的:所述立体校正模块包括:
[0023]
第一权值共享的特征提取模块:用于使用若干步长为2的3
×
3的卷积,使得输入的每个未校正图像被逐渐下采样为第一分辨率和第二分辨率,然后采用n个包含3
×
3扩张卷积、批处理归一化和relu激活的残差块进一步提取特征,其中扩张卷积的扩张率为[1,1,2,4,1,1],然后使用一个3
×
3卷积获取特征表示;然后在每一个视差下,将未校正图像的右图特征沿水平方向向左进行相应视差值个单位的平移,并与未校正图像的左图特征在通道方向上进行拼接;
[0024]
编码-解码模块;包含三个级联的编码器-解码器架构,在每个编码器-解码器架构中,将权值共享的特征提取模块拼接得到的拼接特征进一步下采样到1/8和1/16分辨率,最后使用两个3
×
3卷积层和一个全连接层输出单应性参数,通过归一化直接线性变换算法和矩阵运算,得到校正后的图像对;
[0025]
立体匹配模块包括:
[0026]
第二权值共享的特征提取模块:用于使用若干步长为2的3
×
3的卷积,使得输入的校正后的图像对被逐渐下采样为第一分辨率、第二分辨率和第三分辨率,然后采用n 1个包含3
×
3扩张卷积、批处理归一化和relu激活的残差块进一步提取特征,其中扩张卷积的扩张率为[1,1,2,4,1,1],然后使用一个3
×
3卷积获取特征表示;然后在每一个视差下,将校正图像的右图特征沿水平方向向左进行相应视差值个单位的平移,然后与校正图像的左图特征做内积,然后沿通道方向上取均值,得到各个分辨率尺度下的三维代价体;
[0027]
跨尺度聚合模块:用于统一各个分辨率尺度下的三维代价体的尺寸并对每个分辨率尺度下的三维代价体进行代价聚合,得到每个分辨率尺度下的聚合代价;其中,统一各个分辨率尺度下的三维代价体的尺寸的具体过程包括:对于某一分辨率,通过下采样和上采样操作将其它分辨率尺度下的三维代价体的尺寸统一到与该分辨率三维代价体相同的尺寸;对每个分辨率尺度下的三维代价体进行代价聚合的过程包括:对于某个分辨率尺度下的三维代价体,该分辨率尺度下的聚合代价由统一到该分辨率下的所有分辨率尺度的三维代价体加和产生;
[0028]
视差回归模块:用于对所有分辨率尺度下的聚合代价进行回归,得到所有分辨率尺度下的视差预测结果。
[0029]
优选的,所述用于立体视觉在线自校正与自监督视差估计的优化系统的损失函数l=l
sr
l
sm

[0030]
其中,l
sr
为立体校正模块的损失函数,l
sm
[0031]
为立体匹配模块的损失函数,
[0032]
式中,n是图像的像素总数,ir是立体校正模块输出的右图,i
gt_r
是用于监督的原始右图,ssim是结构相似性度量,是左图的重构损失,是右图的重构损失,是左图的平滑损失,是右图的平滑损失,是左图的一致性损失,是右图的一致性损失。
[0033]
与现有技术相比,本发明至少具有如下有益的技术效果:
[0034]
本发明的优化方法是一种用于立体视觉在线自校正与自监督视差估计的端到端联合优化方法,该方法联合优化校正与匹配,能够一定程度容忍立体图像对的轻微扰动或变化,适用于处理实际应用中立体视觉系统因发生微小碰撞或颠簸而引起的机械错位问题。本发明联合学习单应变换矩阵和空间匹配关系,从而使立体视觉系统同时具备立体图
像对的线上实时自校正和自监督视差预测功能。
附图说明
[0035]
图1为本发明用于立体视觉在线自校正与自监督视差估计的优化方法的整体框架;
[0036]
图2为本发明的立体校正子网络的示意图;
[0037]
图3为本发明的立体匹配子网络的示意图。
具体实施方式
[0038]
以下结合附图和实施例对本发明作进一步的详细说明。
[0039]
本发明用于立体视觉在线自校正与自监督视差估计的优化方法主要由两个串联的子网络构成,参照图1,即一个立体校正子网络,用于完成对输入立体图像对的自校正;一个立体匹配子网络,用于进行自监督视差估计。在立体校正子网络中,首先利用权重共享的特征提取器对输入的未校正图像进行特征提取,得到未校正图像对的特征,对未校正图像对的特征进行拼接,接着利用编解码结构输出四点法参数化后的单应性参数h
4pt
,再利用归一化的直接线性变换算法得到单应性变换矩阵h,最终实现图像的自校正。在立体匹配子网络中,以立体校正子网络输出的校正后图像作为输入,用特征提取模块得到1/2、1/4、1/8尺度特征,再用关联的方式构建对应的多尺度代价体,最后用跨尺度聚合模块进行代价聚合,利用视差回归得到最终的视差预测结果。
[0040]
本发明在构建基于学习的校正子网络时,用四点参数化来平衡单应性矩阵中包含的旋转、平移、缩放和剪切四个部分的不同作用,从而更有利于网络的优化和收敛。四点参数化的具体含义是:在未校正图像上随机找一个矩形区域,假设(xk,yk)
k=1,2,3,4
是该矩形区域的四个顶点坐标,(x
′k,y
′k)
k=1,2,3,4
是校正后图像中对应点的四个顶点坐标,则四点单应性参数化定义为:
[0041][0042]
因此,立体校正子网络的目的就是通过网络训练预测h
4pt
中的8个坐标偏移量(即四个δxk和四个δyk),然后利用归一化的直接线性变换算法和简单的矩阵运算来求得单应性矩阵h,从而得到校正后的图像。
[0043]
本发明立体校正子网络在进行特征提取时,首先用二维卷积将输入图像逐级下采样到1/2和1/4分辨率,然后用6个包含扩张卷积的残差块进一步提取图像特征。
[0044]
本发明将立体校正子网络两幅输入图像的特征拼接后,用三个级联的编码器-解码器结构来学习这两幅图像特征之间的关联性。最后,使用两个3
×
3卷积层和一个全连接层输出h
4pt
的8个偏移量。
[0045]
本发明立体匹配子网络的特征提取结构和立体校正子网络的特征提取结构相似,只是通过使用一个额外的残差块,额外提取一个1/8尺度特征。
[0046]
本发明将立体匹配子网络提取的输入图像对特征关联起来,并分别在1/2、1/4和
1/8尺度上构建三维代价体,随后用6个跨尺度聚合模块进行代价聚合。在每个尺度上,一个聚合代价体由三个尺度的三维代价体加和产生,加和计算前这些多尺度代价体首先需要通过下采样和上采样操作统一到相同尺寸。
[0047]
得到视差图(即视差预测结果)后,用adam优化方法优化目标函数l:
[0048]
l=l
sr
l
sm
[0049]
其中,l
sr
是立体校正子网络的损失函数,l
sm
是立体匹配子网络的损失函数,包含重构损失、平滑损失和一致性损失。得到优化模型后,便可以进行线上推理。
[0050]
本发明提出的联合训练框架能够使得立体校正和立体匹配两个子网络之间的训练效果相互促进、相互提升,从而得到更好的优化结果。特别地,所设计的立体校正子网络简单而高效,在高性能gpu的推理速度达到81fps(分辨率是1242
×
375),可以与已有所有立体匹配网络模型无缝衔接以使其具备实时在线自校正功能。
[0051]
实施例
[0052]
如图1-图3所示,本实施例用于立体视觉在线自校正与自监督视差估计的端到端联合优化方法包括立体自校正和自监督双目立体匹配两个部分。
[0053]
1)图1是本实施例的整体框架示意图。本实施例的输入是未校正的左右图像对i
un_l
和i
un_r
,输出是左图的稠密视差图d
l
,该网络主要由两个子网络组成——立体校正子网络和立体匹配子网络。具体地,将未校正的左右图像对i
un_l
和i
un_r
输入到立体校正子网络中,通过特征提取和编解码结构得出四点参数化的单应性参数h
4pt
。立体校正子网络获得这些位移参数后,最终的单应性变换矩阵h利用归一化的直接线性变换算法进行转换。在具体实施过程中,由于相机位置是相对的,保持左图像不变,只计算右图像的单应性,从而实现图像在水平线上对齐,得到校正后的图像对。接着,将校正后的图像对输入到立体匹配子网络中进行特征提取、构建代价体并进行代价聚合,最后利用视差回归得到视差预测结果。
[0054]
2)图2是本实施例的立体校正子网络示意图。立体校正子网络包括一个权值共享的特征提取模块和一个编解码结构。给定一对未经校正的图像i
un_l
和i
un_r
,首先在两张输入图像之间使用一个具有共享权重的特征提取模块,如图2中特征提取模块的处理过程所示。具体来说,使用一些步长为2的3
×
3的卷积,使得输入的图像被逐渐下采样为1/2和1/4的分辨率,这两个尺度的通道数分别被设定为32和64。然后,采用6个包含3
×
3扩张卷积、批处理归一化和relu激活的残差块进一步提取特征,其中扩张卷积的扩张率为[1,1,2,4,1,1],然后使用一个3
×
3卷积获取特征表示。
[0055]
获取左、右图的特征表示后,在每一个视差下,将右图特征沿水平方向向左进行相应视差值个单位的平移,并与左图特征在通道方向上进行拼接。然后,使用三个级联的编码器-解码器架构来学习这两幅图像之间的关联性,如图2中编码-解码模块的处理过程所示。在每个编码器-解码器架构中,拼接的特征被进一步下采样到1/8和1/16,一旦分辨率减半,通道的数量就会翻倍。最后,使用两个3
×
3卷积层和一个全连接层输出h
4pt
的8个偏移量。至此,通过现有的归一化直接线性变换算法和简单的矩阵运算,就可以得到校正后的右图像。
[0056]
3)图3是本实施例的立体匹配子网络示意图。将前一个立体校正子网络的输出(即校正后的图像)作为输入,以自监督的方式预测视差图。对于立体匹配子网络的特征提取模块,采用了与立体校正子网络类似的结构,只是额外使用了一个残差块,即以2为步长提取了1/8分辨率下的特征。然后,通过将1/2、1/4和1/8尺度的左右图像特征关联起来,构造不
同尺度下的三维代价体。具体构建方式为:在每一个视差下,右图特征沿水平方向向左进行相应视差值个单位的平移,然后与左图特征做内积,并沿通道方向取均值。
[0057]
继而,各个尺度下的三维代价体分别由六个级联的跨尺度聚合模块进行聚合。聚合方式为:对于每个尺度下的代价聚合,其聚合代价由三个尺度的三维代价体加和产生,加和计算前这些多尺度的三维代价体首先需要通过下采样和上采样操作统一到相同的尺寸,其中下采样操作使用步长为2的3
×
3的卷积,上采样操作使用双线性插值和一个1
×
1卷积。然后,使用soft argmin机制对所有尺度的聚合代价进行回归,最终获得左图在原始分辨率下的视差图。
[0058]
为了构建自监督学习的损失函数,采用了相同的网络来预测左图和右图的视差图,即d
l
和dr。另外,使用扭曲操作进一步重建了校正后的立体图像对:
[0059][0060]
在训练过程中,为了构造自监督损失函数,分别生成了三个尺度的视差图和扭曲图像,而在推理过程中只保留最大尺度的视差图作为推理结果。
[0061]
为了使自校正和自监督匹配更加有效,本发明分别对这两部分构建了如下损失函数:
[0062]
对于立体校正子网络,采用l1范数和ssim加权的重构损失,具体公式如下:
[0063][0064]
其中,n是图像的像素总数,ir是立体校正子网络输出的右图,i
gt_r
是用于监督的原始右图。
[0065]
对于立体匹配子网络,采用了重构损失、平滑损失和一致性损失来进行自监督立体匹配。所有的损失函数都需要在左/右图像及其视差图上以同样的方式构建,其中重建损失包含所有三个尺度,其他两个损失函数只包含最大尺度。下面将以图3中的底部分支(即左视差图)为例,详细给出每个损失函数的具体公式。重构损失为:
[0066][0067]
其中,i
l
是立体校正子网络输出的左图,是扭曲操作得到的左图。
[0068]
平滑损失的目的是获得局部平滑的视差映射,并同时细化边缘结构和纹理,其具体公式为:
[0069][0070]
其中,是视差图的二阶导数,是输入图像的一阶导数。
[0071]
一致性损失是为了提升预测视差图精度并平衡左右视差图估计的效果,其具体形式为:
[0072][0073]
计算完上述三种损失函数后,本发明的总体损失函数为:
[0074]
l=l
sr
l
sm
[0075]
其中,匹配网络的损失函数
[0076]
为了提升学习收敛速度,防止陷入局部最优点,本发明选择adam优化器对模型参数进行更新。本发明对flyingthings3d和kitti数据集进行不同程度的扰动以得到未校正图像,并按上述过程进行训练。至此,模型优化完成,可进行线上推理任务。
[0077]
通过上述两个子网络的联合优化与设计,可以使立体视觉系统同时具备在线实时校正和视差估计的功能。因此,在实际应用场景中,部署在无人平台中的立体视觉系统即使因受到外界因素干扰(如颠簸、碰撞等)而产生一定程度的物理机械位移,也能够高效地、鲁棒地完成匹配与视差计算。与现有工作相比,本发明可以一定程度上直接处理极线未水平对齐的左右图像对,通过所提出的端到端联合优化框架实现在线实时自校正与自监督视差估计,显著提升立体视觉系统在实际应用中的鲁棒性。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献