技术新讯 > 计算推算,计数设备的制造及其应用技术 > 一种单目图像深度估计方法和存储介质  >  正文

一种单目图像深度估计方法和存储介质

  • 国知局
  • 2024-10-15 09:49:56

本发明涉及图像处理领域,特别是一种单目图像深度估计方法和存储介质。

背景技术:

1、单目图像的深度估计是计算机视觉领域的基础性研究问题,该任务旨在基于单张图片信息,预测并恢复出场景像素级的深度信息。单目深度估计技术是三维重建、环境感知与理解等高阶视觉任务的关键支撑技术,具有广泛的应用需求。近年来,随着深度学习技术的迅速发展,单目深度估计也取得了长足的发展与进步。早期基于深度学习的单目深度估计模型通常基于卷积神经网络(cnn)。鉴于深度神经网络强大的特征提取与表示能力,相比于传统方法,基于cnn的方法取得了较好的深度估计结果。之后,大部分工作致力于设计越来越复杂和强大的网络来提升模型性能,然而,在没有额外信息引导的情况下,深度估计任务变得难以拟合。

2、近期,自然语言处理领域的transformer变得流行,研究者们将这种基于注意机制的网络结构引入计算机视觉领域,并取得了很好的效果。在单目深度估计领域,transformer架构近年来也展现出了出色的效果,通过自注意力捕捉特征长距离依赖关系,在取得优越性能的同时往往伴随较高的计算复杂度,联合窗口自注意力和移动窗口的策略有效降低了算法复杂度,但难以感知全局信息。

技术实现思路

1、本发明的目的在于克服现有技术中的不足,提供一种单目图像深度估计方法和存储介质,解决现有技术使用移动窗口捕获窗口之间的联系导致的图像信息丢失问题,兼顾局部、全局和相关性信息,实现窗口之间、窗口和整幅图之间的信息交流,更全面地提取图片信息实现更准确的深度估计效果。

2、为解决上述技术问题,本发明是采用下述技术方案实现的:

3、第一方面,本发明提供了一种单目图像深度估计方法,其特征是,包括:

4、获取待估计的单目图像并预处理;

5、将预处理过的图像输入预先训练的初步深度估计网络,获得图像初步深度估计结果;

6、将所述初步深度估计结果输入预先训练的迭代优化网络,获得最终的单目图像深度估计结果;

7、所述初步深度估计网络包括编码器、解码器和回归头;

8、所述编码器包括若干个依次连接的编码层,所述解码器包含若干个依次连接的解码层,各所述编码层沿编码顺序方向与各解码层沿解码顺序反方向一一对应;所述解码层采用三元组交叉注意力tca模块,

9、所述三元组交叉注意力tca模块包括窗口注意力wca模块、跨维度注意力cda模块、相关性注意力rea模块和特征块选择融合fbsf模块;

10、所述窗口注意力wca模块用于对输入的编码特征和解码特征计算注意力,输出窗口注意力特征;

11、所述跨维度注意力cda模块用于对输入的所述解码特征和所述窗口注意力特征计算注意力,输出跨维度注意力特征;

12、所述相关性注意力rea模块用于对所述窗口注意力特征进行窗口相关性特征提取并计算注意力,输出相关性注意力特征;

13、所述特征块选择融合fbsf模块对所述窗口注意力特征、所述跨维度注意力特征和所述相关性注意力特征融合,生成本解码层的输出特征;

14、最后一个解码层的输出为最终解码特征;所述编码特征为本解码层所对应编码层的输出特征;若本解码层为第一个解码层,则输入本解码层的解码特征为每个所述编码层的输出特征融合后的输出特征,若本解码层不为第一个解码层,则输入本解码层的解码特征为前一个解码层的输出特征;

15、所述回归头,用于根据所述最终解码特征生成所述初步深度估计结果。

16、上述图像深度估计过程,通过窗口注意力wca、跨维度注意力cda和相关性注意力rea模块的设计,来刻画局部、全局以及局部之间的特征关系,设计特征块选择融合fbsf模块将三种不同视角下的注意力进行有效融合,去除具有高度相似的特征表示,兼顾局部、全局信息以及局部信息的相关性得到更加鲁棒的特征表示,经过迭代优化模块优化生成的初步深度估计结果,得到最终的单目图像深度估计结果。

17、可选的,所述窗口注意力wca模块对输入的编码特征和解码特征计算注意力包括:

18、s11:将所述预处理过的图像拆分成窗口;

19、s12:在各个窗口,对所述编码特征计算q向量和k向量,对所述解码特征计算v向量,其中q向量、k向量和v向量分别为对应特征经过线性变化得到的quary矩阵、key矩阵和value矩阵;

20、s13:根据各个窗口计算的q向量、k向量和v向量,计算窗口注意力输出为窗口注意力特征,公式为:

21、,

22、其中,表示窗口注意力特征,表示归一化函数,b为相对位置偏差矩阵,d表示q向量和k向量的向量维度的比值,b中每个元素表示位置m和位置n之间的相对位置嵌入,其中m表示q向量中的元素位置,n表示k向量中的元素位置。

23、窗口注意力wca模块用于关注图像局部窗口内的细节特征,相对位置编码通过一个可学习的矩阵b来表示查询q和键k对之间的相对位置,这样在计算注意力分数时,不仅考虑内容相似度,还将相对位置的信息加入进去。计算完每个窗口内的注意力后,再将这些结果按原始位置重排,以得到最终的注意力输出。这种方法可以在捕捉位置信息的同时,提高模型的表现力和泛化能力,更好地关注图像局部窗口内的细节特征。

24、可选的,所述初步深度估计网络还包括金字塔池化ppm模块,金字塔池化ppm模块接收每个所述编码层的输出特征,融合处理得到输入第一个解码层的所述解码特征。

25、可选的,所述跨维度注意力cda模块包括全局向量生成器gvg,所述全局向量生成器gvg用于接收所述解码特征处理生成全局感知向量,过程为:

26、s211:将所述解码特征的维度的大小压缩成与窗口维度相同,所述解码特征的维度和窗口维度的大小分别为解码特征分辨率和窗口分辨率;

27、s212:将压缩的解码特征复制恢复成原所述解码特征的维度,边缘用mask补充;

28、s213:从恢复后的解码特征各个窗口大小的压缩解码特征内提取v向量作为全局感知向量。

29、将压缩的解码特征复制恢复成原解码特征维度时,当遇到边缘不足以放置整个压缩的解码特征,则采用mask补充完整,mask是一个只有0和1的值的二值化图像,用于标识哪些像素是有效的,即原始特征中的像素,哪些像素是填充或复制的,即需要被mask掉的像素。

30、可选的,所述跨维度注意力cda模块用于对输入的所述解码特征和所述窗口注意力特征计算注意力包括:

31、s21:所述全局向量生成器gvg生成所述全局感知向量,所述全局感知向量作为v向量,对所述窗口注意力特征计算得到q向量和k向量;

32、s22:对q向量、k向量和v向量计算注意力,输出所述跨维度注意力特征。

33、全局感知向量代表了更远距离或者说全局性的长程依赖关系。将全局感知向量作为包含全局信息的v向量,与局部特征向量一同参与在窗口内进行不同维度之间的注意力计算,得到跨维度注意力特征,该特征能够表示整幅图像与当前窗口特征之间的关系,实现窗口内外信息的交互。

34、可选的,所述相关性注意力rea模块用于对所述窗口注意力特征进行窗口相关性特征提取并计算注意力包括:

35、s31:将所述窗口注意力特征拆分为不同的窗口,每个窗口经过线性变换,得到q向量、k向量和v向量;

36、s32:将q向量和k向量的每个窗口内取平均作为该窗口的标志;

37、s33:分别提取所述q向量和k向量各个窗口的标志对应生成中间q向量矩阵与中间k向量矩阵;

38、s34:将中间q向量矩阵与中间k向量矩阵的转置矩阵相乘,生成表示窗口之间亲和关系的邻接矩阵;

39、s35:基于所述邻接矩阵构建索引函数,得到每个窗口与哪k个窗口相关性最高,k是小于窗口数量的非零自然数;

40、s36:分别对所述k向量和v向量使用所述索引函数进行索引并使用收集函数收集对应的索引结果,生成包含窗口相关性信息的k向量和包含窗口相关性信息的v向量;

41、s37:对q向量、包含窗口相关性信息的k向量和包含窗口相关性信息的v向量计算注意力,输出相关性注意力特征。

42、相关性注意力rea模块利用语义相关性计算高度关联的窗口之间的注意力,实现窗口之间信息交流,从而获取各个窗口的全局依赖关系。

43、可选的,所述特征块选择融合fbsf模块对所述窗口注意力特征、所述跨维度注意力特征和所述相关性注意力特征融合,包括:

44、s41:将所述跨维度注意力特征和所述相关性注意力特征之和设为第一特征gu;

45、s42:将所述第一特征gu和所述窗口注意力特征沿着通道维度进行拼接,形成第二特征bu;

46、s43:将所述第二特征bu通过切片操作分割成特征块;

47、s44:将被分割的特征块通过特征块选择操作间隔选中,提取各个被选中特征块里的最大值生成第三特征bu';

48、s45:对所述第三特征bu'应用卷积操作生成两个通道,对每个通道应用sigmoid函数生成一个双通道注意图,将所述第一特征gu和所述窗口注意力特征分别与该双通道注意图相乘生成第四特征gu’和第五特征lu’;

49、s46:将所述第四特征gu’和第五特征lu’相加生成本解码层的输出特征。

50、特征块选择融合fbsf模块将三种不同视角下的注意力进行有效融合。特征gu由跨维度注意力和相关性注意力结果之和组成,这些特征具有全局性的长程依赖关系。特征lu则是通过窗口自注意力机制得到的局部特征,具有较强的局部关联性。通过特征块选择操作,去除具有高度相似的特征表示,可以在保留关键信息的同时减少特征的维度,从而得到更具代表性的特征。最后通过sigmoid操作生成一个双通道注意图,其中每个局部和全局特征分别与一个通道图相乘,以聚焦于重要位置,得到最终特征表示。

51、可选的,所述迭代优化网络包括基于门控循环单元gru的迭代优化器,所述迭代优化网络基于初步深度估计结果获得最终的单目图像深度估计结果,包括:

52、s51:计算不确定图与第t阶段的深度图之间的差值表示t阶段的差异图,公式为:

53、  =  ,

54、其中,t=1时,为初始的深度图,其值为所述初步深度估计结果,所述不确定图由所述最终解码特征经过所述回归头生成;

55、s52:将第t阶段的深度图、不确定图、第t阶段的差异图、第t阶段的隐藏特征和初始的隐藏特征输入门控循环单元gru生成第t+1阶段的隐藏特征,具体计算为:

56、,

57、其中,为第一个编码层的输出特征;

58、s53:将所述第t+1阶段的隐藏特征输入更新模块△生成的计算结果叠加第t阶段的深度图,输出第t+1阶段深度图,具体计算为:

59、 = +△(),

60、其中,更新模块△为conv-relu组合操作,

61、所述迭代优化器的迭代过程为:设定迭代次数为x,x为非零自然数,t的初始值为1顺序循环执行s51-s53步骤至t等于x,为所述最终的单目图像深度估计结果。

62、本发明生成的初步深度估计结果已经显著提升了物体边缘和轮廓的效果。然而在一些图片中,对于那些颜色接近但深度不同的情况下,深度变化的预测存在错误。为了进一步提高预测准确率,本发明采用了基于gru的迭代优化器,对初步深度估计结果进行迭代优化。

63、可选的,训练所述初步深度估计网络和所述迭代优化网络包括训练损失函数,采用的损失函数包括不确定性损失和深度图损失;

64、计算所述不确定性损失包括:

65、s61:用拉普拉斯分布的概率密度函数来构建第i个像素点的不确定性真值:

66、,

67、其中,为数据集提供的第i个像素点的图像深度真值,为第i个像素点的图像深度预测值,所述图像深度预测值为所述迭代优化网络的各阶段的深度图,t表示控制误差容忍度的系数,exp为e为底数的指数函数;

68、s62:计算不确定性损失:

69、,

70、其中,为第i个像素点的不确定图的不确定性值,表示第i个像素点的图像不确定性预测值,为i个绝对值求和运算;

71、计算所述深度图损失包括:

72、s71:计算图像第i个像素点深度预测值与深度真值之间e为底的对数函数差:

73、,

74、s72:计算深度图损失silog如下:

75、,

76、其中y为像素点总数,是方差最小化因子,是尺度常数;

77、总体损失为silog计算结果与不确定性损失之和:

78、。

79、为了减轻深度噪声的负面影响,引入了一个不确定性校正损失,通过对存在较高不确定性的部分进行修正,减轻高不确定性区域对不确定图生成的负面影响。同时,使用silog来监督迭代优化器各个阶段生成的深度图,不确定性损失叠加深度图损失构成总体损失函数训练模型,实现更准确的深度估计效果。

80、第二方面,本发明提供一种计算机可读存储介质,所述计算机可读存储介质存储一个或多个程序,所述一个或多个程序包括指令,所述指令当由计算设备执行时,使得所述计算设备执行单目图像深度估计方法。

81、与现有技术相比,本发明所达到的有益效果:

82、本发明适用于单目图像深度估计,解决了现有技术使用移动窗口捕获窗口之间的联系导致的图像信息丢失问题,兼顾局部、全局和相关性信息,实现窗口之间、窗口和整幅图之间的信息交流,更全面地提取图片信息实现更准确的深度估计效果。

83、具体来说,设计窗口注意力wca模块用于关注图像局部窗口内的细节特征,跨维度注意力cda模块通过计算整幅图像与当前窗口特征之间的关系,实现窗口内外信息的交互,相关性注意力rea模块利用语义相关性计算高度关联的窗口之间的注意力,实现与其他窗口的信息交流,从而获取各个窗口的全局依赖关系。同时,设计了一种特征块选择融合机制将三种不同视角下的注意力进行有效融合,去除具有高度相似的特征表示,以得到更加鲁棒的特征表示。根据融合了局部、全局信息以及局部相关性的最终特征表示,生成初步的深度估计结果,将初步深度估计结果输入迭代优化模块得到最终单目图像深度估计结果。

84、本发明通过获取全局窗口信息以及不同窗口之间的交互信息,解决信息缺失问题。通过特征块选择操作,有效融合全局与局部特征,避免了融合注意力机制产生的大量相似特征,使用自迭代模块对初始结果做了进一步修正。利用深度图与深度不确定图之间的关系,设计包括不确定性损失和深度图损失的损失函数,迭代优化初始生成的结果,从而实现更准确的单目图像深度估计。

本文地址:https://www.jishuxx.com/zhuanli/20241015/315527.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。