通过多视图立体视觉系统预测深度图的方法、电子装置和存储介质与流程
- 国知局
- 2024-12-26 15:12:14
本公开涉及三维(three-dimensional,3d)重建技术,并且具体涉及用于通过多视图立体视觉系统预测深度图的方法、电子装置、以及非暂时性计算机可读存储介质。
背景技术:
1、多视图立体视觉(multi-view stereo,mvs)旨在从用校准相机从不同视点捕获的多个图像中恢复密集3d几何图形。它是计算机视觉中的一个基本问题,具有从自动驾驶、遥感、增强现实到机器人的广泛应用范围。继开创性的mvsnet之后,又提出了许多基于学习的方法,与传统方法相比,这些方法在准确性或效率方面实现了很大的提升。
2、大多数基于学习的mvs方法依赖于传统的平面扫描方法,通过比较参考图像和源图像在多个深度平面上的卷积神经网络(convolutional neural network,cnn)特征生成代价体(cost volume),然后应用2d或3d卷积编码器-解码器架构聚合和正则化代价体。
3、2d cnn方法使用多层特征作为跳跃连接(skip connection)以帮助解码深度回归的代价体。尽管跳跃连接改进了深度图,但它们在某种程度上削弱了代价体及代价体中的几何知识的作用。因此,当在未知领域测试时,2d cnn方法的泛化能力会下降。
4、3d cnn方法使用soft-argmin将深度图回归为来自代价体分布的期望值,因此在处理由无纹理、重复、或遮挡区域等引起的平坦或多模态分布时,无法预测最佳候选,而只能预测平均候选。因此,当这种情况发生时,soft-argmin不能很好地分类以找到最佳候选,而是通过聚合未见过的最佳候选、最差候选、以及中间候选给出平均预测。
5、因此,如何提高多视图立体视觉的准确性和泛化能力是目前亟待解决的问题之一。
技术实现思路
1、本公开提供了一种用于通过多视图立体视觉系统预测深度图的方法、电子装置、以及存储介质以准确预测深度。
2、根据本公开的用于通过在电子装置上执行的多视图立体视觉系统预测深度图的方法包括:从多个源图像提取源特征,并从参考图像提取聚合的参考特征,其中,参考图像是具有不同相机位姿的同一场景的多个捕获图像中的一个,并且源图像是剩余的捕获图像;基于源特征和聚合的参考特征构建代价体;基于代价体执行具有多次迭代的迭代估计以获得一系列索引字段,该迭代估计包括:对于每次迭代,使用上次获得的索引字段通过递归神经网络预测残差值,并根据残差值和上次获得的索引字段获得当前迭代的索引字段;以及基于一系列索引字段中最终获得的索引字段估计第一深度图。
3、一种电子装置,包括:存储器,用于存储程序;以及处理器,耦合到存储器,并且该处理器用于执行该程序以:从多个源图像提取源特征,并从参考图像提取聚合的参考特征,其中,参考图像是具有不同相机位姿的同一场景的多个捕获图像中的一个,并且源图像是剩余的捕获图像;基于源特征和聚合的参考特征构建代价体;基于代价体执行具有多次迭代的迭代估计以获得一系列索引字段,迭代估计包括:对于每次迭代,使用上次获得的索引字段通过递归神经网络预测残差值,并根据残差值和上次获得的索引字段获得当前迭代的索引字段;以及基于一系列索引字段中最终获得的索引字段估计第一深度图。
4、基于以上描述,本公开利用递归神经网络迭代优化基于深度回归的代价体获得的最终索引字段。因此,可以通过学习递归地索引非对称代价体来预测深度,从而提高准确性和泛化能力。
技术特征:1.一种在电子装置上执行的用于通过多视图立体视觉系统预测深度图的方法,包括:
2.根据权利要求1所述的用于通过多视图立体视觉系统预测深度图的方法,还包括:
3.根据权利要求1所述的用于通过多视图立体视觉系统预测深度图的方法,其中,在估计所述第一深度图之后,所述方法还包括:
4.根据权利要求3所述的用于通过多视图立体视觉系统预测深度图的方法,其中,在计算所述更新的代价体之前,所述方法还包括:
5.根据权利要求1所述的用于通过多视图立体视觉系统预测深度图的方法,其中,从所述参考图像提取所述聚合的参考特征包括:
6.根据权利要求1所述的用于通过多视图立体视觉系统预测深度图的方法,其中,估计所述第一深度图包括:
7.一种电子装置,包括:
8.根据权利要求7所述的电子装置,其中,所述处理器用于执行所述程序以:
9.根据权利要求7所述的电子装置,其中,所述处理器用于执行所述程序以:
10.根据权利要求9所述的电子装置,其中,所述处理器用于执行所述程序以:
11.根据权利要求7所述的电子装置,其中,所述处理器用于执行所述程序以:
12.根据权利要求7所述的电子装置,其中,所述处理器用于执行所述程序以:
13.一种非暂时性计算机可读存储介质,其中,所述非暂时性计算机可读存储介质记录至少一个编程指令,并且在被加载到电子装置中之后,所述至少一个编程指令执行以下步骤:
技术总结提供了一种用于通过多视图立体视觉系统预测深度图的方法、电子装置、以及存储介质。在电子装置上执行的用于通过多视图立体视觉系统预测深度图的方法包括:从源图像提取源特征,并从参考图像提取聚合的参考特征;基于源特征和聚合的参考特征构建代价体;基于代价体执行具有多次迭代的迭代估计以获得一系列索引字段,该迭代估计包括:对于每次迭代,使用上次的索引字段通过门控递归神经网络预测残差值,并根据残差值和上次的索引字段获得当前索引字段;以及基于最终的索引字段估计第一深度图。技术研发人员:蔡长江,嵇盼,严庆安,徐毅受保护的技术使用者:创峰科技技术研发日:技术公布日:2024/12/23本文地址:https://www.jishuxx.com/zhuanli/20241226/344883.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表