技术新讯 > 计算推算,计数设备的制造及其应用技术 > 单目深度估计装置和方法以及电子设备与流程 > 正文

单目深度估计装置和方法以及电子设备与流程

国知局
2024-09-14 14:24:18

本申请实施例涉及图像处理。

背景技术：

1、深度图像(depth image)，也称为距离图像(distance image)，是指使用从图像收集器到场景中每个点的距离(即，深度)值作为像素值的图像。通常，它可以通过激光雷达、立体相机或飞行时间(tof)相机等设备直接获得，深度信息也可以通过处理rgb图像或视频获得。

2、传统的深度估计方法，如运动结构和立体视觉匹配，建立在多个视点的特征对应关系上。从单个图像推断深度信息的方法被称为单目深度估计(monocular depthestimation)方法。随着深度神经网络的快速发展，基于深度学习的单目深度估计方法近年来得到了广泛的研究，并在精度方面取得了很好的效果。

3、单目深度估计装置通常包括三个主要部分：特征提取部、深度预测部和损失函数计算部。特征提取部可以包括编码器和解码器。编码器可以使用各种模型进行特征提取。解码器可以是标准的特征上采样解码器等。深度预测部利用解码器的输出信息来预测最终深度值。损失函数计算部可分为两种类型，一种是直接利用预测的深度值与真实的深度值之间的差来设置损失函数，另一种是利用深度的几何特征来设置损失函数。

4、应该注意，上面对技术背景的介绍只是为了方便对本申请的技术方案进行清楚、完整的说明，并方便本领域技术人员的理解而阐述，不能仅仅因为这些方案在本申请的背景技术部分进行了阐述而认为上述技术方案为本领域技术人员所公知。

技术实现思路

1、尽管研究人员对单目深度估计装置进行了诸多改进，以增强单目深度估计的准确性，但目前单眼深度评估的准确性仍然相对较低，无法更准确地估计图像中的结构和对象。例如，单目深度估计装置生成的深度图像不够准确，并且深度图像中具有由深度间隔的离散化(discretization of the depth interval)引入的伪影(artifacts)。

2、针对上述技术问题的至少之一，本申请实施例提供一种单目深度估计装置和方法以及电子设备，在该单目深度估计装置中，对编码器获得的特征进行基于门控注意力(gated attention)机制的处理，以获得体现图像全局信息的全局性特征，将该全局性特征与图像的特征进行融合，从而生成深度图像，由此，能够提高深度图像的准确性。

3、根据本申请实施例的一个方面，提供一种单目深度估计(monocular depthestimation)装置，所述装置包括：

4、编码器，其用于对输入图像进行编码处理，获得至少两个具有不同尺寸的特征；

5、解码器，其用于对至少一个特征进行基于门控注意力(gated attention)机制的处理，以获得表示所述特征中不同像素单元之间的相关性信息的全局性特征，并基于所述至少两个具有不同尺寸的特征中的至少一个特征和所述全局性特征进行融合处理；以及

6、深度图像生成部，其基于所述融合处理的结果生成深度图像。

7、根据本申请实施例的另一个方面，提供一种单目深度估计方法，所述方法包括：

8、对输入图像进行编码处理，获得至少两个具有不同尺寸的特征；

9、用于对至少一个特征进行基于门控注意力(gated attention)机制的处理，以获得表示所述特征中不同像素单元之间的相关性信息的全局性特征，并基于所述至少两个具有不同尺寸的特征中的至少一个特征和所述全局性特征进行融合处理；以及

10、基于所述融合处理的结果生成深度图像。

11、根据本申请实施例的另一个方面，提供一种电子设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器被配置为执行所述计算机程序而实现如前所述的单目深度估计方法。

12、本申请实施例的有益效果之一在于：对编码器获得的特征进行基于门控注意力机制的处理，以获得体现图像全局信息的全局性特征，将该全局性特征与图像的特征进行融合，从而生成深度图像，由此，能够提高深度图像的准确性。

13、参照后文的说明和附图，详细公开了本申请实施例的特定实施方式，指明了本申请实施例的原理可以被采用的方式。应该理解，本申请的实施方式在范围上并不因而受到限制。在所附权利要求的精神和条款的范围内，本申请的实施方式包括许多改变、修改和等同。

技术特征：

1.一种单目深度估计装置，其特征在于，所述装置包括：

2.如权利要求1所述的装置，其中，

3.如权利要求1所述的装置，其中，

4.如权利要求3所述的装置，其中，所述基于门控注意力机制的处理包括：

5.如权利要求4所述的装置，其中，所述基于门控注意力机制的处理还包括：

6.如权利要求1所述的装置，其中，基于所述至少两个具有不同尺寸的特征中的至少一个特征和所述全局性特征进行融合处理，包括：

7.如权利要求6所述的装置，其中，

8.一种电子设备，包括权利要求1至7中任意一项所述的单目深度估计装置。

9.一种单目深度估计方法，其特征在于，所述方法包括：

10.如权利要求9所述的方法，其中，基于所述至少两个具有不同尺寸的特征中的至少一个特征和所述全局性特征进行融合处理，包括：

技术总结本申请实施例提供一种单目深度估计装置和方法以及电子设备。所述单目深度估计装置包括：编码器，其用于对输入图像进行编码处理，获得至少两个具有不同尺寸的特征；解码器，其用于对至少一个特征进行基于门控注意力机制的处理，以获得表示所述特征中不同像素单元之间的相关性信息的全局性特征，并基于所述全局性特征和所述至少两个特征进行融合处理；以及深度图像生成部，其基于所述融合处理的结果生成深度图像。本申请对编码器获得的特征进行基于门控注意力机制的处理，以获得体现图像全局信息的全局性特征，将该全局性特征与图像的特征进行融合，从而生成深度图像，由此，能够提高深度图像的准确性。技术研发人员：张茜丹,谭志明受保护的技术使用者：富士通株式会社技术研发日：技术公布日：2024/9/12