技术新讯 > 计算推算,计数设备的制造及其应用技术 > 一种基于自监督的单目内窥镜图像深度估计方法  >  正文

一种基于自监督的单目内窥镜图像深度估计方法

  • 国知局
  • 2024-07-31 22:47:22

本发明属于计算机视觉领域的深度估计与三维重建,具体涉及一种基于自监督的单目内窥镜图像深度估计方法。

背景技术:

1、传统内窥镜需要通过有线连接来传输图像和数据,这限制了医生的操作灵活性和患者的舒适度。随着近年来的无线通信技术和图像传输技术的进步,无线内窥镜逐渐进入大众视野,无线内窥镜例如胶囊机器人极大地提高了设备的便携性和实用性,消化道内窥镜镜检查作为筛查结肠癌和消化道肿瘤等相关疾病的黄金标准,为患者带来了巨大的好处。然而,由于观察视角狭窄和感知维度有限,这也给诊断和潜在的手术带来了挑战。面向内窥镜场景的单目深度估计可以克服上述限制,并为医生提供直接的视觉反馈。然而胃肠道肿瘤病症存在罕见性、并缺乏患者的共同症状以及症状的多样性,这对于癌症的诊断具有非常大挑战,而仅从血液检查和症状来鉴别诊断是不充分的;基于胶囊机器人提供的内窥镜检查逐步成为一种新型的技术;单目相机以其低成本,结构简答的特性作为胶囊机器人的主要视觉传感器,然而内窥镜呈现的二维影像并不能给医生提供准确的位置信息,深度估计技术可以为内窥镜三维手术系统提供真实距离深度等信息,以及可以帮助医生更准确地了解病变的具体位置和形状大小,帮助医生准确地进行手术操作。

2、传统的多视图立体重建方法,如sfm、sfs和slam等能在特征丰富的场景中重建三维结构,但由于内窥镜照明环境存在的固有缺陷,例如照明不均匀和镜面高光,内窥镜视图受到限制,并且内窥镜环境具有低纹理特征、器官表面反光和非刚性等特征,非常不利于使用传统的多视图立体重建方法进行深度估计,导致传统方法重建效果不佳,内窥镜环境中亮度的波动也会使传统算法中的特征点匹配这一环节难度增大。

3、近年来随着深度学习技术的发展,基于自监督的单目深度估计技术可以一定程度上解决上述问题,有研究者提出使用深度学习进行实时稠密三维重建与位姿估计,基于深度学习的单目重建方法通常需要大量深度标签进行训练。在内窥镜手术中,获取真实的深度往往需要花费较大的代价,且在临床手术中增添侵入性设备会额外增加患者的痛苦,所以获取有监督单目内窥镜图像数据的难度较高。除此之外,还有一部分学者发展了基于双目的深度估计方法,利用双目图像中的视差信息作为监督,借此预测深度。但是在当前大多数基层医院中,双目的内窥镜手术还远远没有普及。因此,有监督单目深度估计算法以及双目深度估计算法在微创手术领域中的应用有限。近年来无线内窥镜逐渐进入大众视野,基于胶囊机器人提供的内窥镜检查逐步成为一种新型的技术;单目相机以其低成本,结构简单的特性作为胶囊机器人的主要视觉传感器,因此,基于单目图像的内窥镜图像深度估计具有很大的研究价值。

技术实现思路

1、为了克服现有技术存在的不足,本发明提供一种基于自监督的单目内窥镜图像深度估计方法,通过自监督深度训练学习的方法估计单目内窥镜图像深度信息,为内窥镜三维手术系统提供真实距离深度等信息,帮助医生更准确地了解病变的具体位置和形状大小,帮助医生准确地进行手术操作。

2、为了实现上述发明目的本发明提供如下的技术方案:

3、一种基于自监督的单目内窥镜图像深度估计方法,所述方法包括以下步骤:

4、步骤(1),构建自监督深度估计网络和位姿估计网络;

5、步骤(2),选用公共的消化道内窥镜数据集:hamlyn数据集和endoslam数据集,来划分训练集和测试集,之后对划分好的数据进行扩充,改善图像质量、增加细节、调整色彩和对比度;将扩充后的训练集输入至自监督的深度估计网络和位姿估计网络,得到深度估计值和位姿估计值;

6、步骤(3),通过视图合成原理,基于源图像(真实图像)得到的深度估计值、位姿估计值及参考图像进行视图合成,得到合成后的目标图像;

7、步骤(4),将真实图像与目标图像比较计算损失函数,利用损失函数来建立监督,从而使得网络不需要额外的真实标签就能对网络进行监督训练,得到深度估计模型;

8、步骤(5),将获得的深度估计模型进行测试,基于扩充的测试集进行定量和定性的测试和检验,评估模型的性能。

9、进一步,所述步骤(1)中,深度估计网络基于u-net架构,包括跳跃连接和注意模块,既能提取深度特征和局部形式,为了提取准确的消化道内窥镜图像特征,网络采用使用了参数更少、运行速度较快的resnet18作为编码器,编码器中嵌入了一个注意模块,用于探索非连续图像区域,以此为背景估计这些区域的相似深度;在编码器和解码器中间以及第一个上采样模块处分别集成了一个注意模块。深度估计网络由深度编码器和深度解码器两部分组成,深度编码器是由18层残差神经网络组成,用于从输入的单张rgb图像中提取深度特征;深度解码器由5层卷积神经网络组成,将编码器提取的深度特征映射为与输入图像尺寸相同的深度估计图;

10、位姿估计网络采用编码器-解码器u-net架构,与深度估计网络相比,位姿估计网络的编码器的结构相似,都嵌入了注意模块,不同之处在于解码器只有4层卷积运算,网络可以将连续的单目图像叠加作为输入,并预测两个连续单目帧之间的位姿变换,输出一个4*4的相对位姿变换矩阵,其中r代表一个3*3的旋转矩阵,t代表一个3*1的平移向量,然后使用相机本征k将像素投影到相应的帧中。

11、再进一步,所述步骤(2)中,选用两种内窥镜数据集:hamlyn数据集、endoslam数据集,hamlyn数据集更接近真实的消化道内窥镜场景,图像的细微结构和纹理更为复杂,且边缘过渡平滑且不明显;endoslam数据集中的图像有许多精细且有差异的纹理,更适合进行定量的评估单目深度估计模型的精度和性能;对数据集中的数据进行增强和扩充,数据处理方法包括:随机水平翻转、亮度、对比度、饱和度及色调的随机变化。训练时,首先将数据增强后的训练数据输入上述的深度估计网络和位姿估计网络,得到一组深度和位姿估计值;两个子网络中,在深度估计网络中,将t时刻的图像it输入深度估计网络,得到其深度估计图在位姿估计网络中,将t时刻的图像及其相邻的t′时刻的图像{it,it′}输入位姿估计网络,得到从t时刻到t′时刻的相机位姿变换t,训练中按照索引去寻找t时刻的图像,t′可以是前一帧的图像,也可以是后一帧的图像。

12、更进一步,所述步骤(3)中,合成目标图像需要三方面的信息:深度估计网络输出的深度估计,位姿估计网络输出的相机位姿估计,以及目标图像前后的相邻帧;利用前一步骤估计的深度和位姿变换将t′时刻的图像it′作为参考图像,通过视图合成得到合成的目标图像,利用视图合成的原理:

13、

14、在投影过程中,进行视图合成的前向warping:利用双线性插值进行视图合成反向warping,先找到目标图像i'(x')中每个像素位置对应在源图像i(x)中的像素位置x=t-1(x'),再得到相应的像素值,在投影过程中由于像素的齐次坐标可能不为整数,可以用双线性插值在参考图像中索引像素值,线性插值4个临近像素的值使其变为整数作为最终结果,填充到合成的目标图像的像素坐标,目标视图投影到源视图的结果其有可能不是一个整数,通过双线性插值法采样到整数点。

15、所述步骤(4)中,为了评估上一步合成目标图像的准确性,需要将合成的目标图像与真实图像相比较,计算损失函数,损失函数l由两部分组成,即光度重建损失lp和平滑损失ls:

16、l=α1lp+α2ls

17、其中,l为损失函数,lp为光度重建损失,ls为平滑损失,α1,α2分别为光度重建损失和平滑性损失的权重;

18、构建光度重建误差函数lp1,也就是合成图像与真实图像的像素之差的l1范数,与其结构相似性ssim的加权和,计算方式如下:

19、

20、其中,it和分别为目标图像和真实图像,α为权重系数,根据经验,设置在0.6~0.9之间,ms-ssim为目标图像与真实图像之间的结构相似性,为合成图像与真实图像的像素之差的l1范数;

21、光度重建损失通过以下公式确定:

22、

23、其中,lp为光度重建损失。

24、对深度图像中相邻像素的深度差的绝对值求和,在视差梯度上鼓励视差图的局部平滑,平滑损失ls由如下公式给出:

25、

26、其中,是沿空间方向的一阶导数,由预测深度和it计算得出。

27、根据上述损失函数的构成,将不同分辨率的图像恢复到源视图的分辨率,然后再去计算损失函数,最后的损失函数则是均值。

28、本发明深度估计网络使用了参数量更少,运行速度更快的resnet18作为编码器,提高了深度图预测的准确率,在内窥镜图像深度图预测上表现较好。本发明位姿估计网络采用了多尺度深度预测,为了防止训练目标处于局部极小值,并且减少伪影,将较低分辨率的深度图上采样到输入图像的分辨率,然后重新投影、重新采样。这使得各个比例尺上的深度图以实现相同的目标,即对目标图像进行精确的高分辨率重建提高深度和位姿估计的准确性。

29、本发明的有益效果为:通过自监督深度训练学习的方法估计单目内窥镜图像深度信息,为内窥镜三维手术系统提供真实距离深度等信息,帮助医生更准确地了解病变的具体位置和形状大小,帮助医生准确地进行手术操作。

本文地址:https://www.jishuxx.com/zhuanli/20240730/194609.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。