技术新讯 > 计算推算,计数设备的制造及其应用技术 > 一种结合迁移学习和注意力机制的内腔图像深度估计方法 > 正文

一种结合迁移学习和注意力机制的内腔图像深度估计方法

国知局
2024-11-06 14:45:01

本发明属于医学图像处理和深度学习，具体涉及一种针对单目内腔图像的深度估计方法。

背景技术：

1、随着增强现实技术的普及，虚拟信息可视化为手术导航系统带来更多可能性。增强现实技术发展多年，大量的基础型研究已经为其在医学领域的应用打下了夯实的基础，追踪技术、显示技术和交互技术等相关技术的融入也都为手术导航系统带来不小的突破。基于腹腔镜视频的ar(augmented reality)图像手术导航融合了术前的模型信息和术中手术场景的视频，拓展了手术视野。其中，根据腹腔镜图像估计手术场景的深度值，是实现腹腔镜图像引导手术的关键技术之一。基于腹腔镜图像的器官表面深度估计的目标是从二维的腹腔镜rgb图像信息中恢复重建出感兴趣对象的三维信息。

2、为了从内腔的彩色图像中更精准地恢复场景中的深度，本文提出了一个结合迁移学习和注意力机制的内腔图像深度估计方法，通过利用u-net网络对内腔图像进行多尺度的特征提取，并结合通道和空间注意力特征来优化解码的精度，利用多层级深度优化对图像深度进行估计。同时，针对内腔环境中数据集较少、缺少可靠真值的问题，利用室内数据集对mvsnet网络进行预训练，再将学到的特征和权重利用迁移学习对目标内腔数据集的训练网络进行微调。并针对内腔表面图像引入邻域平滑损失项约束具有相似外观的相邻像素，达到生成平滑深度表面的效果。本发明在内腔场景下的深度估计领域，有着较好的实用性和通用性。

技术实现思路

1、为了克服内腔手术场景动态多变、软组织尺度微小等原因导致深度估计精度不高的问题，本发明充分利用结合注意力机制的特征提取模块在表面特征提取优势，并利用迁移学习提升模型在内腔环境中的泛化能力，实现了在内腔图像中更优异深度估计结果。

2、本发明是采用以下技术方案解决上述技术问题的：

3、结合迁移学习和注意力机制的内腔环境深度估计方法包括：

4、步骤a、构建用于训练的室内环境和内腔环境深度数据集，对数据集中的rgb图片及其对应的深度图标签进行归一化、数据增强的预处理操作，将两类图像数据集分别划分为训练集、验证集和测试集。

5、步骤b、使用室内环境数据集结合mvsnet网络进行深度估计预训练，将训练获得的特征和权重利用迁移学习对目标内腔数据集的训练网络进行微调。

6、步骤c、使用u-net特征提取网络对内腔图像进行特征提取，同时利用注意力特征融合机制来优化解码的精度，获得三个不同尺度下内腔图像特征。

7、步骤d、分别对不同尺度的特征进行单应变换、方差度量、3d u-net网络、概率回归和残差优化，得到估计的深度。同时利用每一层的深度估计结果，对下一层的单应变换提供更精准的深度估计区间，最终获得优化后的深度估计图。

8、上述的结合迁移学习和注意力机制的内腔环境深度估计方法，所述步骤b具体包括以下步骤：

9、步骤b1、选取预训练网络模型。mvsnet是一个基于多视图立体匹配的深度估计网络，通过利用多个视图之间的信息来预测场景的深度图，利用mvsnet网络作为预训练网络模型，在只有单目图像信息的条件下进行深度估计时非常有效。

10、步骤b2、加载mvsnet网络模型，并冻结该模型的encoder模块；加载数据集的训练图片和标签；对mvsnet模型进行训练，采用迁移损失函数对该模型的decoder模块参数进行约束；使用数据集的验证集和评价指标对每轮训练后的模型进行测试。

11、步骤b3、将学到的特征和权重利用迁移学习对目标内腔数据集的训练网络进行微调。

12、上述的结合迁移学习和注意力机制的内腔环境深度估计方法，所述步骤c具体包括以下步骤：

13、步骤c1、输入内腔图像，采用u-net网络进行特征提取，通过金字塔结构的编码器来提取输入图像的特征，不同金字塔层级之间的特征提取网络参数共享。

14、步骤c2、在特征提取过程中的上采样操作后，我们在解码过程中加入了注意力模块，利用空间注意力和通道注意力进行级联，来优化解码的精度。通过对所有层进行加权融合，学习不同尺度特征图之间的关系和差异，并对不同金字塔层级之间的特征提取网络参数共享，获得三个不同尺度下内腔图像特征。

15、上述的结合迁移学习和注意力机制的内腔环境深度估计方法，所述步骤d具体包括以下步骤：

16、步骤d1、对上一步提取的特征进行单应变换，将不同视角的特征对齐到一个公共的3d空间，把参考图坐标系下的特征图投影到估计图坐标系中分别构建特征体f1。在对齐后的特征空间中计算特征之间的相似性度量，对于每个深度假设，将参考视角与所有辅助视角之间的匹配代价存储在对应的体积单元中，得到代价体v。

17、步骤d2、对代价体v，用3d u-net网络对代价体积进行正则化，生成更加平滑和一致的代价体积，得到后代价体v′1。对卷积后的代价体进行soft argmax求取概率分布结果，得到概率体p1。

18、步骤d3、用概率体p1将深度估计的质量定义为真实深度在估计附近的小范围内的概率。沿深度d方向求期望，得到对应像素点的初始深度值d1。

19、步骤d4、将本层金字塔的输入参考图结合初始深度图d输入，结合残差网络，得到第一层金字塔的优化深度图d′1，并加入平滑损失项对损失函数进行优化。

20、步骤d5、输入第二层金字塔的降采样结果，特征提取网络和上一层网络结构一样，参数也全部共享。得到特征体f2。

21、步骤d6、依据上一层网络的后代价体v′1，沿深度方向进行深度估计，先结合概率体p1，对代价体v′1进行求方差，进行不确定性估计得到深度估计区间a1，并采用临近插值得到上采样深度估计区间b1。利用b1对f2进行单应变换，此时对单应变换的假设平面数量进行修正。每个f2像素位置的单应变换深度区间都依照b1进行。对于得到的自适应代价体v进行3du-net卷积，得到后代价体v′2。并进行soft argmax操作获得概率体p2，再进行深度估计，内容和步骤d3、d4相同。

22、步骤d7、对于第三层金字塔网络输出的特征图像进行步骤d6相同的方式进行处理。其中，深度估计区间b2根据步骤d6输出的深度图d′2进行优化，依此来进行单应变换。最终输出优化后深度图d′3。

技术特征：

1.一种结合迁移学习和注意力机制的内腔图像深度估计方法，步骤如下：

2.如权利要求1所述的结合迁移学习和注意力机制的内腔环境深度估计方法，其特征在于，所述步骤b具体为：

3.如权利要求1所述的结合迁移学习和注意力机制的内腔环境深度估计方法，其特征在于，所述步骤c具体为：

4.如权利要求1所述的结合迁移学习和注意力机制的内腔环境深度估计方法，其特征在于，所述步骤d具体为：

技术总结深度估计在医学影像中具有重要应用价值，可以弥补医生在手术过程中由于观察目镜感官受限而难以获得精确深度信息的不足。针对内腔手术场景动态多变、软组织尺度微小等原因导致深度估计精度不高的问题，本发明提出了一种结合迁移学习和注意力机制的内腔图像深度估计方法。通过利用U‑net网络对内腔图像进行多尺度的特征提取，并结合通道和空间注意力来优化解码的精度，利用多层级深度优化对图像深度进行估计。同时，针对内腔环境中数据集较少、缺少可靠真值的问题，利用室内数据集对MVSNet网络进行预训练，再将学到的特征和权重利用迁移学习对目标内腔数据集的训练网络进行微调。并针对内腔表面图像引入邻域平滑损失项约束具有相似外观的相邻像素，达到生成平滑深度表面的效果。实验表明，本发明的深度估计网络在Hamlyn公开内腔数据集上显著提高了内腔图像的深度估计精度和完整性。技术研发人员：吴海滨,胡泽宇,徐恺阳,吕浩然,闫思奇,王爱丽受保护的技术使用者：哈尔滨理工大学技术研发日：技术公布日：2024/11/4