一种融合卷积神经网络和Transformer的黑色素瘤分割方法
- 国知局
- 2025-01-10 13:31:03
本发明涉及计算机视觉与医学图像处理,具体是一种融合卷积神经网络和transformer的黑色素瘤分割方法。
背景技术:
1、在全球范围内,皮肤癌作为一种普遍存在的疾病,其种类繁多,涵盖了诸如黑色素瘤、merkel细胞癌、皮肤原位癌以及脂溢性角化病等。在这些类型中,恶性黑色素瘤以其高度的侵袭性和致死性而显得尤为严峻,每年不幸地夺去了大约55,500条宝贵的生命,凸显了对其进行深入研究、早期筛查及有效治疗的重要性。据估计,仅在美国,到2023年将有97,610例黑色素瘤新发病例。一旦黑色素瘤增殖和扩散,就会对生命造成威胁。在疾病的早期阶段,通过及时的干预,如简单的外科手术,黑色素瘤的治疗往往能够取得显著成效。在此背景下,计算机辅助诊断(cad)系统展现出了其不可估量的独特价值。该系统能够为医疗专业人员提供更为精准、高效的医学图像解读,精准描绘出病变区域的形态特征、尺寸范围及空间位置,进而可以为治疗方案的制定与外科手术的实施提供有力支持。
2、近十年来,深度学习领域的迅猛进步极大地推动了卷积神经网络(cnn)技术的多样化发展,催生出了一系列创新性的应用策略与方法,并在医学图像处理方便,特别是对医学图像进行分割中表现出了出色的性能。但也存在局限性,由于建立像素之间的远程依赖关系存在困难,直接影响了分割结果的精确度,使得其在临床实践中难以达到理想的诊断标准。
3、尽管已有多种算法成功应用于脑组织、肺部及血管等医学图像的精准分割,然而,在恶性黑色素瘤检测这一特定领域,尚缺乏有效的针对性技术实现高效分割。鉴于此,开发一种专门针对黑色素瘤的高效分割方法,以辅助临床精准诊断,已成为当前亟待解决的重要课题。
4、公开于该背景技术部分的信息仅仅旨在增加对本发明的总体背景的理解,而不应当被视为承认或以任何形式暗示该信息,构成已为本领域一般技术人员所公知的现有技术。
技术实现思路
1、本发明的目的在于提供一种一种融合卷积神经网络和transformer的黑色素瘤分割方法,从而填补临床诊断中黑色素瘤分割的空白。
2、为实现上述目的,本发明公开了一种一种融合卷积神经网络和transformer的黑色素瘤分割方法,包括:
3、步骤1、获取黑色素瘤的公共数据集;
4、步骤2、对公共数据集的训练集进行数据增强;
5、步骤3、整合卷积神经网络(cnn)的局部特征提取能力、transformer的全局依赖建模优势以及psp-net的空间金字塔池化特性,创新性地引入了svit-c编码器,该编码器通过局部特征引导全局特征以捕获更高层次的语义关联。局部特征通过设计提出的dbf moudle与全局特征融合,采用多分支深度交叉特征关注结构multi-branch deep cross-featureattention(mbcfa)作为解码器并改进传统的跳转连接,很好地利用编码器产生的多尺度信息,处理不同大小和形状的病变区域的变化,达到良好的分割性能,减少参数,加快网络训练速度;
6、步骤4、训练模型,得到对应权重;
7、步骤5、在测试集上测试训练模型的分割效果。
8、优选地,上述技术方案中,步骤1获取大规模皮肤镜图像数据集-isic数据集,该数据集包含2000张训练图像,150张验证图像和600张测试图像,所有的图像都有对应的ground truth。数据结构通过精心设计,依据7:2:1的科学配比划分为训练子集、验证子集与测试子集,以确保模型训练、性能验证及最终评估的全面性与准确性。
9、优选地,上述技术方案,步骤2对黑色素瘤数据集的训练集进行两次数据增强,包括随机旋转、随机平移、亮度调整、噪声注入、剪切、随机裁剪和翻转的七种数据增强方法。
10、优选地,上述技术方案中,步骤3对svmb-net模型构建包括:
11、设计了一种基于cnn和transformer的混合高效分层特征提取结构super vit-cnn(svit-c),提出global feature recover模块以过滤冗余语义关系获取关键全局特征。该结构的局部特征标注模块的工作流程如下:
12、li=bn(f3×3(relu(bn(f3×3))))+f1×1(li-1) (1)
13、其中,li-1为前一层局部特征提取模块的输入,f3×3表示核大小为3×3的常规卷积运算f1×1则代表1x1的卷积核变换。
14、在此框架中,batchnorm(简称bn)扮演着标准化层的作用,f3×3对应于3x3的卷积核操作,而f1×1则代表1x1的卷积核变换,relu函数作为非线性激活机制被引入,li-1为前一层局部特征提取模块的输入。
15、为了实现连续的全局特征提取,我们采用窗口基自注意力模块(w-msa)及其变种——移位窗口划分自注意力模块(sw-msa)。这两个模块通过串联工作,可以高效地表示并增强全局特征的捕捉能力:
16、
17、其中,zl-1表示上一阶段双分支融合模块输出的特征图,ti’和ti’分别表示基于w-msa和sw-msa的特征提取块的输出特征矩阵,ln为layernorm操作。
18、全局特征恢复模块的计算可表示为:
19、
20、其中q、k和v分别代表查询、键和值,它们是输入矩阵的线性变换。dk是密钥向量的维度。
21、设计了具有良好极化注意力的双分支融合shi模块dbf module,整合了cnn的局部特征提取能力和vit的全局特征捕捉优势,对局部与全局融合的进行极化滤波显著提升模型对病理图像分割的性能表现。dbf module基于convolutional block attention module(cbam)和position attention mechanism(pam)。
22、cbam模块的处理流程如(3)所示:
23、
24、式中表示矩阵逐元素乘法,f3×3和f7×7分别表示核大小为3×3和7×7的常规卷积运算。
25、编码器中双分支融合模块的融合过程如下:
26、
27、式中fo为双分支融合模块的输出,ti为全局特征提取模块,li为局部特征提取模块,f3×3表示核大小为3×3的常规卷积运算。
28、在公式中,双分支融合模块的输出被定义为fo,它融合了由前一层中的全局特征提取模块(其输出为ti)与局部特征提取模块(其输出为li)提供的信息,这一过程通过1×1卷积核(记为f1×1)实现。此外,引入了layer normalization(ln)进行层间规范化,以及silu作为激活函数以增强非线性表达能力。
29、我们提出了一种名为multi-branch deep cross-featureattention(mbcfa)的多分支深度交叉特征关注结构作为解码器核心,该结构有效地整合了编码器生成的多尺度特征信息,以灵活应对病变区域在尺寸与形态上的多样性变化,从而实现卓越的分割效果。此设计不仅缩减了模型参数,还显著加速了网络的训练进程。
30、编码器架构由五个层级构成,各层分别对应不同的特征尺度,标记为s1至s5。这些层级的特征尺寸依据输入图像的高度h和宽度w分别为h/2*h/2、h/4*h/4、h/8*h/8、h/16*h/16、h/32*h/32。其中,h表示输入图像的高度,w表示输入图像的宽度。然后将特征映射s1、s2、s3、s4和s5通过线性上采样到与输入图像相同的大小,从而得到s1'、s2'、s3'、s4'和s5'。接下来,在通道维度上连接s2'、s3'、s4'和s5',并将结果输入1×1卷积以减少通道维度并增强通道间的信息交换。确保输出具有与s2相同的通道数。
31、之后,该1×1卷积的输出被送入mbcfa模块,以进一步挖掘跨尺度特征间的深度交互。为了充分利用s1'中蕴含的丰富边界信息,我们沿着通道维度将mbcfa的输出与s1'进行特征拼接。最终,这一组合特征通过另一对1×1卷积层进行处理,以优化特征表示,为后续任务提供强有力的支持。计算公式如(5):
32、
33、其中fup为上线性插值,mscfa为多分支深度交叉特征注意,sx分别为各层对应不同的特征尺度。
34、交叉注意公式表示如下(6):
35、
36、其中c为多分支深度交叉特征注意输入,ln为layernorm操作,代表并行的三个1×k卷积或者k×1卷积。cfa(·)为交叉特征注意力。上层分支的“查询”、“关键”和“值”分别为q1、k1和v1,下层分支的“查询”、“关键”和“值”分别为q2、k2和v2。
37、在优化后的技术流程中,步骤4聚焦于训练阶段的实施,该步骤特别针对经过数据增强技术处理后的训练集进行深入的模型训练过程,此过程旨在提炼并构建出所提出方法的核心训练权重,这些权重是模型性能与精度的基石,增强模型面对多样化输入数据的适应力与泛化能力。
38、优选地,上述技术方案中,采取的策略是将测试集数据馈送至优化完成的模型中,随后执行预测流程,从而精准地生成测试结果。此外。还提供经过细致分割处理的二值化预测图像。这些图像直观而清晰地展示了模型对测试样本的高效识别与精准分割能力,极大地提升了结果的可视化表现与实用价值。
39、优选地,上述技术方案中,步骤5中在测试集上测试训练模型的效果步骤包括,将测试集输入到训练好的模型中,得到模型的测试结果,并且将置信度和iou设为0.25和0.45,模型输出带目标预测框和置信度的图片。
40、优选地,上述技术方案中,步骤5、在独立的测试集上实施详尽的性能评估与鲁棒性检验步骤包括,将测试集输入到训练好的模型中,得到模型的测试结果,并且将置信度和iou设为0.25和0.45,模型输出图片带有目标预测框和置信度。本发明相较于现代技术优点如下:
41、(1)此模型通过集成先进的数据增强策略,实现了训练样本数量与多样性的双重扩充。数据增强技术有效模拟了实际应用中可能遇到的各种数据变异情况,促使模型在复杂多变的输入条件下仍能维持稳定的性能表现,从而确保了黑色素瘤分割任务在复杂环境影响下的高精度与可靠性。
42、(2)发明公开了一种一种融合卷积神经网络和transformer的黑色素瘤分割方法,融合了卷积神经网络(cnn),transformer和psp-net的设计特点,引入了一种局部特征指导全局特征获取高级语义关系的编码器svit-c。局部特征通过设计提出的dbf moudle与全局特征融合,采用多分支深度交叉特征关注结构multi-branch deep cross-featureattention(mbcfa)作为解码器并改进传统的跳转连接,很好地利用编码器产生的多尺度信息,处理不同大小和形状的病变区域的变化,达到良好的分割性能,减少参数,加快网络训练速度。
本文地址:https://www.jishuxx.com/zhuanli/20250110/353629.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。