技术新讯 > 计算推算,计数设备的制造及其应用技术 > 基于双阶段特征融合网络的乳腺组织病理图像分类方法 > 正文

基于双阶段特征融合网络的乳腺组织病理图像分类方法

国知局
2024-11-21 11:42:02

本发明属于医学影像诊断和电子信息领域的图形与图像处理技术，涉及一种乳腺组织病理图像分类方法。

背景技术：

1、乳腺癌是威胁女性健康的主要癌症，约占女性癌症的31％，同时乳腺癌是40-79岁女性和60-79岁男性死亡的主要原因。精确诊断乳腺癌对于后续的治疗和预后具有关键作用。组织病理学图像分析在现代医学中发挥着至关重要的作用，它通常被认为是乳腺癌诊断的金标准。

2、传统的乳腺组织病理学诊断是通过使用光学显微镜检查病理组织切片来手动进行的。然而，由于环境变化和人口老龄化加剧等社会问题，这些诊断方法正面临重大挑战。随着全切片数字扫描技术的发展，病理切片能够以全视野数字切片(whole slide images,wsis)的形式保存下来，极大提升了病理医生的工作效率。然而，病理切片的巨大尺寸(100000×100 000像素)给手动阅片带来了一定挑战。再者，不同病理医生的专业水平差异可能导致对同一切片的分析出现主观性偏差，增加误诊的风险。为了解决这些问题，研究人员利用计算机视觉和机器学习技术开发了计算机辅助诊断系统，为病理诊断分析开辟了新途径。这种方法可以减少病理医生的工作量，提高病理诊断的效率和准确性。

3、随着全视野数字切片技术的兴起，计算机辅助分析已用于病理图像分类研究。早期的乳腺组织病理图像分类方法多采用传统机器学习算法。该类算法依赖于手工设计的特征进行分类，这在一定程度上限制了它们的应用范围。由于病理细胞之间存在高度的相似性，使得特征提取变得极其复杂，且难以设计高层抽象的特征。近年来，基于深度学习的分类方法通过其网络自主学习特征的能力，克服了传统方法需人工设计和提取特征的局限性，在全视野数字切片的计算机辅助诊断研究中取得了显著成果。然而，这些深度学习方法通常需要大量的标注信息才能获得令人满意的结果。同时，由于计算机内存有限，直接处理wsi存在难度。因此，研究人员开发了诸多基于图像块(patch)的深度学习方法，他们将每张wsi划分成数百甚至数千个图像块，然后对图像块进行标注并送入模型训练。显然，这些方法依然需要大量精标注信息。在缺乏像素级标注情况下，国内外研究人员开始采用基于多实例学习(mil)的弱监督学习方法来进行wsi分类。

4、近年来，随着全视野数字切片(wsi)分析领域的发展，弱监督学习框架，尤其是多实例学习(mil)模型，已成为学术界研究的热点。mil模型利用粗粒度的切片级标签进行训练，避免了对每个实例进行细粒度标注的需要。在mil中，每个wsi被定义为一个包，而从wsi中划分出的图像块则被视为包中实例。对于一个包而言，如果其中至少存在一个阳性实例，则该包称为正包。相反，如果其中所有的实例都是阴性的，则该包称为负包。mil方法主要可以分为两类：基于实例的方法和基于嵌入的方法。前者训练一个实例分类器用来得到每个实例的预测，然后聚合包中每个实例的预测以获得包预测。而后者通过编码器提取包中每个实例的特征，并通过一个聚合算子将实例特征聚合成包级别特征，然后通过监督的方式训练包分类器。研究表明，基于实例的方法在分类性能上不如基于嵌入的方法。

5、然而，当前基于嵌入的mil模型存在两个主要挑战，首先，用于训练的切片数量有限，可用的学习信息只有切片级别的标签，导致模型很容易受到过拟合的影响，无法学习到丰富的特征表示。此外，阳性wsi(包)中的图像块(实例)分布极为不平衡，阳性图像块所占的比例非常小，若直接处理这样的切片可能会造成错误分类。为应对这一挑战，已有研究探索了将全切片图像划分为多个子包的方法，以虚拟地增加包数量。例如，yao等人采用k-means聚类算法，将同一患者的所有图像块聚类为不同的表型，然后将每个表型视为一个子包。然而，聚类算法基于坐标计算，这会为子包引入额外的坐标信息。此外，基于聚类的分组方法通过计算嵌入之间的距离来确定相似图像块，这一过程会产生大量的计算开销。为避免复杂的计算，zhang等人采用一种随机分组策略。该策略将一个父包随机地分成若干个子包。同样地，zhang等人使用mas分组策略，通过随机分组方法和msa(多头自注意力)将嵌入分成固定数量的子包。然而，这些方法由于其随机性，可能导致阳性子包中无法获得至少一个阳性实例，从而导致模型分类准确率降低。其次，当前多数自监督方法仅使用单一尺度的图像块来训练特征提取网络，而忽略了全切片图像之间的空间相关性。一般地，在临床实践中，病理医生也会使用不同倍率的病理图像全面地检视病灶区域。为了对不同倍率图像之间的空间相关性进行建模，shen等人提出了一种双层骨干网络，通过将卷积神经网络(cnn)和transformer相结合，以融合不同放大倍率图像的空间相关性。此外，他们还改进了自监督学习算法，用于训练这些特征。该方法通过通道级联操作融合来自cnn和transformer的特征。然而，来自不同网络的特征在空间分辨率和深度上可能存在差异，这可能引发特征对齐问题。此外，双层骨干网络还会消耗大量的计算资源和时间。

技术实现思路

1、为了克服已有技术的不足，本发明提供了一种基于双阶段特征融合网络的乳腺组织病理图像分类方法，采用自监督对比学习框架来训练特征提取网络，并结合多尺度特征融合技术，以整合不同尺度下的乳腺组织病理图像信息，这样做的目的是充分利用卷积神经网络对图像中局部信息和全局信息的敏感性，从而在病理图像中提取具有重要诊断意义的信息；此外，设计并实现了基于注意力分数和特征融合机制的两阶段分类任务，这一设计不仅增加了模型能够处理的包的数量，还通过显著特征的优势进一步提升了模型训练的效果。

2、本发明解决其技术问题所采用的技术方案是：

3、一种基于双阶段特征融合网络的乳腺组织病理图像分类方法，包括以下步骤：

4、步骤1：使用otsu阈值算法对乳腺组织病理图像进行阈值分割，基于图像自动选择初始化阈值，将图像分为前景和背景，由于在该阶段只是筛选出组织目标，排除背景，采用该方法可以快速找到目标的阈值；

5、步骤2：采用分块技术将乳腺组织病理图像在20倍和10倍放大倍率下分别进行处理，将其划分为一系列图像块；

6、步骤3：对步骤2中获得的图像块分别采用中值滤波技术进行平滑处理，降低了病理图像制备过程中可能引入的噪声和图像模糊；

7、步骤4：设计特征融合模块，该模块将相同位置但不同放大倍率下的乳腺组织病理图像块特征进行拼接；

8、步骤5：应用自监督对比学习算法，并通过步骤4融合多尺度特征向量以进行训练，旨在提取出更具区分性的特征表示，同时增强特征提取器的泛化能力。训练达到收敛后，保留最佳的模型权重，以便用于后续的分析任务；

9、步骤6：使用步骤5预训练的特征提取器提取不同放大倍率的图像块特征，随后通过步骤4的特征融合模块融合这些特征；

10、步骤7：对融合后的特征应用注意力机制，计算每个实例的注意力分数，并选取分数最高的前β％显著实例形成新的包。然后将这些显著实例随机分成n个组，每组作为一个独立的子包；

11、步骤8：选取每个子包的实例特征并将其拼接，得到最终的包级别特征；

12、步骤9：将步骤8得到的包级别特征输入到包分类器中进行判别，得到最终的乳腺组织病理图像是否癌变的二分类结果。

13、进一步，所述步骤2中，将病理图像划分成适合主流卷积神经网络处理的像素尺寸，同时为后续在不同放大倍率下进行特征融合做准备，过程如下：

14、步骤2.1：使用openslide开源库读取乳腺组织病理图像i；

15、步骤2.2：首先，在20倍和10倍放大倍率下获取图像，然后选定一个固定尺寸的窗口，并以小于该窗口大小的固定步长s沿图像i的水平和垂直方向连续滑动，获取图像块；

16、步骤2.3：将图像块保存，供后续步骤处理。

17、再进一步，所述步骤3中，去除图像块中的噪点信号，提高图像质量，过程如下：

18、步骤3.1：利用opencv视觉库加载图像块，并应用半径为r的观察窗口进行局部采样；

19、步骤3.2：对当前观察窗内的像素值进行排序，以确定中位像素值；

20、步骤3.3：将计算得到的像素中位值用于替换观察窗口中心的像素，以增强图像的局部对比度和清晰度；

21、步骤3.4：重复步骤3.2～3.3，对整个图像块进行滤波处理。

22、更进一步，所述步骤4中，考虑不同尺度图像块之间的空间相关性，使模型能够捕捉病理图像在不同尺度上的详细信息，从而提供更全面的组织特征描述，过程如下：

23、步骤4.1：对于每个10倍放大倍率的图像块，提取该图像块的特征向量，同时获取同一位置在20倍率下的子图像块特征向量；

24、步骤4.2：将10倍率下的特征向量与每个20倍率下的特征向量进行拼接，最终得到4个特征向量。

25、所述步骤7中，将一个包划分成多个子包，以扩增训练数据的规模，同时让模型更多关注那些显著实例，从而提升模型对于病理特征的敏感性和识别能力，过程如下：

26、步骤7.1：采用ab-mil中的注意力机制得到每个实例的注意力分数；

27、步骤7.2：降序排序所有的注意力分数，选取前β％个显著实例作为新的训练样本。

28、步骤7.3：将得到的显著实例随机分成n个组，每个组作为一个独立的子包。

29、所述步骤8中，从子包中选取具有代表性的实例特征来聚合包级别特征，并用于后续包级别分类，过程如下：

30、步骤8.1：通过应用softmax函数于多层感知机mlp的最后一层输出，将原始的输出转换为子包内每个实例对应的患癌概率；

31、步骤8.2：对于每个子包，首先对每个实例的患癌概率进行排序，然后选取其中概率最高和概率最低的实例特征，并将这两个特征向量拼接，得到一个新的特征向量来表示这个子包；

32、步骤8.3：将经步骤8.2处理后的代表每个子包的特征向量再次进行拼接，得到最终的包级别特征。

33、在所述的步骤8.2、8.3中，拼接方式选择通道拼接或空间拼接等拼接方式。

34、在所述步骤2中，所述的分块技术选用随机分块、网格分块或重叠采样分块等分块方式；划分图像块的尺寸选择256×256、512×512或768×768像素等。

35、在所述的步骤3中，滤波方法选用均值滤波或最值滤波等方法。

36、在所述的步骤4中，拼接择通道拼接或空间拼接等方式。

37、在所述的步骤4.1中，提取图像块特征选用resnet网络或vgg网络等。

38、在所述的步骤5中，选用mocov2或simclr等对比学习算法作为自监督学习框架，些算法均无需依赖手动标注，便能有效学习并提炼出具有高度鲁棒性的特征表示。

39、在所述的步骤9中，选用多层感知机或卷积神经网络作为包分类器。

40、本发明提出一种两阶段特征融合网络，用于乳腺组织病理图像良恶性判别。在第一阶段，根据分组策略，将一个包随机分成多个组，每个组形成一个独立的子包。在第二阶段，使用特征选择策略，选取每个子包特征将其融合成包级别特征，再通过包分类器实现乳腺组织病理图像的分类。此外，为了进一步提升自监督学习算法在训练特征提取网络中的效果，本发明设计了一个特征融合模块。该模块用于融合来自不同放大倍率的乳腺组织病理图像特征。通过这一策略，自监督学习算法能够更有效地捕捉和整合病理图像的多尺度信息，增强了特征表示的鲁棒性和泛化能力。

41、本发明的有益效果主要表现在：该方法利用自监督对比学习算法对多尺度特征进行训练，使其能够捕捉和学习乳腺组织病理图像中具有高度区分性的特征。其次，使用两阶段特征融合网络对病理图像进行良恶性判别。值得注意的是，本发明只关注那些具有较高注意力分数的显著实例，这些实例通常包含病理图像中的关键信息。此外，让模型更多地关注显著实例，能够进一步增强其对关键病理特征的捕捉和理解能力，从而提高模型的诊断准确性和可靠性。本发明的这一创新方法，有望为医生提供更精确的辅助诊断建议，同时缩短诊断时间，从而减轻医生的工作负担。