技术新讯 > 计算推算,计数设备的制造及其应用技术 > 一种基于主动学习的病理图像噪声检测方法  >  正文

一种基于主动学习的病理图像噪声检测方法

  • 国知局
  • 2024-08-08 16:53:05

本发明涉及医学图像处理任务领域,特别涉及基于主动学习框架的病理图像噪声识别方法。

背景技术:

1、近年来,深度学习技术在一系列医学图像处理任务上取得了令人瞩目的结果,人工智能和深度学习技术已成功应用于医学领域,尤其在病理图像的识别和病理诊断方面起着显著作用。在现实场景下,数量庞大的病理图像标注工作所耗费的成本十分巨大,同时在标注过程中也会明显存在对病理图像的漏注和对病理图像错误的判断,因此噪声病理图像广泛存在于数据集中且严重影响着模型的识别性能,同时庞大的病理检测图像包含信息量大且复杂,对于医生每天巨量的图像分析研究工作量来说负担过大,而这也会导致医生分析效率降低。

2、因此,研究如何有效进行病理图像的噪声检测以提升模型的识别性能和对病理图像所体现的信息可视化具有重大的现实意义。病理学家的稀缺和诊断流程的繁琐耗时加剧了临床诊断的需求和实际诊断工具低效的矛盾。为了解决这个矛盾,医学领域的研究者们开始把目光聚集在计算机辅助诊断中。随着科学技术的进步,计算机处理器(cpu)和图形处理器(gpu)性能的提升,让计算机能够处理大量的复杂数据;深度神经网络的不断优化,计算机能够提取到更深层次的特性;伴随着医学图形成像技术的提升,数字化全幻灯片图像(wsi)技术出现。通过这些技术相辅相成,计算机视觉和深度学习技术在各种医学领域图形分析中卓有成效。此外,各种先进的算法也在不断完善,为深度学习算法能够在医学领域进行准确分析和完成各种实际场景难题时提供技术支持。

3、主动学习主要解决的问题为,在医学领域中,对大量图像进行人工标注是昂贵且耗时的。同时,不同的专家面对同一份病理图像的标注也会存在差异。因此,如何利用现在流行的深度学习算法来甄别图像中的噪声样本,实现选择最有用的样本来优化模型性能,减少需要标记的样本数量,提高学习效率且减少标注成本。

技术实现思路

1、针对现有技术存在的上述问题,本发明要解决的技术问题是:利用深度学习算法来甄别图像中的噪声样本,实现选择最有用的样本来优化模型性能,减少需要标记的样本数量,提高学习效率且减少标注成本。

2、为解决上述技术问题,本发明采用如下技术方案:一种基于主动学习的病理图像噪声检测方法,该方法利用主动学习框架,并结合两种噪声识别模块实现高效的病理图像噪声检测。

3、一种基于主动学习的病理图像噪声检测方法,包括如下步骤:

4、s101:建立病理图像分类网络,初始化网络参数,初始化网络参数使用imagenet上预训练的参数初始化参数。

5、s102:获取已标注样本集li,已标注样本集li由224×224的病理组织切片图像xi和其对应的标签yi组成;使用li中的xi和其对应的yi对病理图像分类网络进行训练,更新病理图像分类网络的参数,当损失收敛或达到预设的一次最大迭代次数,得到训练好的病理图像分类网络。

6、在对病理图像分类网络训练的过程,记录xi最后一次训练时的损失值li;

7、s103:对于xi,将xi对应的li和yi作为训练样本的样本对应的标签输入β-混合模型,训练β-混合模型,直到达到收敛或迭代次数,得到训练好的β-混合模型。

8、s104:将已标注样本集li和未标记样本集ui中的所有样本输入训练好的病理图像分类网络,得到每个样本的损失值l′i,将每个样本的损失值l′i输入训练好的β-混合模型中得到每个样本属于某一类标签的概率ρi,对于ui中样本将ρi最大值对应的标签作为该样本的伪标签。

9、s105:li中的xi根据其对应的yi进行分类,设yi的类别共有k个,将具有同一类别标签yi的xi分为一类,得到k个类别集合对对应标签进行独热编码对中xi和其对应的进行惩罚线性回归拟合,并计算惩罚线性回归拟合系数γi。

10、s106:对li和ui中每个样本的ρi和γi,通过以下规则进行判断:

11、1)若样本对应的ρi<0.05且γi=0,则该样本标记为典型样本,如果该样本原本有标签保留其原标签,如果该样本无标签则将其伪标签作为其标签。

12、2)若样本对应的ρi>0.95且γi≠0,则该样本标记为噪声样本,如果该样本原本有标签则用伪标签替换其原标签,如果该样本无标签则不做处理。

13、3)其他样本标记为普通样本,对其他样本的不做处理,进入下一轮训练。

14、所有噪声样本构成噪声样本集ni,所有典型样本构成典型样本集ii,得到新的已标注样本集合li+1=li+ni+ii。

15、使用li+1更新已标注样本集合,并反回执行s102,直至达到二次最大迭代次数。

16、进一步的,所述s101病理图像分类网络以resnet-50作为骨干网络,在resnet-50网络最后添加relu激活函数,最终的全连接层与softmax进行分类任务。

17、进一步的,所述s102记录xi最后一次训练时的损失值li,其损失函数使用recallloss进行计算,具体步骤如公式(1)-(3):

18、

19、

20、

21、其中tp表示病理图像分类网络将正类样本预测为正类的数量,fn表示病理图像分类网络将负类样本预测为负类的数量,ε为一个常量;ω为根据recall计算的权重值;nc为类别c的样本数量,用pn表示输入的li所有类的预测性softmax分布pc,

22、进一步的,所述s103中,训练β-混合模型得到训练好的β-混合模型的步骤如下:

23、一个β-分布定义如(4)式:

24、

25、其中α,β是β-分布的形状参数,p(l|α,β)是随机变量lβ-分布的概率密度函数。

26、使用期望最大化拟合β-混合模型的求期望过程,固定混合系数λk,αk,βk,λk为混合系数,αk,βk均为使用矩方法的加权得到的分布参数,使用贝叶斯规则来更新潜在变量γk(l),具体过程如(5)式:

27、

28、其中k表示不同k个混合成分。

29、给定固定的γk(l),最大化过程使用矩方法的加权版本估计分布参数αk,βk:

30、

31、其中是训练样本集合损失的加权平均值,是加权方差估计值:

32、

33、其中n表示训练样本的数量。

34、然后使用常用方法计算更新后的混合系数λk:

35、

36、重复上述步骤,直到达到收敛或迭代次数。

37、进一步的,所述s104中,计算每个样本属于某一类标签的概率ρi利的步骤如下:

38、ρi如公式(9)所示:

39、ρi=p(k=1|li)#(9)

40、其中k=1代表是噪声样本类别,k=0点是干净样本类别。

41、进一步的,所述s105中计算惩罚线性回归拟合系数γi的步骤如下:

42、线性回归模型如公式(10):

43、y=xβ+γ+ε#(10)

44、其中,所有xi对应的特征所构成的特征集所有xi对应的所构成的标签集xi和xi对应的构成一组数据对,每组数据对对应的惩罚线性回归拟合系数γi构成

45、采用稀疏线性回归模型对当前训练阶段获得的特征标签对对yi进行独热编码得到对进行建模,并通过优化确定相关的均值偏移参数γ,γ=[γ1,γ2.....],其具体过程如公式(11):

46、

47、其中p(·;·)代表γ上的稀疏正则化,系数λi在行γi上,确保非零γi是稀疏的,λi为控制正则化程度的系数,λ=[λ1,λ2.....];定义o:={i:‖γi‖≠0}作为噪声样本集,将ols估计值替换为具体有固定γ的β,使此时方程如公式(12)所示:

48、

49、当λi从∞变为0时,稀疏惩罚的影响减少,使得γi逐渐收敛到非零值。

50、相对于现有技术,本发明至少具有如下优点:

51、1.本发明融合了样本特征空间和标签空间两个部分进行噪声处理,解决了不同模块针对方向,更好的提升了噪声检测的新能;

52、2.本发明提出了基于主动学习的噪声检测方法,在提升标注样本数量的同时,通过噪声检测模块,筛除了噪声样本并添加了典型样本,有效保证了标注样本集的质量。

53、3.本发明融合了噪声检测机制到主动学习中,优化了传统主动学习的样本选择策略,使样本选择更具有可信性和准确性。

本文地址:https://www.jishuxx.com/zhuanli/20240808/270980.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。