基于图像文本多模态的眼底图像基础模型预训练方法
- 国知局
- 2024-07-31 23:16:48
本发明属于医学图像处理的,主要涉及了一种基于图像文本多模态的眼底图像基础模型预训练方法。
背景技术:
1、医学图像处理技术的进步极大地推动了现代医疗诊断的发展,为疾病的早期发现、分类和治疗提供了重要支持,尤其是在眼科,眼底图像分析的自动化已经成为辅助诊断和疾病监测的关键工具。然而,当前眼底图像分析模型的构建往往局限于特定的数据集,针对个别的任务进行优化,这些模型大多遵循数据驱动的学习范式,缺乏对领域先验知识的整合。在医学图像处理的实践中,公开可用的数据集往往规模有限,且类别多样,而且很多研究依赖于难以获取的私有数据集,这种情况导致了一种分散的方法论:对于每个数据集单独建立和训练模型,并且在遇到新的数据集时需要重新进行训练。这种方法不仅效率低下,还会影响模型的泛化能力,因为每个模型只适用于其训练数据所包含的特定条件和变量。
2、为了解决这个问题,clip(contrastive language–image pre-training)方法是一种创新的多模态学习框架,旨在通过对齐语言和图像的表示空间来提高模型在各种视觉任务上的泛化能力。clip通过大规模的图像-文本对进行预训练,学习图像内容与自然语言描述之间的语义相似性。具体而言,clip模型包括两个主要组件:一个图像编码器和一个文本编码器。图像编码器负责提取图像的视觉特征,而文本编码器则提取文本描述的语义特征。这两种特征随后在一个共同的多模态空间中进行对齐,通过对比学习的方法优化模型,使得相匹配的图像-文本对在该空间中距离更近,而不匹配的对距离更远。
3、在计算机视觉领域,文本信息的融合已被证实能够增强模型对数据的理解,尤其是在数据信息量有限的情况下。这种结合人类领域知识的文本信息与图像数据的方法,正推动基础视觉语言模型在该领域的革新。然而,在医学影像分析任务中,由于存在显著的领域特异性和专业知识的复杂性,直接应用这种新模型范式并未能取得预期的突破性成果。通用视网膜眼底图像理解的预训练视觉语言模型(a foundation language-image modelof the retina,flair)通过构建公共眼底图像数据集的各种疾病的类别名扩展表,提高了模型的表现,针对视网膜眼底图像理解任务取得了显著进展。但即使是归属于同一疾病类别的眼底图像,它们也可能包含不同的更详细的信息,因此,若仅如flair中所应用的疾病类别标签映射成为文本提示用于模型预训练,由于这样的文本简短且类型相对单一,能提供的图像信息较少,致使预训练模型中蕴含的专家知识也少,故而尽管flair预训练过程中使用了大量的训练数据,所得模型仍无法全面捕捉图像特征中的多样信息。因此,视觉-语言预训练模型的效果依然还有很大提升空间。
技术实现思路
1、本发明正是针对现有眼底影像分析领域视觉-语言预训练方法的问题,提供一种基于图像文本多模态的眼底图像基础模型预训练方法,首先获取前置原始眼底图像集和原始文本注释集;对前置原始文本注释集中的元素进行正则匹配和切分子注释,与原始眼底图像集中的每一张眼底图像进行配对,辅以人工校对后得到高质量多模态视觉-语言眼底数据集;构建特征提取模块和以及包含了图文匹配标签的视觉-语言预训练模型;通过基于相似度引导的文本修正方法实现专家知识ek的融入,完善和改进公共数据集的文本提示;最后采取混合训练策略,将高质量多模态视觉-语言眼底数据集和公共数据集中的图片以及文本样本分别以1:1的比例混合后作为模型的输入进行预训练得到合适的参数配置。本发明构建了高质量多模态视觉-语言眼底数据集,克服了现有眼底图像视觉-语言预训练基础模型中无法有效地将文本中的专家先验知识融入模型的缺点,相较于已有眼底图像预训练基础模型,本方法通过图像相似性引导下的文本修正及混合训练策略的轻量级的专家知识整合方法有效进行了知识增强和融入,从而训练得到了在未见数据集上迁移性好、zero-shot和few-shot场景下有效性佳的增强专家知识融入的视觉-语言眼底图像预训练基础模型。
2、为了实现上述目的,本发明采取的技术方案是:基于图像文本多模态的眼底图像基础模型预训练方法,包括如下步骤:
3、s1,构建前置眼底图像集以及文本注释集:从医学专著集中分别提取出前置原始眼底图像集和原始文本注释集其中是从专著集中提取的一张眼底图像,是对应于眼底图像的文本注释,k是大于等于1的正整数用于指示图像和文本的序号,和各自在眼底图像集和文本注释集中以相同的相对顺序排列;
4、s2,构建高质量多模态视觉-语言眼底数据集:对步骤s1中原始文本注释集中的元素进行正则匹配和切分子注释,再和原始眼底图像集中的每一张眼底图像进行配对,经过人工校对后,得到高质量多模态视觉-语言眼底数据集dc;
5、s3:构建特征提取模块和视觉-语言预训练模型:所述特征提取模块包括图像特征提取器和文本特征提取器,其中,图像特征提取器包括一个图像编码器ev和一个投影头pv,文本特征提取器包括一个文本编码器et和一个投影头pt,编码器ev,et分别通过投影头pv,pt来匹配特征维度以提取图像特征和文本特征;
6、所述视觉-语言预训练模型的优化目标为:在多模态空间中最大化配对的图像文本之间的相似性,同时最小化不配对的图像和文本之间的相似性;
7、s4,通过基于相似度引导的文本修正方法实现专家知识ek的融入;基于相似度引导的文本修正方法通过识别公共数据集与构建的高质量多模态视觉-语言眼底数据集中图像相似的视觉特征,利用相似度来从构建的高质量多模态视觉-语言眼底数据集的文本特征中提取相关的先验知识以完善和改进公共数据集的文本提示;
8、s5,采取混合训练策略,将步骤s2中构建的高质量多模态视觉-语言眼底数据集和公共数据集中的图片以及文本样本分别以1:1的比例混合后作为模型的输入,基于专家知识ek的融入方法,对特征提取模块中的2个编码器ev,et进行预训练得到合适的参数配置。
9、作为本发明的一种改进,所述步骤s1中,专著集前置原始眼底图像集具体为:原始文本注释集具体为:是用到的专著数目,和分别是原始眼底图像集与原始文本注释集中的元素个数。
10、作为本发明的一种改进,所述步骤s2中的正则匹配和切分子注释具体为:对于文本注释集ts中的每一个元素利用正则匹配识别其中图片编号判断该组注释中是否含有多张图片注释,并按照所含子图数量q将所识别图片编号重设为同时将原注释组切分为递归地将切分后的每一个注释与原始眼底图像集中的每一张眼底图像进行配对。
11、作为本发明的一种改进,所述步骤s2中高质量多模态视觉-语言眼底数据集图像包括彩色眼底摄影(cfp)、荧光素眼底血管造影(ffa)和光学相干断层扫描(oct)三种眼科成像模态,所述三种模态的眼底图像与其对应的文本成对顺序排列。
12、作为本发明的另一种改进,所述步骤s3中,图像编码器ev采用resnet50实现,公共数据集和步骤s2高质量多模态视觉-语言眼底数据集中的图像作为输入,经过卷积层和池化层,以残差连接来学习图像的特征表示,输出包含了图像语义信息的高维特征向量;
13、所述文本编码器et采用bioclinicalbert实现,公共数据集和步骤s2高质量多模态视觉-语言眼底数据集中的文本作为输入,经过预训练的transformer网络结构,输出包含了文本语义信息的高维特征向量。
14、作为本发明的另一种改进,所述步骤s3中,对于高质量多模态视觉-语言眼底数据集,所述视觉-语言预训练模型采用clip实现对比损失:
15、
16、
17、其中,下标m表示步骤s2中构建的高质量多模态视觉-语言眼底数据集;ce是标准的二分类交叉熵损失函数;b表示批尺寸;是跨模态相似度;λ是可学习的比例因子;v2t和t2v表示“图像到文本“和“文本到图像”;表示匹配标签;
18、对于公共数据集,所述视觉-语言预训练模型计算批次内样本间的类别共现关系,损失函数为:
19、
20、其中,下标p表示只含有类别标签的公共数据集,表示匹配标签。
21、作为本发明的又一种改进,所述步骤s4中,通过基于图像相似度引导的文本修正方法实现专家知识ek的融入,其损失定义为
22、ek=multihead(q,k,v)=concat(head1,head2,...,headh)wo
23、headi=attn(vpwiq,vmwik,tmwiv)
24、
25、其中,(vp,tp)和(vm,tm)分别为经过特征提取模块后得到的图像特征和文本特征;wo,wiq,wik,wiv表示投影参数矩阵;headi表示多头注意力模块中第i个并行运行的独立注意力计算单元的参数集合;
26、再根据平均平方误差(mse)确定知识修正损失:
27、
28、作为本发明的更进一步改进,所述步骤s4中,headi的具体计算方式为:图像特征vp与投影参数矩阵wiq相乘得到qi,图像特征vm与投影参数矩阵wik得到ki,文本特征tm与投影参数矩阵相乘得到vi;令q1,q2,...,q|b|分别与k1,k2,...,k|b|计算向量点积,得到αi,1,αi,2,...,αi,|b|,并将αi,1,αi,2,...,αi,|b|经过softmax处理后得到以确保得到[0,1]范围内的注意力权重值;再通过将注意力权重加权求和获得headi。
29、作为本发明的更进一步改进,所述步骤s5混合训练的目标损失为:
30、
31、其中,为公共数据集的对比损失,为高质量多模态视觉-语言眼底数据集的对比损失,为专家知识修订损失,α是的权重。
32、与现有技术相比,本发明具有的有益效果:
33、(1)本发明方法在步骤s2中构建了一个高质量多模态视觉-语言眼底数据集mm-retinal,该数据集是首个包含彩色眼底摄影(cfp)、荧光素眼底血管造影(ffa)和光学相干断层扫描(oct)的多模态高质量图文专家数据集,mm-retinal提供的图像分辨率超过800×800,并且配对有高质量、精确且相关的文本描述,他们与临床数据高度匹配,领域偏移小;另外,该数据集涵盖了超过96种不同的异常和疾病类别,包含了丰富的词汇和长文本描述,蕴含了大量的专家知识,这为基于数据驱动的眼底图像分析模型的增强提供了可能。
34、(2)本发明方法包括一种称为图像相似性引导下的文本修订以及混合训练策略的轻量级的专家知识融入方法,该专家知识融入方法可以更好地增强和利用来自构建的高质量多模态视觉-语言眼底数据集的专家知识,同时通过公开数据集和构建的高质量多模态视觉-语言眼底数据集以一定比例混合训练的策略,有效避免了预训练过程中模型的优化偏差,从而训练得到了在未见数据集上迁移性好、zero-shot和few-shot场景下有效性佳的增强专家知识融入的视觉-语言眼底图像预训练基础模型。
本文地址:https://www.jishuxx.com/zhuanli/20240730/196773.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。