一种跨模态文本生成方法、装置、电子设备及存储介质
- 国知局
- 2024-11-06 14:53:55
本发明涉及医学图像分析,尤其涉及一种跨模态文本生成方法、装置、电子设备及存储介质。
背景技术:
1、随着深度学习等相关技术的迅猛发展和广泛应用,在计算机视觉、自然语言处理以及辅助医疗诊断等领域取得了显著成就,并展现出巨大潜力。医学设备的持续进步与广泛运用使得众多形式的医学检测涌现,包括影像、声波和报告等多种模态数据。然而,随着病人检测结果数量急剧增加,多种模态数据在实现更精准的病情检测方面虽有帮助,却也给临床医生增加了更多工作负担。
2、目前,相较于单一模态数据,多模态数据获取困难。
技术实现思路
1、本发明提供了一种跨模态文本生成方法、装置、电子设备及存储介质,以实现图像到文本的跨模态生成。
2、根据本发明的一方面,提供了一种跨模态文本生成方法,所述方法包括:
3、加载图像-文本迁移模型,所述图像-文本迁移模型包括图像编码器和文本编码器;
4、基于所述图像编码器构建图像分类模型,并对所述图像分类模型进行微调,更新所述图像分类模型;所述图像分类模型包括所述图像编码器和分类器;
5、获取医学图像数据,基于所述图像分类模型对所述医学图像数据进行分类处理,得到分类结果;所述分类结果包括多个维度的分类标签以及所述分类标签对应的提示数据;
6、基于所述文本编码器对所述分类标签对应的提示数据进行编码处理,形成特征空间;在所述特征空间中进行检索,得到与所述医学图像数据的医学图像特征匹配的提示数据组;
7、基于所述提示数据组生成所述医学图像数据对应的文本数据。
8、根据本发明的另一方面,提供了一种跨模态文本生成装置,包括:
9、图像-文本迁移模型加载模块,用于加载图像-文本迁移模型,所述图像-文本迁移模型包括图像编码器和文本编码器;
10、图像分类模型微调模块,用于基于所述图像编码器构建图像分类模型,并对所述图像分类模型进行微调,更新所述图像分类模型;所述图像分类模型包括所述图像编码器和分类器;
11、图像分类模块,用于获取医学图像数据,基于所述图像分类模型对所述医学图像数据进行分类处理,得到分类结果;所述分类结果包括多个维度的分类标签以及所述分类标签对应的提示数据;
12、提示数据组检索模块,用于基于所述文本编码器对所述分类标签对应的提示数据进行编码处理,形成特征空间;在所述特征空间中进行检索,得到与所述医学图像数据的医学图像特征匹配的提示数据组;
13、文本数据生成模块,用于基于所述提示数据组生成所述医学图像数据对应的文本数据。
14、根据本发明的另一方面,提供了一种电子设备,所述电子设备包括:
15、至少一个处理器;以及
16、与所述至少一个处理器通信连接的存储器;其中,
17、所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明任一实施例所述的跨模态文本生成方法。
18、根据本发明的另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现本发明任一实施例所述的跨模态文本生成方法。
19、本发明实施例的技术方案,通过加载图像-文本迁移模型,图像-文本迁移模型包括图像编码器和文本编码器;基于图像编码器构建图像分类模型,并对图像分类模型进行微调,更新图像分类模型;获取医学图像数据,基于图像分类模型对医学图像数据进行分类处理,得到分类结果;分类结果包括多个维度的分类标签以及分类标签对应的提示数据;基于文本编码器对分类标签对应的提示数据进行编码处理,形成特征空间;在特征空间中进行检索,得到与医学图像数据的医学图像特征匹配的提示数据组;基于提示数据组生成医学图像数据对应的文本数据。基于图像-文本迁移模型对医学图像数据进行跨模态迁移,实现图像到文本的跨模态生成。
20、应当理解,本部分所描述的内容并非旨在标识本发明的实施例的关键或重要特征,也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。
技术特征:1.一种跨模态文本生成方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述图像-文本迁移模型的训练方法,包括:
3.根据权利要求2所述的方法,其特征在于,所述映射模块由线性层和一个transformerencoder叠加构成。
4.根据权利要求2所述的方法,其特征在于,所述图像-文本数据集由图像-文本对构成,每一所述图像-文本对包括图像数据、文本数据和至少一个标签数据,所述标签数据分别与所述图像数据和所述文本数据对应;
5.根据权利要求4所述的方法,其特征在于,所述基于所述图像-文本数据集、所述目标文本编码器和所述目标图像编码器分别对两个所述映射模块进行训练,得到图像-文本映射模块和文本-图像映射模块,包括:
6.根据权利要求1所述的方法,其特征在于,所述基于所述图像分类模型对所述医学图像数据进行分类处理,得到分类结果,包括:
7.根据权利要求6所述的方法,其特征在于,所述图像-文本迁移模型还包括图像-文本映射模块;所述特征空间包括所述分类标签对应的提示数据的提示数据文本特征;
8.一种跨模态文本生成装置,其特征在于,包括:
9.一种电子设备,其特征在于,所述电子设备包括:
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现权利要求1-7中任一项所述的跨模态文本生成方法。
技术总结本发明公开了一种跨模态文本生成方法、装置、电子设备及存储介质,该方法包括:加载图像‑文本迁移模型,图像‑文本迁移模型包括图像编码器和文本编码器;基于图像编码器构建图像分类模型,并对图像分类模型进行微调,更新图像分类模型;获取医学图像数据,基于图像分类模型对医学图像数据进行分类处理,得到分类结果;分类结果包括多个维度的分类标签以及分类标签对应的提示数据;基于文本编码器对分类标签对应的提示数据进行编码处理,形成特征空间;在特征空间中进行检索,得到与医学图像数据的医学图像特征匹配的提示数据组;基于提示数据组生成医学图像数据对应的文本数据。实现图像到文本的跨模态生成。技术研发人员:尹斯星,王星人,向新源,尹文宇,李书芳受保护的技术使用者:北京邮电大学技术研发日:技术公布日:2024/11/4本文地址:https://www.jishuxx.com/zhuanli/20241106/324551.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表