技术新讯 > 计算推算,计数设备的制造及其应用技术 > 图像翻译模型构建方法、图像翻译方法和装置  >  正文

图像翻译模型构建方法、图像翻译方法和装置

  • 国知局
  • 2024-07-31 22:51:55

本发明涉及计算机视觉,尤其涉及一种图像翻译模型构建方法、图像翻译方法和装置。

背景技术:

1、基于红外成像的视觉感知系统相比于基于可见光的视觉感知系统在低光、雨雾等恶劣天气等条件下具有天然的优势,因此前者是后者的必要补充。基于深度学习的红外视觉感知算法的有效性极大依赖于大规模有标注的训练数据,因此其发展在很大程度上受到数据不足问题的制约。通过深度学习算法将可见光图像变换为红外图像(称为伪红外图像)可以在一定程度上弥补真实数据不足的问题。

2、相关技术中,将可见光图像变换为伪红外图像通常使用对抗学习的方法,生成器基于可见光图像得到伪红外图像,判别器负责降低红外和可见光域之间的差异。

3、然而,当前方法通常使用小模型,难以有效捕捉可见光到红外图像之间复杂的非线性变换,导致图像翻译的结果不佳;此外,当前方法不具有交互性,即仅能针对整张图像进行处理,无法通过指定某个区域进行交互式的图像翻译。

技术实现思路

1、本发明提供一种图像翻译模型构建方法、图像翻译方法和装置,用以解决现有技术中将可见光图像变换为伪红外图像的图像翻译效果不佳,且不具有交互性的缺陷。

2、本发明提供一种图像翻译模型构建方法,包括:

3、获取训练样本组,任一组训练样本包括可见光样本图像及其对应的红外标签图像,以及掩码标签图像;

4、基于初始模型中的编码模块,提取所述可见光样本图像的图像特征;

5、获取提示特征、可学习的掩码输出特征和红外输出特征,并将所述提示特征、掩码输出特征和红外输出特征进行拼接,得到拼接特征;

6、基于所述图像特征和所述拼接特征分别进行掩码图像预测和红外图像预测,分别得到预测掩码图像和预测红外图像;

7、基于所述红外标签图像与所述预测红外图像之间的差异,以及所述掩码标签图像与所述预测掩码图像之间的差异,对所述初始模型进行参数迭代,得到所述图像翻译模型。

8、根据本发明提供的图像翻译模型构建方法,所述基于所述图像特征和所述拼接特征分别进行掩码图像预测和红外图像预测,分别得到预测掩码图像和预测红外图像,包括:

9、将所述图像特征和所述拼接特征输入至所述初始模型的解码模块,得到所述解码模块输出的输出图像特征和输出拼接特征,并计算所述输出图像特征和输出拼接特征之间的相关性;

10、基于所述相关性、所述输出图像特征和掩码多层感知机进行掩码图像预测,得到所述预测掩码图像;

11、基于所述相关性、所述输出图像特征和红外多层感知机进行红外图像预测,得到所述预测红外图像。

12、根据本发明提供的图像翻译模型构建方法,所述基于所述相关性、所述输出图像特征和红外多层感知机进行红外图像预测,得到所述预测红外图像,包括:

13、基于所述初始模型中的特征融合模块,将所述图像特征和所述输出图像特征进行融合,得到融合图像特征;

14、基于所述红外多层感知机,对所述相关性进行变换,得到红外预测权重;

15、基于所述红外预测权重,对所述融合图像特征进行变换,得到所述预测红外图像。

16、根据本发明提供的图像翻译模型构建方法,所述编码模块包括多个编码层,所述图像特征包括各编码层分别输出的各层级图像特征,所述基于所述初始模型中的特征融合模块,将所述图像特征和所述输出图像特征进行融合,得到融合图像特征,包括:

17、基于所述初始模型中的特征融合模块,将所述各层级图像特征中的至少两个层级图像特征进行融合,得到初始融合特征;

18、将所述初始融合特征和所述输出图像特征进行融合,得到所述融合图像特征。

19、根据本发明提供的图像翻译模型构建方法,所述基于所述红外标签图像与所述预测红外图像之间的差异,以及所述掩码标签图像与所述预测掩码图像之间的差异,对所述初始模型进行参数迭代,得到所述图像翻译模型,包括:

20、基于所述红外标签图像与所述预测红外图像之间的差异,确定红外预测损失;

21、基于所述掩码标签图像与所述预测掩码图像之间的差异,确定掩码预测损失;

22、基于所述红外预测损失和所述掩码预测损失,对可学习的红外输出特征、所述红外多层感知机和所述特征融合模块进行参数迭代,得到所述图像翻译模型。

23、根据本发明提供的图像翻译模型构建方法,所述掩码标签图像的确定步骤,包括:

24、将所述可见光样本图像输入至sam分割模型,对所述可见光样本图像进行分割,得到多值分割图;

25、基于交并比阈值和稳定性得分阈值,将所述多值分割图转化为二值分割图,并将所述二值分割图作为所述掩码标签图像。

26、本发明还提供一种图像翻译方法,包括:

27、获取待翻译的可见光图像;

28、将所述可见光图像输入至图像翻译模型,得到所述图像翻译模型输出的红外图像和掩码图像;

29、其中所述图像翻译模型基于所述的图像翻译模型构建方法构建得到。

30、根据本发明提供的图像翻译方法,所述将所述可见光图像输入至图像翻译模型,得到所述图像翻译模型输出的红外图像和掩码图像,包括:

31、接收用户输入的提示信息;

32、将所述提示信息和所述可见光图像输入至图像翻译模型,得到所述图像翻译模型输出的与所述提示信息对应的红外图像和掩码图像。

33、本发明还提供一种图像翻译模型构建装置,包括:

34、样本组获取单元,用于获取训练样本组,任一组训练样本包括可见光样本图像及其对应的红外标签图像,以及掩码标签图像;

35、特征提取单元,用于基于初始模型中的编码模块,提取所述可见光样本图像的图像特征;

36、特征拼接单元,用于获取提示特征、可学习的掩码输出特征和红外输出特征,并将所述提示特征、掩码输出特征和红外输出特征进行拼接,得到拼接特征;

37、图像预测单元,用于基于所述图像特征和所述拼接特征分别进行掩码图像预测和红外图像预测,分别得到预测掩码图像和预测红外图像;

38、参数迭代单元,用于基于所述红外标签图像与所述预测红外图像之间的差异,以及所述掩码标签图像与所述预测掩码图像之间的差异,对所述初始模型进行参数迭代,得到所述图像翻译模型。

39、本发明还提供一种图像翻译装置,包括:

40、图像获取单元,用于获取待翻译的可见光图像;

41、图像翻译单元,用于将所述可见光图像输入至图像翻译模型,得到所述图像翻译模型输出的红外图像和掩码图像;

42、其中所述图像翻译模型基于所述的图像翻译模型构建方法构建得到。

43、本发明还提供一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述任一种所述图像翻译模型构建方法,或图像翻译方法。

44、本发明还提供一种非暂态计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如上述任一种所述图像翻译模型构建方法,或图像翻译方法。

45、本发明还提供一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如上述任一种所述图像翻译模型构建方法,或图像翻译方法。

46、本发明提供的图像翻译模型构建方法、图像翻译方法和装置,基于sam模型构建一种图像翻译模型,通过利用sam的优异特征表达能力进一步提升图像翻译的精度,通过利用sam的交互式解码能力,实现可见光到红外图像的交互式翻译。此外,仅增加少量可学习的参数,即可实现快速的模型微调,以实现高效的模型训练。

本文地址:https://www.jishuxx.com/zhuanli/20240730/195056.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。