技术新讯 > 计算推算,计数设备的制造及其应用技术 > 用于图像质量和美学评价的统一视觉语言模型预训练和调整方法  >  正文

用于图像质量和美学评价的统一视觉语言模型预训练和调整方法

  • 国知局
  • 2024-09-11 14:16:55

本发明涉及一种用于图像质量和美学评价的统一视觉语言模型预训练和调整方法。

背景技术:

1、在图像质量评估(image qualityassessment,iqa)和图像美学评估(imageaesthetic assessment,iaa)这两个领域中,研究的目标是开发能够自动评估图像质量或美学价值的算法和模型。

2、图像质量评估(iqa):iqa旨在评估图像的质量,通常关注图像的清晰度、对比度、色彩平衡以及存在的噪声等因素。这项技术对于图像处理、压缩、传输和存储等领域至关重要,因为它可以帮助确保图像在这些过程中保持可接受的质量水平。

3、图像美学评估(iaa):iaa关注的是图像的美学吸引力,即图像在视觉上的愉悦程度。这涉及到图像的内容、构图、色彩和照明等美学因素。iaa在社交媒体、在线广告、摄影比赛和艺术画廊等领域有着广泛的应用。

4、近年来,随着深度学习技术的快速发展,图像质量评价iqa领域引起了广泛的兴趣。基于卷积神经网络(cnn)的模型最初在iqa问题上取得了有效性,尽管它只包含三个卷积层。随后,基于cnn的iqa方法专注于不同方面,包括更深的特征学习网络、多级特征聚合、自适应质量预测和图像块到整体的学习。最近,基于transformer的iqa方法显示出在iqa领域的有希望的结果,它可以补偿cnn在非局部特征学习能力方面的不足。尽管取得了这些显著的突破,但这些方法通常是将预训练在分类数据集(如imagenet)上的模型转移到iqa任务上,这可能不是最优的。

5、图像美学评估(iaa)旨在衡量图像的美学质量。随着深度学习的出现,iaa方法已经从手工制作的特征提取发展到端到端的特征学习,标志着iaa领域的重要进展。已经开发了各种技术来促进iaa领域的进步,包括局部和全局特征整合、图神经网络、知识蒸馏和主题感知学习。最近,出现了结合文本作为辅助监督的多模态iaa方法。然而,这些方法在推理过程中需要使用文本,限制了它们的灵活应用,因为文本通常不易获得。

6、现有技术在图像质量评估(iqa)和图像美学评估(iaa)领域存在以下主要缺点:1)任务孤立处理:传统方法通常将iqa和iaa作为独立的任务来处理,忽略了两者之间的相互关联和影响,导致无法充分利用任务之间的共性来提升评估性能。2)数据集局限性:iqa数据集缺乏文本描述,而iaa数据集中的文本描述可能包含噪声,这限制了模型从数据中学习有效特征的能力。3)感知表示的局限性:现有方法可能无法充分捕捉到人类对图像质量和美学的主观感知,导致评估结果与人类感知存在差距。4)泛化能力不足:许多现有方法在特定数据集上表现良好,但在其他数据集或现实世界的多样化场景中泛化能力不足。5)零样本和少标签学习能力不足:在标注数据稀缺的情况下,现有技术难以有效进行图像评估,限制了其在实际应用中的广泛使用。

7、需要说明的是,在上述背景技术部分公开的信息仅用于对本技术的背景的理解,因此可以包括不构成对本领域普通技术人员已知的现有技术的信息。

技术实现思路

1、本发明的主要目的在于克服上述背景技术的缺陷,提供一种用于图像质量和美学评价的统一视觉语言模型预训练和调整方法,有效解决现有方法未能有效整合图像质量评估(iqa)和图像美学评估(iaa)两项任务间的内在联系,导致学习不到与人类感知一致的共享表示的问题。

2、为实现上述目的,本发明采用以下技术方案:

3、一种用于图像质量和美学评价的统一视觉语言模型预训练和调整方法,包括以下步骤:

4、a.使用多模态大语言模型mllm为用于图像质量和美学评估任务的训练图像生成与图像质量和美学相关的文本描述,得到图像-文本描述数据集;

5、b.采用数据净化策略,通过美学相关性和信息丰富度排名air筛选和优化所述图像-文本描述数据集;

6、c.在步骤b筛选和优化得到的图像-文本数据集上进行统一视觉语言模型uniqa的预训练,通过对比学习策略最大化成对图像和文本特征的相似度,同时最小化不匹配图像和文本的相似度;

7、d.通过轻量级适配器调整预训练好的uniqa模型的视觉特征,以适应特定的图像评估任务。

8、进一步地:

9、步骤a中,使用所述多模态大语言模型mllm以及针对图像质量和美学评估任务设计的特定提示,结合基于图像质量评分mos的文本指导,生成与图像质量和美学相关的文本描述,形成对应的描述数据集yiqa和yiaa;其中所述特定提示针对图像质量评估iqa和图像美学评估iaa任务分别进行定制,以引导mllm生成与任务相关的文本描述。

10、所述文本描述包括为iqa任务设计的涉及锐度、颜色平衡和噪声水平的描述,和为iaa任务设计的包括内容、颜色、照明和构图的描述。

11、步骤b中,通过计算美学相关性排名ar和信息丰富度排名ir,生成美学相关性和信息丰富度排名air,并利用air来筛选出与图像美学紧密相关的文本,以构建优化后的数据集。

12、步骤c具体包括:

13、使用clip模型在大规模图像-文本数据集上进行训练;

14、通过对比学习策略最大化成对图像和文本特征的余弦相似度;

15、使用温度参数τ和对比学习损失来训练模型,以生成对齐的特征表示;其中使用温度参数τ来调整图像和文本特征间相似度计算的敏感度。

16、步骤c中,使用包含人类评论的iaa数据集与优化后的图像-文本描述数据集一同训练uniqa模型。

17、步骤c中,通过取图像损失和文本损失的平均值来计算所述对比学习损失。

18、步骤d中,所述轻量级适配器包括构成uniqa模型的骨干网络的图像编码器和文本编码器,用于提取图像的视觉特征和文本的语义特征;

19、其中,在预训练的图像编码器后添加可学习的残差模块,以调整视觉特征适应特定评估数据集;其中,所述残差模块包括两个带有relu激活函数的全连接层,通过归一化和残差连接调整图像的视觉特征,同时保持图像和文本骨干网络冻结,仅优化所述残差模块;

20、其中,使用提示模板“{level}image”和预定义的文本等级,构建多个提示组,计算每个提示组的归一化文本特征与调整后的视觉特征之间的余弦相似度,利用softmax函数获得图像-文本对应关系的相关值,并将相关值加权预定义的递增值评分等级,得到最终的评估分数。

21、所述方法还包括以下步骤:

22、e.对于经过步骤d中轻量级适配器微调后的uniqa模型,采用提示集成策略,通过结合多个提示组来综合评估图像的质量和美学特征,优选将多个提示组的评估分数进行平均,以得出最终的评估分数。

23、一种计算机可读存储介质,存储有计算机程序,所述计算机程序由处理器执行时实现所述的用于图像质量和美学评价的统一视觉语言模型预训练和调整方法。

24、本发明具有如下有益效果:

25、本发明的方法借助多模态大模型,以语言为桥梁,进行统一的美学和质量相关的预训练,学习到质量和美学一致性的有益表征,再通过任务特定的知识抽取,使得其使用下游图像质量评价和感知任务。本发明的方法可以通过在质量和美学图像-文本数据集上进行联合预训练来学习更有效和泛化的表示,为iqa任务提供更通用有效的表征。本发明的方法通过视觉-语言预训练克服了以往结合文本作为辅助监督的多模态iaa方法在推理过程中需要使用文本的限制。预训练模型可以仅使用图像灵活应用于iaa领域。

26、相比现有的的方法,本发明的主要优点有:

27、1)统一视觉-语言预训练:通过建立统一模型,同时学习和评估图像的质量和美学,克服任务孤立处理的问题。2)数据增强和净化:利用多模态大型语言模型(mllm)生成高质量的文本描述,并采用数据净化策略,提高数据集的质量。3)学习人类感知表示:通过大规模预训练,使模型学习到与人类视觉感知一致的表示,提升评估的准确性和一致性。4)增强泛化能力:通过在多样化的数据集上进行预训练和适配,提高模型在不同数据集和场景中的泛化能力。5)提升零样本和少标签学习能力:设计轻量级适配器和策略,使模型在标注数据有限的情况下仍能有效进行图像评估,扩展其在实际应用中的潜力。

28、本发明实施例中的其他有益效果将在下文中进一步述及。

本文地址:https://www.jishuxx.com/zhuanli/20240911/289988.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。