基于语义自适应融合的盲图像质量评价方法
- 国知局
- 2024-08-05 12:19:34
本发明属于盲图像质量评价,具体涉及一种基于语义自适应融合的盲图像质量评价方法。
背景技术:
1、图像、视频等视觉媒体占据了当下数字世界中最多的流量,终端用户对图像质量的要求正与日俱增。图像质量不止影响用户体验,更决定着图像所传达信息的准确性。失真通常被认为是图像质量的主要影响因素。早期的图像质量评价研究,尤其是在有参考图像的情况下,将关注点聚焦在如何从像素层面辨识参考图像与失真图像的差异。然而,沿着这一方向所取得的结果始终与人类视觉感知存在显著差异。随着神经网络模型在分类任务上取得卓越成绩,图像质量评价研究也逐步将关注点从像素级的底层特征转向语义级的深度特征。深度语义特征对于图像质量评价的重要性已被众多方法广泛证明。目前,大部分基于深度学习的图像质量评价方法,采取了将分类任务上预训练的编码器迁移到图像质量评价任务中进行微调这一策略。尽管预训练的语义特征编码器在图像质量评价任务中表现出了很强的适应性,但微调过程不可避免地会对编码器的语义提取能力造成一定程度的扭曲。
2、此外,现有的大多方法使用了静态网络模型来提取特征,同时采取全局平均池化策略对特征进行降采样。静态网络在完成训练之后,其所有参数便完全固定,这导致模型在处理不同图像内容和失真时缺乏自适应能力。全局平均池化虽然能够有效区分亮度、色度变化引起的均值敏感型失真,但在面对无参考数据集和自然拍摄图像中占据主导的噪声、模糊等均值不敏感型失真时,存在明显的局限性。
3、申请公布号为cn104751456a,名称为“基于条件直方图码书的盲图像质量评价方法”的专利申请,公开了一种基于条件直方图码书的盲图像质量评价方法。该方法的不足之处在于,在对失真图像进行特征提取时,仍采用静态网络模型来提取特征,静态网络在完成训练之后,其所有参数便完全固定,致模型在处理不同图像内容和失真时缺乏自适应能力。
4、现有的大多方法使用了静态网络模型来提取特征,同时采取全局平均池化策略对特征进行降采样。静态网络在完成训练之后,其所有参数便完全固定,这导致模型在处理不同图像内容和失真时缺乏自适应能力。全局平均池化虽然能够有效区分亮度、色度变化引起的均值敏感型失真,但在面对无参考数据集和自然拍摄图像中占据主导的噪声、模糊等均值不敏感型失真时,存在明显的局限性。
技术实现思路
1、为了克服上述现有技术存在的不足,本发明的目的在于提供一种基于语义自适应融合的盲图像质量评价方法,本方法利用动态激活函数acon和局部失真模块与特征融合的操作,实现了具有参数自适应能力的动态网络resnet50-acon,构建了低级特征与深度特征互补、语义信息与质量信息融合的多尺度融合特征,并利用超网络将来自编码器的融合特征通过卷积、变形、池化等一系列计算生成质量分数回归器中对应全连接层的参数,最后利用质量分数回归器将来自编码器的多尺度特征通过四层全连接神经网络运算回归到图像质量分数,用于解决现有方法在对失真图像进行特征提取时,仍采用静态网络模型来提取特征,导致模型在处理不同图像内容和失真时缺乏自适应能力。
2、为了实现上述目的,本发明采用的技术方案是:
3、基于语义自适应融合的盲图像质量评价方法,包括以下步骤;
4、步骤1:将动态激活函数acon引入到resnet50中,构建语义和质量的动态特征编码器;
5、步骤2:将语义特征和质量特征融合;将得到的融合特征用于在质量特征编码器中继续进行前向推理;
6、首先在质量特征编码器训练过程中使用冻结参数的语义特征编码器提取语义特征,然后将质量和语义特征编码器同一层的质量特征与语义特征通过特征融合模块进行融合;
7、步骤3:利用二阶池化捕捉低级特征中的失真信息;将捕捉到的低级特征中的失真信息与质量特征编码器第四层池化后的全局特征向量拼接成多尺度特征,作为质量分数回归器的输入;
8、步骤4:进行对比实验和消融实验。
9、通过在单一数据集上进行对比实验,展示出了本方法与主观分数较高的一致性;通过在交叉数据集的对比实验,验证了本方法针对不同数据集的特征分布具有强大的鲁棒性和泛化能力;最后通过消融实验,验证了本方法中所提出的基于动态网络resnet50-acon的特征编码器、特征融合策略和二阶全局池化策略的有效性。
10、所述步骤1具体为:
11、步骤1.1,bottleneck模块修改;
12、resnet50的核心模块是具有残差结构的bottleneck,每个bottleneck中包含3个relu激活函数,因此,将relu直接替换为动态激活函数acon便可直接得到动态resnet;
13、步骤1.2,bottleneck模块优化;
14、为了提高上游编码器的动态调节的能力,需要将部分relu静态激活函数替换为acon动态激活函数。bottleneck中实际具有特征提取能力的模块是3×3卷积,而1×1卷积主要作用是进行通道维度变换,因此,将3×3卷积后的relu静态激活函数替换为acon动态激活函数是最合理的改造方式;
15、所述步骤1.2中,将完成acon替换的bottleneck称为bottleneck-acon,由bottleneck-acon组成的resnet50称为resnet50-acon。
16、所述步骤2具体为:
17、步骤2.1,提取语义特征;
18、在质量特征编码器训练过程中使用冻结参数的语义特征编码器提取语义特征,图像质量特征编码器和语义特征编码器均采用imagenet-1k数据集上预训练的动态神经网络resnet50-acon;预训练的语义特征编码器直接用于提取具有完整语义信息的图像特征,而预训练的质量特征编码器能够在质量评价数据集上更快收敛,此外,采用同一网络结构的特征编码器便于后续特征融合操作的实现;
19、步骤2.2,特征融合;
20、特征融合的过程分为拼接和通道降维两个阶段,给定输入图像其经过质量特征编码器和语义特征编码器前向推理过程中第i∈{1,2,3,…,16}个bottleneck-acon的3×3卷积和批归一化计算之后,得到质量特征语义特征其中ci表示第i个bottleneck-acon中特征的通道维度,hi和wi表示第i个bottleneck-acon中特征的空间维度,即特征张量的高和宽,当质量特征编码器前向推理到第四层bottleneck-acon中得到融合目标特征时,对质量特征和来自语义特征编码器相应相应阶段的语义特征进行融合操作。
21、所述步骤2.2中,特征融合的第一步拼接过程具体表示为:
22、
23、其中,i∈14,15,16,表示resnet50-acon第四层中bottleneck-acon的序号,示沿着通道维度进行特征拼接操作,是拼接后的特征,此时拼接后特征的通道维度为拼接前的语义特征与质量特征维度之和。
24、所述步骤2.2中,特征融合的第二步通道降维过程具体表示为:
25、
26、其中,即特征融合策略期望得到的目标特征,与融合前的质量特征和语义特征具有一致的形状,conv是用来通道降维的1×1卷积运算,batchnorm(·)为批归一化运算,通过以上两步操作完成了将给定输入图像的完整语义信息融入质量特征的任务,融合特征将作为激活函数acon的输入在质量特征编码器中完成后续计算。
27、所述步骤3具体为:
28、步骤3.1,反射填充;
29、对输入图像进行反射填充;反射填充的作用是保持图像边缘信息和结构的完整性,避免自适应平均池化计算中潜在的边缘信息丢失问题;
30、步骤3.2,两次自适应平均池化;
31、两次自适应平均池化分别将3.1中反射填充后的图像得到方差计算所需的特征均值和特征平方均值;
32、步骤3.3,特征平方均值与特征均值平方的求差计算。
33、所述步骤3.1中,对于给定输入当设定二阶全局池化输出的特征空间维度为即输出特征时,通过大小为1的反射填充计算得到反射填充的过程为:
34、当0<i<h+1时,对于填充后的边缘值为:
35、x[c,max(0,min(2h-i-2,h-1)),max(0,min(2w-j-2,w-1))]
36、其中,即在x的基础上在空间维度的上下左右方向上均扩充了一维,[c,i,j]表示特征张量中具体元素的位置坐标,0≤c≤c,0≤i≤h+1,0≤j≤w+1。
37、所述步骤3.2中,自适应平均池化将反射填充后的计算得到指定输出维度的特征均值这一过程表示为:
38、
39、其中,表示向下取整。特征平方的均值计算过程则需先得到特征平方再将代换上式中的得到特征平方均值与具有完全相同的维度。
40、所述步骤3.3中,对特征平方均值与特征均值的平方作差得到二阶池化特征z:
41、
42、其中,具有指定的二阶池化输出维度。全局二阶池化仅作用于质量特征编码器第一层对应的局部失真模块,以提取低级特征中的失真信息。
43、所述步骤4具体为:
44、步骤4.1,实验设置;
45、数据集:基于语义自适应融合的盲图像质量评价方法的所有实验中,共使用到六个数据集,包括三个有参考数据集live、tid2013和csiq和三个无参考数据集livec、bid和koniq-10k,在每个实验的训练与测试过程中,将使用到的相应数据集选取一部分为训练集,另一部分为测试集;
46、实现细节:网络模型的设置中,使用imagenet-1k预训练的resnet50-acon作为语义特征编码器和质量特征编码器,其中语义特征编码器冻结参数,损失函数使用l1损失,对编码器和超网络使用不同的学习率来优化;
47、步骤4.2,单一数据集实验;
48、对单一数据集的评估实验,分别在三个有参考数据集live、tid2013和csiq以及三个无参考数据集livec、bid和koniq10k上进行训练与测试;
49、步骤4.3,交叉数据集实验;
50、在三个无参考数据集livec、bid与koniq-10k之间进行了交叉数据集实验;
51、具体过程为,首先在live、koniq-10k与bid三个数据集上进行单一数据集实验,保存单一数据集实验中测试结果最高的轮次的训练参数,然后将所保存的训练参数载入模型,在冻结参数的情况下对另外两个数据集中的所有图像进行质量分数预测,最后计算整个数据集中所有图像预测分数值与真实分数值的srocc;
52、步骤4.4,消融实验;
53、设置相应的三组消融实验,所有消融实验均在livec数据集上进行。
54、resnet50-acon:对于动态网络resnet50-acon的性能验证,设计了六种相关的iqa方法模型进行训练和测试;六种方法中的所有局部失真模块均使用一阶的全局平均池化;
55、特征融合:对特征融合有效性的验证,采用以resnet50-acon为质量特征编码器和语义特征编码器的模型进行实验,模型中的局部失真模块采用全局平均池化;
56、特征融合策略共设定4种,不同的融合策略在bottleneck-acon和resnet50-acon中的不同位置进行;
57、二阶全局池化:在采用以resnet50-acon为质量特征编码器和语义特征编码器,并采取最优特征融合策略的网络模型进行实验;实验中将二阶全局池化应用于不同层的局部失真模块中以对比其对浅层和深层特征的影响,对于没有设置局部失真模块的第四层,二阶全局池化直接用于替换第四层后的全局平均池化。
58、本发明的有益效果:
59、本发明提出了一种基于语义自适应融合的盲图像质量评价方法,该方法借助步骤一所提的动态激活函数acon实现了具有参数自适应能力的动态网络resnet50-acon,有效解决了现有基于静态网络模型的方法在面对复杂失真时表征能力不足的问题;同时步骤二所提的特征融合操作以及步骤三所提的局部失真模块,构建了低级特征与深度特征互补、语义信息与质量信息融合的多尺度融合特征,在多尺度融合特征的基础上完成质量评价,有效地提高了盲图像质量评价的性能。
本文地址:https://www.jishuxx.com/zhuanli/20240802/262172.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表