基于编解码结构的双阶段图像恢复方法
- 国知局
- 2024-11-06 14:44:28
本发明涉及图像恢复,尤其涉及基于编解码结构的双阶段图像恢复方法。
背景技术:
1、随着深度学习技术的不断发展,许多研究人员提出了不同的图像恢复网络,来解决图像质量低下的问题。但是当前基于深度学习的图像恢复方法和去模糊方法也存在一定的局限性。
2、单阶段网络通常在一个阶段内完成所有特征提取和图像恢复处理,这可能导致网络无法充分利用图像中的不同级别的特征信息,从而影响恢复效果。难以捕捉到细微的图像细节,特别是在处理高分辨率图像时更为显著。这可能导致恢复图像缺乏细节,并且不够清晰。另外,在图像恢复网络一般的编解码结构中通常采用直接相加的特征融合方式,这种处理可能会导致一部分信息的丢失,尤其是当从不同层级融合的特征本质上包含不同类型的信息时。相加操作对特征的重要性赋予了相同的权重,这忽略了不同特征可能对最终任务的贡献度不同的情况。在实际应用中,某些特征可能比其他特征更为重要,直接相加的方式缺乏调整这些权重的灵活性。
技术实现思路
1、为了解决现有图像恢复缺乏细节、恢复的图像不清晰以及模型解编码缺乏权重调整灵活性的问题,本发明提出基于编解码结构的双阶段图像恢复方法,解决上述问题。
2、本技术公开了基于编解码结构的双阶段图像恢复方法,包括以下步骤:
3、s1、制作数据集,采用真实的文字档案图像,对于文字缺失的图像进行人为修复;
4、s2、构建图像恢复模型,所述图像恢复模型采用基于编解码结构的双阶段网络结构,包括编码模块、解码模块、特征融合模块以及混合注意力模块;
5、s3、对图像恢复模型进行训练,迭代至网络收敛,得到训练好的图像恢复模型;
6、s4、将档案文本图片作为训练好的图像恢复模型的输入,经过模型推理后得到恢复后的清晰图像。
7、优选的,所述数据集包括训练集、验证集和测试集,将需要进行人为修复的图像作为训练集。
8、优选的,所述双阶段网络结构包括第一阶段网络结构和第二阶段网络结构;
9、所述第一阶段网络结构包括3×3的卷积核以及混合注意力模块,通过3×3的卷积核,提取第一阶段浅层特征,然后通过多个混合注意力模块,输出第一阶段深层特征,将第一阶段浅层特征和第一阶段深层特征融合,再经过3×3的卷积核得到第一阶段的输出。
10、优选的,所述第二阶段网络结构包括3×3的卷积核、特征融合模块、混合注意力模块、编码模块和解码模块,编码模块包括第一编码模块、第二编码模块和第三编码模块,解码模块包括第一解码模块、第二解码模块和第三解码模块。
11、通过3×3的卷积核,提取第二阶段浅层特征,然后将第一阶段深层特征与第二阶段浅层特征通过特征融合模块进行融合,再通过混合注意力模块,得到编码模块的输入,将第三编码模块的输出作为第一解码模块的输入,将第二编码模块的输出与第一解码模块的输出通过特征融合模块进行融合,作为第二解码模块的输入,将第一编码模块的输出与第二解码模块的输出通过特征融合模块进行融合,作为第三解码模块的输入,将编码模块的输入和第三解码模块的输出通过特征融合模块进行融合,再通过3×3的卷积核,得到第二阶段的输出。
12、优选的,所述编码模块采用层归一化用于提高模型的训练效率和收敛速度,然后使用1×1的卷积核提升通道数的大小,1×1的卷积核连接有三条支路,三条支路中包括三种不同大小的卷积核用于捕获不同尺度和复杂性的特征,三条支路的卷积核均连接有simple gate模块和通道注意力模块,使用simple gate模块引入非线性,使用通道注意力模块来处理特征图中不同通道之间的关系和重要性,三条支路汇合后通过层归一化提高模型的稳定性,并通过1×1的卷积核提升维度,使用残差连接缓解随着网络深度的增加出现的梯度消失和梯度爆炸问题,之后使用2×2的池化模块对特征进行下采样,消除特征中的冗余信息,最后使用混合注意力模块建立长距离依赖关系和通道之间的关系。
13、优选的,所述解码模块进行层归一化后使用1×1的卷积核进行降维,使用3×3的卷积核进行特征提取,3×3的卷积核连接有激活函数模块和通道注意力模块,然后通过1×1的卷积核进行升维和残差连接,之后进行层归一化并使用pixel shuffle模块进行上采样,最后通过混合注意力模块。
14、优选的,所述特征融合模块采用加权特征融合方式进行特征融合,通过两个特征进行相乘和sigmoid函数来增加模型的非线性,最后生成一个加权参数指导特征进行融合,特征融合模块的输出公式如下所示:
15、out=c·a+(1-c)·b;
16、其中,c=σ(a·b),σ表示sigmoid函数,a和b为输入特征,c为权重,权重c可以控制特征a的重要性,而权重(1-c)则控制了特征b的重要性。
17、优选的,所述混合注意力模块首先对输入特征进行层归一化,然后使用多头自注意力模块和通道注意力模块捕捉特征中的信息,使用残差连接将通道自注意力模块的输出与混合自注意力模块的输入特征进行融合,作为第一部分的输出,将第一部分的输出进行层归一化,然后输入到多层感知机得到第二部分的输出,将第一部分的输出与第二部分的输出使用残差链接进行融合,得到和混合注意力模块的输出。
18、优选的,所述s3包括以下步骤:
19、训练中使用l1和mse混合损失函数,对于大小为m×n的真实的高质量图像i和模型输出的图像k,mse损失函数的表达式为:
20、
21、l1损失函数的表达式为:
22、
23、其中,i,j为图像的像素坐标;
24、混合损失函数为:
25、
26、训练中使用的参考指标为峰值信噪比和结构相似性,峰值信噪比的计算公式为:
27、
28、其中,为图片的可能最大像素值;
29、结构相似性包括图像的亮度、对比度和结构三个方面的信息,亮度衡量公式为:
30、
31、对比度衡量公式为:
32、
33、结构衡量公式为:
34、
35、其中,x和y为样本,μx为x的均值,μy为y的均值,为x的方差,为y的方差,σx为x的标准差,σy为y的标准差,σxy为x和y的协方差,c1=(k1l)2和c2=(k2l)2为两个常数,c3=c2/2,l为像素值的范围,k1=0.01,k2=0.03;
36、结构相似性的计算公式为:
37、ssim(x,y)=l(x,y)α·c(x,y)β·s(x,y)γ;
38、令上式中的α=1,β=1,γ=1,则有:
39、
40、每次计算结构相似性时,从图片上取一个n×n的窗口,然后不断滑动进行计算,最终计算平均值作为全局的结构相似性。
41、本发明的有益效果:
42、(1)发明提出通过双阶段的网络结构来提取不同级别的特征信息,捕捉细节信息,从而提升图像恢复的效果。
43、(2)本发明提出一种加权特征融合的方式,加权融合通过为不同的特征或特征组分配适当的权重,可以有效地整合多源信息,提升模型的性能和适应性。
44、(3)本发明针对网络结构中通道数较多的特点,通过结合通道注意力和自注意力机制的混合注意力机制,能够同时考虑通道间的关系和特征内部的全局依赖,实现对特征的细粒度和全局信息的综合利用,并且能够使模型更加有效地聚焦于重要的信息,减少冗余,从而增强模型对复杂数据的表达和学习能力。
本文地址:https://www.jishuxx.com/zhuanli/20241106/323871.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。