技术新讯 > 电子通信装置的制造及其应用技术 > 一种基于端到端解码器矫正扩散模型的图像编解码方法  >  正文

一种基于端到端解码器矫正扩散模型的图像编解码方法

  • 国知局
  • 2024-08-02 12:37:51

本发明属于图像编解码领域,具体设计一种基于端到端解码器矫正扩散模型的图像编解码方法。

背景技术:

1、图像编解码旨在通过技术手段将一张原始图像编码为一个紧致的矩阵并离散化为二进制位码流,再使用技术手段将得到的二进制位码流解码为重建图像。图像编解码是图像存储、传输中的重要技术,近年来越来越受到学术界的关注。

2、衡量重建图像的质量有两个方面的指标:忠实度与感知质量。忠实度衡量重建图像与原始图像的一致性,感知质量衡量人类对重建图像的质量的主观评价。由此,使用深度学习技术的图像编解码方法可以分为两类:1)优化重建图像忠实度的方法,仅使用重建图像的峰值信噪比和码率约束充当端到端模型的训练目标;2)优化重建图像感知质量的方法,常采用生成模型配合感知性损失充当训练目标。

3、但是,已有工作证明图像忠实度与感知质量之间存在不可避免的权衡与取舍。优化忠实度的模型常导致图像的过度平滑,导致感知质量的损失;而优化感知质量则可能导致重建出虚假的与原图不一致的纹理细节,导致忠实度的下降。

技术实现思路

1、针对上述技术问题,本发明的目的在于提供一种基于端到端解码器矫正扩散模型的图像编解码方法及系统。本发明采用扩散模型这一强大的生成模型的同时引入一个端到端解码器进行矫正,能够达成更优秀的忠实度-感知质量之间的平衡结果。编码端和解码端的流程如附图1所示。

2、本发明采用的技术方案如下:

3、一种基于端到端解码器矫正扩散模型的图像编解码方法,其步骤包括:

4、1)搭建一图像编解码模型;所述图像编解码模型包括编码器e、熵模型、端到端解码器d及扩散模型解码器μθ;

5、2)利用训练集训练所述图像编解码模型,其方法为:

6、在编码端,从所述训练集中随机选取一图像将该图像使用编码器e抽取特征并离散化为码流以及将码流输入熵模型估计得到码流长度

7、在解码端,随机采样一个噪声强度t以及一个高斯噪声∈,向该图像中以强度t加入噪声∈,获得带噪图像将码流带噪图像连同噪声强度t输入扩散模型解码器μθ,输出去噪的图像然后计算图像与图像之间的重建损失lμ;以及将码流输入端到端解码器d,输出重建的图像计算图像与图像之间的重建损失le;

8、根据重建损失lμ、le和码流长度对所述图像编解码模型进行优化;

9、3)对于一待编码的图像x0,在编码端使用训练后的编码器e将该图像x0抽取为特征并离散化为码流使用待编码的图像x0计算训练后的扩散模型解码器和端到端解码器结果的线性组合因子集将码流与线性组合因子集发送给解码端;在解码端,将码流输入训练后的扩散模型解码器μθ和端到端解码器d,应用接收的线性组合因子集对二者的解码结果进行组合,在解码端得到解码图像。

10、进一步的,根据重建损失lμ、le构建损失函数对所述图像编解码模型进行优化;其中,mμ为第一组图像感知性评价指标,me为第二组图像感知性评价指标,λμ、λe、λr为权重项。

11、进一步的,第一组图像感知性评价指标mμ使用lpips-a指标,第二组图像感知性评价指标me使用dists指标,λμ设置为0.16,λe设置为0.64,λr的取值范围为[0.5,0.2,0.1,0.05,0.02]。

12、进一步的,所述编码器e为图像编解码技术elic中的编码器,所述端到端解码器d为图像编解码技术elic中的解码器,所述熵模型为图像编解码技术elic中的熵模型,所述扩散模型解码器μθ采用扩散模型adm的网络结构,所述网络结构的通道数为96、深度为2,通道数乘子为1,1,2,2,3。

13、进一步的,所述熵模型通过估计码流的均值和方差,获取码流长度

14、一种服务器,其特征在于,包括存储器和处理器,所述存储器存储计算机程序,所述计算机程序被配置为由所述处理器执行,所述计算机程序包括用于执行上述方法中各步骤的指令。

15、一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现上述方法的步骤。

16、本发明利用已有的图像作为训练数据集,训练本发明提出的图像编解码模型。整个框架包括四个部分:编码器e、熵模型、扩散模型解码器μθ、端到端解码器d,其中的μθ和d合称为解码器。模型中的编码器e、熵模型、端到端解码器d采用公知的图像编解码技术elic中的编解码器及熵模型。扩散模型解码器μθ采用公知的扩散模型adm中使用的网络结构。模型的编码器e为一卷积神经网络,包含若干卷积层及其之后的线性整流激活函数和模块之间的跨接。模型的解码器主体采用扩散模型。扩散模型μθ训练时以加入高斯噪声的原始图像、噪声强度t以及特征为输入,输出无噪声的图像。推断时随机采样一个纯高斯噪声xt(下标t代表最大噪声强度),利用训练好的扩散模型对该高斯噪声进行逐步去噪,直到噪声全部去尽得到重建图像。去噪流程描述如下:对噪声强度为t的带噪图像xt使用μθ预测出无噪声的图像再基于带噪图像xt、模型输出使用下式计算后一步的结果xt-1:

17、

18、

19、其中为模型预测的带噪图像xt中的噪声,α(t)、σ2(t)为超参数函数,与公知的工作adm中的设定一致。重复上述流程,直至下标归零,取得最终采样结果x0。在扩散模型的建模下,带噪图像xt中的噪声可以由表达式表达,其中的qt代表带噪图像xt满足的分布的条件概率密度函数,是对xt的梯度,这一点是扩散模型领域内公知的。进一步使用该预测的噪声对带噪图像进行去噪,直到噪声全部去尽得到重建图像。扩散模型的训练和推断过程是公知的。基于本发明进行的理论分析,扩散模型的推断过程中存在误差,由此本发明引入一个额外的端到端解码器,在编码端使用扩散模型解码器进行解码并逐步计算与原始图像之间的误差,并将该误差近似表示为扩散模型解码器的解码结果与端到端解码器结果的线性混合的方式对该误差进行近似矫正,并将线性混合因子也以码流形式发送给解码端,实现对扩散模型重建的图像的质量的优化。熵模型用于估计编码器得到的码流的均值和方差,以将其离散化为二进制码流。

20、本模型的训练方式叙述如下。图像编解码模型在训练时不会将特征实际进行从解码端到编码端进行发送。两端的神经网络是同时训练的,因此仅描述为“编码角度”和“解码角度”。

21、在编码角度,将训练用图像x0使用编码器进行编码并离散化为特征进一步地,使用熵模型估计特征的均值和方差,由此获取估计的码流长度

22、在解码角度,将训练用图像x0以一随机强度t加入一随机高斯噪声∈,加入噪声的过程满足的表达式为:

23、xt=α(t)*x0+σ(t)*∈

24、得到带有噪声的图像xt;再将该带有噪声的图像xt、噪声强度t以及特征输入扩散模型解码器μθ,输出去噪的图像同时再仅将特征输入端到端解码器d,输出重建的图像

25、训练目标为扩散模型解码器μθ输出的去噪的图像和端到端解码器d输出的重建图像与原始图像x0之间的重建损失和码流长度的线性组合。

26、本模型的推断方式叙述如下:

27、由前述,扩散模型解码器输出的噪声可由表达。由于在编码端原始图像x0可见,因此在编码端该单步噪声中的条件概率密度函数可以在给定码流的基础上,额外给定原始图像x0充当条件,于是这一噪声的表达式可由前述的修正为本发明进行理论分析得出,仅使用扩散模型解码器时,上述两项之间的误差为进一步地,本发明对扩散模型的采样过程进行理论分析指出,前述的在编码端基于原始图像x0修正误差后的噪声表达式可以使用下述线性组合近似得到:

28、

29、其中α(t)、σ2(t)为超参数函数,与公知的工作adm中的设定一致;线性参数由下式定义:

30、

31、其中,m是一个衡量图像感知相似度的指标。

32、在编码端将原始图像x0编码为特征再将特征使用熵模型估计的均值和方差进行无损算术编码获得码流,该过程是图像编解码领域公知的。再进行一次解码,在扩散模型解码器的解码过程中的每个噪声强度t处按照上式计算其对应的线性参数并将这些参数以float16的形式一并通过码流发送给解码端。解码端基于接收的码流使用熵模型恢复特征和线性参数使用这些参数,通过前述表达式直接计算充当修正后的单步噪声的估计,代入前述的采样表达式:

33、

34、

35、实现在解码端的解码。

36、与现有技术相比,本发明的积极效果为:

37、本发明通过引入一个端到端解码器对扩散模型解码器进行矫正,并且该矫正项可以使用极少的二进制位传输给解码端。实验证明,与已有技术相比,本发明可以实现更优秀的忠实度-感知质量的权衡性能。

本文地址:https://www.jishuxx.com/zhuanli/20240802/237066.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。