一种矢量量化熵建模的图像编码、解码、压缩方法及系统
- 国知局
- 2024-11-25 15:06:34
本发明属于图像处理领域,具体地,涉及的是一种基于深度学习的图像压缩方法中矢量量化熵建模的图像编码、解码以及压缩方法及系统。
背景技术:
1、近年来,基于深度学习的图像压缩方法蓬勃发展。基于深度学习的图像压缩主要以变换编码的方式实现,其主要分为变换、量化和熵编码三个部分,同时这三个部分以端到端的方式进行优化。具体来说,首先待编码图像通过一个非线性深度神经网络得到三维特征,将此三维特征进行量化,随后用一个熵模型来估计量化特征的分布并对特征进行熵编码。由于量化操作和图像压缩模型训练过程中的梯度反传是不兼容的,因此量化在基于深度学习的图像压缩中研究较少。但显然,高效的量化方式可以提升图像压缩的率失真性能。
2、标量量化器在基于深度学习的图像压缩中被广泛使用。采用标量量化器基于的假设是强大的非线性变换可以适应于笨拙的标量量化。经过对现有技术的文献检索发现,ballé等人在2017年的international conference on learning representation会议上发表的“end-to-end optimized image compression”一文中首次使用了标量量化器。但是,由于标量量化器已经被证明即使对于各维度相互独立的信源仍然是次优的,这个假设是有缺陷的。相反,矢量量化器提供了一种更有效的空间划分方式。然而,极少现有技术考虑在基于深度学习的图像压缩中使用矢量量化器。
3、agustsson等人在2017年的conference and workshop on neural informationprocessing systems会议上发表的“soft-to-hard vector quantization for end-to-end learning compressible representations”一文中提出了一种由软到硬的矢量量化方法。但是这种方法会造成训练和测试不一致,同时会导致训练不稳定,因此率失真性能不如标量量化器。zhu等人在2022年的ieee conference on computer vision and patternrecognition会议上发表的“unified multivariate gaussian mixture for efficientneural image compression”一文中采用了基于由软到硬的级联矢量量化方法来提升率失真性能。但是这种方法的复杂度较高,并且因为码本和模型一起训练,会出现码本塌陷等问题。zhang等人在2023年的ieee conference on computer vision and patternrecognition会议上发表的“vqac:lattice vector quantization coupled withspatially adaptive companding for efficient learned image compression”一文中提出使用菱形晶格矢量量化。但是他们仍然采用由软到硬的方式并且用两个标量量化器实现。
4、总之,由于采用由软到硬的训练方式,基于深度学习的图像压缩中现有的矢量量化方法存在训练时收敛困难以及训练和测试不一致的问题。
技术实现思路
1、本发明针对上述问题,提出了一种矢量量化熵建模的图像编码、解码、压缩方法及系统,用晶格矢量量化器对特征进行量化,同时采用松弛边界对量化后的特征进行熵建模,可以降低复杂度,使得训练更加稳定,同时解决训练和测试不一致的问题,从而提升图像压缩的率失真性能。
2、本发明的第一方面,提供一种矢量量化熵建模的图像编码方法,包括:
3、通过编码网络获得待编码图像的第一特征图,其中,所述第一特征图为三维特征图,维度包括通道维度、高度维度和宽度维度;
4、获取所述第一特征图的超先验特征二进制码流以及对应的超先验信息;
5、用晶格矢量量化器对所述第一特征图进行量化,获得量化的第一特征图;
6、将所述量化的第一特征图投影到晶格矢量量化器的整数系数域,获得第二特征图;
7、将所述第二特征图的分布参数化建模为各维度相互独立的高斯分布,通过组合所述超先验信息和空间上下文模型预测所述高斯分布的均值和方差;
8、采用松弛边界划分晶格矢量量化器的整数系数域,根据预测的所述高斯分布的均值和方差,对所述第二特征图进行概率估计,根据估计概率进行算术编码,获得特征二进制码流;
9、将所述特征二进制码与所述超先验特征二进制码流合并,得到压缩图像二进制码流。
10、可选地,获取所述第一特征图的超先验二进制码流以及对应的超先验信息,包括:
11、对所述第一特征图采用超先验编码网络得到超先验特征图;
12、将所述超先验特征图中的每个特征四舍五入量化为整数,得到量化的超先验特征图;
13、对所述量化的超先验特征图的每个通道建立一个独立的非参数化分布估计;
14、根据所述非参数化分布估计对超先验第二特征图进行算术编码,获得超先验特征二进制码流;
15、利用所述非参数化分布估计对所述超先验二进制码流进行算术解码得到重构的超先验特征图;
16、对所述重构的超先验特征图采用超先验解码网络获得超先验信息。
17、可选地,所述用晶格矢量量化器对所述第一特征图进行量化,获得量化的第一特征图,包括:
18、基于预先设定的排列方式构造一个n维晶格
19、将高度h1、宽度w1、通道数m1的第一特征图的第i1行第j1列特征矢量均匀划分成m1/n个矢量其中第k1个矢量
20、对任一矢量根据二范数选取晶格λ中与之最近的晶格点作为量化后的矢量,具体计算过程为:
21、
22、将所述量化后的m1/n个矢量拼接,获得量化的第一特征图的第i1行第j1列的特征矢量为
23、获得所有h1行w1列的特征矢量得到量化的第一特征图所述量化的第一特征图的高度和宽度与所述第一特征图的高度和宽度相同。
24、可选地,所述构造一个n维晶格包括:
25、获取一组线性无关的n维的基{v1,v2,…,vn},其中,各个基的取值与晶格具体的排列方式有关,常见的晶格排列方式有立方排列、菱形排列等;
26、将所述一组线性无关的n维的基{v1,v2,…,vn}进行线性组合(其中,组合系数为整数),使得所有线性组合后的n维矢量铺满整个空间,得到晶格λ,具体用集合表示为:
27、
28、其中,u=(u1,u2,…,un)t为整数矢量,vλ=(v1,v2,…,vn)t是对应所述晶格λ排列方式的生成矩阵,由线性无关的n维的基{v1,v2,…,vn}组成。
29、可选地,所述将所述量化的第一特征图投影到晶格矢量量化器的整数系数域,获得第二特征图,包括:
30、将所述量化的第一特征图的第i1行第j1列的第k1个特征矢量由所述晶格矢量量化器中晶格λ的生成矩阵vλ的逆矩阵投影到整数系数空间中的n为晶格的维数,具体计算方式为:
31、
32、其中
33、将投影后的矢量拼接,构成所述第二特征图的第i2行第j2列的特征矢量获得所述第二特征图
34、可选地,所述将所述第二特征图的分布参数化建模为各维度相互独立的高斯分布,通过组合所述超先验信息和空间上下文模型预测所述高斯分布的均值和方差,包括:
35、将所述第二特征图在空间上按照棋盘形式划分为两个空间分组,第一个空间分组中的高度维度和宽度维度坐标之和为奇数,第二个空间分组中的高度维度和宽度维度坐标之和为偶数;
36、按所述第一个空间分组大小生成一个全零张量并与所述超先验信息拼接,输入一个由多层卷积和relu激活函数级联构成的神经网络,获得所述第一个空间分组的高斯分布的均值和方差,其中relu激活函数返回输入值与零之间更大的值;
37、将所述第一个空间分组输入一层卷积得到所述第二个空间分组的上下文信息,将超先验信息与所述第二个空间分组的上下文信息拼接,输入上述的神经网络(由多层卷积和relu激活函数级联构成的神经网络),获得所述第二个空间分组的高斯分布的均值和方差;
38、将所述第一个空间分组的高斯分布的均值和方差和所述第二个空间分组的高斯分布的均值和方差合并,得到所述第二特征图的高斯分布的均值和方差。
39、可选地,所述采用松弛边界划分晶格矢量量化器的整数系数域,根据预测的所述高斯分布的均值和方差,对所述第二特征图进行概率估计,根据估计概率进行算术编码,获得特征二进制码流,包括:
40、用体积为1的超立方体划分晶格矢量量化器的整数系数域,所述超立方体填满整个空间并且以整数向量作为其中心,使得所述第二特征图的第i2行第j2列的第k2个特征矢量为其所属超立方体的中心;其中,1≤i2≤h2,1≤j2≤w2,1≤k2≤m2/n,h2、w2和m2分别为第二特征图的高度、宽度和通道数,n为晶格的维数;
41、将所述超立方体的边界作为估计第二特征图的第i2行第j2列的第k2个特征矢量的概率的边界,根据所述预测的高斯分布的均值和方差,估计第二特征图的第i2行第j2列的第k2个特征矢量的概率具体计算方式为:
42、
43、其中和分别为的高斯分布的均值和方差;
44、根据估计概率对第二特征图的第i2行第j2列的第k2个特征矢量进行算术编码,获得第二特征图的第i2行第j2列的第k2个特征矢量的码流;
45、合并所有特征矢量的码流,获得特征二进制码流。
46、本发明的第二方面,提供一种矢量量化熵建模的图像解码方法,用于对应解码上述图像编码方法得到的编码,包括:
47、获得压缩图像二进制码流,对所述压缩图像二进制码流分解获得特征二进制码流和超先验特征二进制码流;
48、利用非参数化分布估计对所述超先验二进制码流进行算术解码得到超先验特征图;
49、对所述超先验特征图采用超先验解码网络获得超先验信息;
50、通过组合所述超先验信息和空间上下文模型预测用于解码第二特征图的每个空间分组的高斯分布的均值和方差;
51、采用松弛边界划分晶格矢量量化器的整数系数域,根据所述高斯分布的均值和方差对第二特征图进行算术解码,按照空间分组的顺序逐空间分组获得所述第二特征图;
52、将所述第二特征图逆投影到特征域,获得重构的第一特征图;
53、将所述重构的第一特征图通过解码网络,获得重构图像。
54、可选地,所述将所述第二特征图的第i2行第j2列的第k2个投影特征矢量由晶格矢量量化器中晶格λ的生成矩阵vλ逆投影到特征空间中的具体计算方式为:
55、
56、将逆投影后的矢量拼接,构成所述重构的第一特征图的第i2行第j2列的特征矢量获得所述重构的第一特征图其中,1≤i2≤h2,1≤j2≤w2,1≤k2≤m2/n,h2、w2和m2分别为第二特征图的高度、宽度和通道数,n为晶格的维数。
57、本发明的第三方面,提供一种矢量量化熵建模的图像压缩方法,包括:
58、获取待压缩图像;
59、基于上述的矢量量化熵建模的图像编码方法对所述待压缩图像进行编码,获得压缩图像二进制码流;
60、基于上述的矢量量化熵建模的图像解码方法对所述压缩图像二进制码流进行解码,获得重构图像。
61、可选地,所述编码网络、解码网络、超先验编码网络、超解码神经网络、矢量量化熵建模和空间上下文模型的参数通过率失真优化获得:
62、
63、其中,失真是待压缩图像x和重构图像均方误差,λ>0是用于平衡失真和码率的预设拉格朗日系数,码率r根据第二特征图的高斯分布以及超先验特征图的非参数化分布计算获得:
64、
65、其中1≤i2≤h2,1≤j2≤w2,1≤k2≤m2/n,h2、w2和m2分别为第二特征图的高度、宽度和通道数,n为晶格的维数,和分别为编码第二特征图第i2行第j2列第k2个特征矢量的高斯分布的均值和方差,是超先验特征图第l维的分布估计,是上的均匀分布。指对超先验特征图的每一个维度进行求和。
66、本发明的第四方面,提供一种图像压缩系统,所述图像压缩系统包括编码器和解码器,包括:
67、获取待压缩图像;
68、所述编码器采用上述矢量量化熵建模的图像编码方法对所述待压缩图像进行编码,获得压缩图像二进制码流;
69、所述解码器采用上述矢量量化熵建模的图像解码方法对所述压缩图像二进制码流进行解压缩,获得重构图像。
70、本发明的第五方面,提供一种图像压缩装置,所述图像压缩装置包括存储器和处理器,所述存储器存储一段可由所述处理器执行的程序,所述处理器在执行所述程序时可以执行以下任一种方法:
71、-上述的矢量量化熵建模的图像编码方法,或,
72、-上述的矢量量化熵建模的图像解码方法,或,
73、-上述的矢量量化熵建模的图像压缩方法。
74、与现有技术相比,本发明实施例具有以下至少一种有益效果:
75、本发明提供的矢量量化熵建模的图像编码、解码以及压缩方法,利用晶格矢量量化器对特征进行高效量化,复杂度接近标量量化器,码本具有无限码字,不产生码本塌陷问题。
76、本发明提供的矢量量化熵建模的图像编码、解码以及压缩方法不采用由软到硬的训练方式,而是基于松弛边界进行熵建模,训练时收敛稳定,不存在训练和测试不一致的问题。
77、本发明提供的矢量量化熵建模的图像编码、解码以及压缩方法,相比标量量化方法和目前最新矢量量化方法,在重构图像质量相同的前提下,分别可以节约6.03%和2.48%的码流开销,提升了率失真性能。
78、本发明实施例的矢量量化熵建模的图像压缩方法,在不同场景下采集的不同分辨率的自然图像上均能提升图像压缩率失真性能。本发明具有极强的实际应用价值,尤其是在实际的图像压缩中,对具有不同统计特性的特征都能进行高效、稳定、低复杂度的矢量量化,提升率失真性能。
本文地址:https://www.jishuxx.com/zhuanli/20241125/336156.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表