一种基于端到端神经网络的图像编码方法及系统
- 国知局
- 2024-08-02 13:56:24
本发明涉及光场处理,尤其涉及一种基于端到端神经网络的图像编码方法及系统。
背景技术:
1、图像编码是图像处理领域的一个重要的问题。随着科技的发展和进步,人们对于高质量的图像传输的需求越来越大,而有损图像编码就成了一个重要的课题,它关心的是如何在有限的硬件资源中有效的存储图像和视频。经典的有损图像编码技术包括jpeg[1],bpg[2],webp[3]以及vvc[4],他们遵循一个类似的编码方案:转换、量化和熵编码。但是,传统的混合编码标准存在两个缺点。
2、首先,编码/解码过程需要在基于块的混合编解码器中逐块地实现,这为重构图像引入了阻塞和振铃效果。第二,手工制作的模块彼此之间具有复杂的依赖关系,很难联合优化整个编码系统。
3、近年来,随着深度学习在图像识别、图像检索以及图像质量评估等方面的应用,基于学习的图像编码方法也进入了人们的视野。大多数的深度图像编码方法都是基于变分自编码器(vae),其中一个重要模块是熵编码,它通常包括带有超先验的上下文模型。熵编码的常见方案引入额外的变量作为超变量,然后将紧凑编码的概率模型转换为联合模型。在文献[5]中,它利用掩蔽卷积核来捕获上下文信息,但这种串行方法导致解码耗时。为了平衡解码效率和计算复杂性,许多先进的工作[6-9]使用空间并行的棋盘格掩蔽方法,而不是串行的自回归解码模型。然而,尽管棋盘格掩蔽方法最大化了空间相关性,但却放弃了被掩蔽区域的通道响应。[10]提出了一种沿通道均匀分组的上下文模型以提高编码并行性。[7]提出了一种基于不同通道的能量以及熵分布的不均匀分组方案以加速通道解码。其他一些方法通过设计特定模块来增强上下文模型。例如,[11]采用掩蔽自注意力来计算全局注意力的注意力图,但在上下文模型中分配给不同通道的相同注意力图降低了其表达能力。[8]利用堆叠的n层棋盘格模型来实现更多的表达性。在文献[12,13]中,使用掩蔽的3d cnn来利用潜在特征内的空间和跨通道相关性。然而,上下文内的空间和通道信息仍然相互纠缠。
4、[1]regory k.wallace.the jpeg still picture compressionstandard.commun.acm,34:30-44,1991.
5、[2]fabrice bellard.bpg image format.https://bellard.org/bpg,2015
6、[3]google.web picture format,2010.
7、[4]joint video experts team.vvc official test model vtm,2021
8、[5]david c.minnen,johannes ball′e,and george toderici.jointautoregressive and hierarchical priors for learned image compression.inneural information processing systems,2018.
9、[6]dailan he,yaoyan zheng,baochen sun,yan wang,and hongweiqin.checkerboard context model for efficient learned imagecompression.2021ieee/cvf conference on computer vision and patternrecognition(cvpr),pages 14766-14775,2021.
10、[7]dailan he,ziming yang,weikun peng,rui ma,hongweiqin,and yanwang.elic:efficient learned image compression with unevenly grouped space-channel contextual adaptive coding.in 2022ieee/cvf conference on computervision and pattern recognition(cvpr),pages 5708-5717,2022.
11、[8]wei jiang,jiayu yang,yongqi zhai,and ronggang wang.multi-referenceentropy model for learned image compression.arxiv preprint arxiv:2211.07273,2022.
12、[9]yichen qian,ming lin,xiuyu sun,zhiyu tan,and rongjin.entroformer:atransformer-based entropy model for learned image compression.arxiv,abs/2202.05492,2022.
13、[10]david c.minnen and saurabh singh.channel-wise autoregressiveentropy models for learned image compression.2020ieee internationalconference on image processing.(icip),pages 3339-3343,2020
14、[11]yichen qian,ming lin,xiuyu sun,zhiyu tan,and rongjin.entroformer:a transformer-based entropy model for learned imagecompression.arxiv,abs/2202.05492,2022.
15、[12]tong chen,haojie liu,zhan ma,qiu shen,xun cao,and yao wang.end-to-end learnt image compression vianon-local attention optimization andimproved context modeling.ieee transactions on image processing,30:3179-3191,2019.
16、[13]fabian mentzer,eirikur agustsson,michael tschannen,radu timofte,and luc van gool.conditional probability models for deep imagecompression.2018ieee/cvf conference on computer vision and patternrecognition,pages4394-4402,2018.
17、为了克服这些缺陷,本技术提出了一种基于端到端神经网络的图像编码方法及系统,旨在利用上下文中各个通道之间的关系。
技术实现思路
1、本技术的目的是提供一种基于端到端神经网络的图像编码方法及系统,旨在解决上述问题。
2、为实现上述目的,本技术提供如下技术方案:
3、本技术提供一种基于端到端神经网络的图像编码方法,包括:
4、在空间域和通道域中均匀的对上下文空间进行划分,获取参考信息;
5、将所述参考信息进行重排,生成相邻通道的信息分布;
6、对空间域和通道域的上下文信息进行解耦,分别得到空间相关性和通道相关性。
7、进一步的,所述在空间域和通道域中均匀的对上下文空间进行划分,获取参考信息的步骤中,具体包括下述步骤:
8、采用立方体棋盘式掩码模型均匀地划分了上下文空间(c,h,w);
9、非锚点潜变量分别从空间上下文和通道上下文获取参考信息。
10、进一步的,所述将所述参考信息进行重排,生成相邻通道的信息分布的步骤中,具体包括下述步骤:
11、通过通道重排方法对所述参考信息进行重排,具体为:
12、根据熵值对上下文的通道进行排序,将分布相同的通道排列在相邻位置;取上下文特征的第l个通道的绝对值,并将其标准化,计算每个通道的分布;计算公式为:
13、
14、其中为第i个通道的标准化分布概率,为上下文特征的第i个通道的数值,为锚定通道的结合;
15、计算通道的熵值,计算公式为:
16、
17、其中h(l)为第l个通道的熵;
18、根据通道的熵值调整权重,优化通道重排。
19、进一步的,所述对空间域和通道域的上下文信息进行解耦,分别得到空间相关性和通道相关性的步骤中,具体包括下述步骤:
20、通过fdm和fdm+的结合分别对空间上下文与通道上下文进行预测。
21、进一步的,所述上下文空间包括上下文模型,所述上下文模型将标准卷积降解为深度卷积和1*1卷积。
22、本技术提出一种基于端到端神经网络的图像编码系统,包括:
23、获取模块:在空间域和通道域中均匀的对上下文空间进行划分,获取参考信息;
24、通道重排模块:将所述参考信息进行重排,生成相邻通道的信息分布;
25、解耦模块:对空间域和通道域的上下文信息进行解耦,分别得到空间相关性和通道相关性。
26、本技术提供一种设备,所述设备包括处理器、与所述处理器耦接的存储器,其中,所述存储器存储有用于实现一种基于端到端神经网络的图像编码方法的程序指令;所述处理器用于执行所述存储器存储的所述程序指令以实现一种基于端到端神经网络的图像编码。
27、本技术提供一种存储介质,存储有处理器可运行的程序指令,所述程序指令用于执行一种基于端到端神经网络的图像编码方法。
28、本技术提供了一种基于端到端神经网络的图像编码方法及系统,具有以下
29、有益效果:
30、(1)通过优化上下文模型和通道信息的处理,本技术能够更精确地捕捉图像特征,从而提高编码效率,减少编码所需的时间和资源;
31、(2)本技术通过增强通道信息的获取和利用,能够更准确地还原图像细节,提升图像质量,使解码后的图像更接近原始图像;
32、(3)通过解耦模块的设计,降低计算复杂度,提高编码过程的实时性和稳定性,使得图像编码更加适用于各种实际应用场景。
本文地址:https://www.jishuxx.com/zhuanli/20240801/241164.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表