轻量级可变比特率多视图图像压缩方法及模型
- 国知局
- 2024-12-06 12:15:29
本发明属于图像压缩,具体涉及一种轻量级可变比特率多视图图像压缩方法及模型。
背景技术:
1、图像压缩是数字媒体传输和存储、无人机和卫星图像、视频会议和视频流等许多热门领域中的一项核心任务,其目标是在减小图像大小的同时保持图像的视觉质量。它被广泛应用于数字图像处理、传输和存储领域,因为图像压缩可以有效地减少存储空间、降低带宽要求、加快图像传输速度。
2、传统的图像压缩方法在这些应用场景中存在信息丢失,固定压缩率等限制,而基于深度学习的图像压缩方法则显示出更大的优势。
3、基于深度学习的图像压缩方法采用了编码器和解码器这两个关键组件。编码阶段使用卷积神经网络等模型对输入图像进行特征提取和编码。解码阶段使用逆卷积神经网络进行特征解码和重建。这种端到端的训练方式使得模型自动学习图像数据中存在的相关性并实现高效的数据表示和恢复。而编码器和解码器的结合是通过联合训练的方式实现的,目标是在固定的压缩率下最小化重构误差。针对分布式场景中图像数据传输和处理的需求,有许多优秀的图像压缩算法被应用于实际生产环境。基于gpu并行计算硬件支持,更为复杂而有效的深度学习神经网络模型也被引入到分布式场景下的压缩方法中。这些神经网络能够自动从数据中学习图片内部信息以及传输通道之间相互影响因素,并结合了半监督学习和可微嵌入方式使得通信成本得以大幅改善。
4、当前现存的图像压缩算法和模型通常采用固定的编码比特率,无法根据不同视图之间的图像相关性来动态调整编码策略,导致编码效率和带宽利用率较低、无法适应分布式场景中计算和资源受限的需求。而基于深度学习的图像压缩模型通常使用数百万个参数和复杂的网络结构,增加模型计算复杂度和计算成本,也无法直接应用于分布式场景。
5、因此,申请人考虑采用可变编码比特率的多视图图像压缩模型,能在实际分布式场景中显著提高编码效率、优化带宽使用率并增强图像压缩模型的适应性,与此同时,还能够在不影响图像压缩质量的情况下降低计算复杂度。
技术实现思路
1、基于上述现有技术中存在的问题,本发明的目的在于提供一种轻量级可变比特率多视图图像压缩方法及模型,能通过转换不同比特率的特征图实现可变比特率编码并对模型进行裁剪,在不显著降低图像压缩性能的情况下降低计算复杂性和存储开销,可应用于更广泛的应用场景中,尤其适合于资源受限的分布式设备中,同时提供更好的用户体验和更高的系统适应性。
2、为了实现上述目的,本发明采用的技术方案如下:
3、一种轻量级可变比特率多视图图像压缩方法,包括以下步骤:
4、1)将单视图图像进行下采样和特征提取获得特征图,随后对所述特征图进行特征缩放,获得对应目标比特率的潜在表示;
5、2)对所述潜在表示进行量化和无损熵编码,以获得最终压缩比特流;
6、3)对所述最终压缩比特流执行无损熵解码和特征逆缩放,恢复为潜在表示;
7、4)将不同视图的恢复后的潜在表示进行特征融合和上采样,生成重建的压缩图像。
8、优选地,所述步骤1)中,特征缩放采用如下特征缩放函数:
9、y′=vbfi(yi)=aiyi+bi
10、其中,y'为经特征缩放后的输入图像特征图,ai表示缩放因子,yi为输入图像的特征图,bi表示平移因子。
11、优选地,所述步骤2)具体包括:
12、2.1)对单视图图像的潜在表示进行量化,以减小数据量;
13、2.2)算数编码器基于高斯熵估计模型(gaussian entropy estimationmodel)对量化后的潜在表示进行无损熵编码,以获得最终压缩比特流。
14、优选地,所述步骤4)包括以下步骤:
15、4.1)将不同视图恢复后的潜在表示进行第一次特征融合,让各视图的潜在表示从其他视图中学习到相关信息,再进行上采样;
16、4.2)将步骤4.1)上采样后所有视图的潜在表示进行第二次特征融合,进一步学习其他视图的相关信息并整合各视图潜在表示中图像特征;
17、4.3)第二次特征融合后再进行上采样,生成重建的压缩图像。
18、一种轻量级可变比特率多视图图像压缩模型,包括:
19、主编码器,对单视图图像进行下采样和特征提取获得特征图;
20、特征缩放模块,用于对特征图进行特征缩放,以获得对应目标比特率的潜在表示;
21、量化模块,用于对所述潜在表示进行量化操作;
22、自回归熵模型,用于根据已知数据序列预测下一个离散符号出现的概率,其预测结果将传递给算数编码器和算数解码器,从而实现高效的压缩和解压缩;
23、算数编码器,用于对量化后的潜在表示进行无损熵编码,编码为紧凑的比特流,以实现高效的数据压缩;
24、算数解码器,用于对经算数编码器获得的比特流进行无损熵解码,逐步恢复成潜在表示;
25、特征逆缩放模块,用于逆缩放特征,以避免引入特征缩放模块而导致压缩图像额外失真;
26、解码器,对不同视图的潜在表示进行特征融合和上采样,生成重建的压缩图像。
27、优选地,所述主编码器包括依次设置的四个卷积层,相邻卷积层之间设有广义分裂归一层;所述卷积层的输出通道数为192,核大小为5,步长为2。
28、优选地,所述广义分裂归一层之后还设有遮罩层。
29、优选地,所述自回归熵模型为高斯熵估计模型。
30、上述轻量级可变比特率多视图图像压缩模型的裁剪方法,包括以下步骤:通过最小化稀疏损失函数训练所述轻量级可变比特率多视图图像压缩模型,直到模型的稀疏程度与目标小规模模型的通道数相匹配时;随后对所述轻量级可变比特率多视图图像压缩模型进行微调训练。
31、优选地,所述最小化稀疏损失函数如下:
32、
33、其中,x为遮罩层参数。
34、一种电子设备,包括存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述轻量级可变比特率多视图图像压缩方法。
35、与现有技术相比,本发明的有益效果是:
36、(1)本发明使用轻量化可变比特率多视图图像压缩算法,能够在保留图像细节、保持图像质量的情况下,高效压缩图像数据、降低计算复杂度、减少存储空间的占用,为图像传输和存储提供更快的速度和更低的带宽需求。
37、(2)针对计算资源受限的实际分布式应用场景:相比于传统图像压缩算法和基于深度学习的图像压缩算法,本发明基于稀疏损失函数对图像压缩模型进行裁剪,再对其进行微调训练(fine-tuning training),降低计算复杂度,同时保持最大的压缩重建性能,使图像压缩模型更加适用于计算资源受限的实际分布式应用场景。
38、(3)保留关键细节和图像质量:本发明方法采用编码器和解码器架构,使用无损熵编码和无损熵解码重建图像,最大程度地减少信息损失,在压缩后的图像中保持重要可视关键细节,保持图像质量。
本文地址:https://www.jishuxx.com/zhuanli/20241204/340266.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。