技术新讯 > 电子通信装置的制造及其应用技术 > 基于注意力机制和迁移学习的视频图像压缩方法 > 正文

基于注意力机制和迁移学习的视频图像压缩方法

国知局
2024-08-02 14:13:21

本发明涉及视频图像编解码领域，特别涉及一种基于注意力机制和迁移学习的视频图像压缩方法。

背景技术：

1、对一个视频编码器而言，较小的失真通常意味着较大的码率；而较小的码率则需以较大的失真为代价。根据率失真理论，码率和失真的关系可由一条光滑的下凸单调曲线(即率失真理论曲线)刻画，该曲线同时也描述了在不考虑任何约束时编码系统所能达到的最佳性能。对于一个所使用的技术已经确定的特定编码器，可通过为所有可配置参数搜索具有最佳性能的参数值来获取最佳编码方案。

2、端到端学习的视频压缩系统，如dvc(an end-to-end learning framework forvideo compression,ieee trans.pattern anal.mach.intell.,vol.43,no.10,2021)，由深度神经网络完成运动估计、运动向量编码和解码、残差数据编码和解码等功能，引入拉格朗日因子计算失真与码率的加权和作为代价函数，以监督训练的方式批量加载训练样本，以最小化所有样本的损失函数之和为目标，采用反向传播的方式更新调整模型中的参数，从而获得对应某个拉格朗日因子值、平衡了码率和失真损失的最优解。然而拉格朗日因子值与码率或失真之间并没有直接的对应关系，实际的应用场景往往先给定码率约束，然后在此码率约束下要求编码系统具有以失真计的最佳性能。为了应对上述要求，基于深度学习的视频压缩系统需要选取多个不同的拉格朗日因子值，学习对应这些因子值的网络模型，并存储学习所得的网络参数。上述方案的困难在于，端到端学习的视频图像压缩框架动辄包含数十兆的参数，所以在监控摄像机等端设备中部署能实现精细化码率控制的编码系统将对设备的运算能力和存储能力提出极大的挑战。

技术实现思路

1、本发明的目的在于解决现有技术存在的问题，提供一种基于注意力机制和迁移学习的视频图像压缩方法。

2、本发明采用两阶段学习的方法训练基于注意力机制和迁移学习的视频图像压缩系统，具体技术方案如下：

3、一种基于注意力机制和迁移学习的视频图像压缩方法，该方法包括：

4、s1、采用dvc视频编码系统作为基础模型，该基础模型包括以深度神经网络实现的运动估计、运动向量编码和解码、运动补偿、残差数据编码和解码模块，以监督学习的方式对所述基础模型进行第一阶段的学习，确定所述基础模型中各个模块的网络参数；

5、且在第一阶段学习过程中，设xt代表当前帧，为xt之前的相邻帧经压缩编码后解码还原的图像，对每一个训练样本将和xt输入到所述基础模型中，经编码和解码后输出当前帧xt对应的解码图像再按如下的损失函数公式计算损失

6、

7、其中，代表xt和之间的误差，r为与码率相关的代价；λ为用于平衡失真和码率的权重参数；

8、批量加载训练样本集中的所有训练样本，以最小化所有训练样本的损失函数之和为目标，以反向传播的方式更新调整基础模型的各个网络层次的参数，直至第一阶段的学习过程收敛，得到一组对应基础模型的第一网络参数集；

9、s2、在基础模型的残差数据编码器之后增加用于实现码率控制的一个通道注意力模块和一个空间注意力模块，从而得到优化模型；以迁移学习的方式对所述优化模型进行第二阶段的学习，且设为第一阶段学习过程中设置权重参数λ＝λ1学习所得的第一网络参数集，第二阶段学习将基础模型中的运动估计模块、运动向量编码和解码模块、运动补偿模块、残差数据编码器的各个网络层次的参数迁移至所述优化模型中，且将这些模块的网络参数固化为中的值，仅学习通道注意力模块、空间注意力模块和残差数据解码器中各个网络层次的参数；

10、且在第二阶段的学习过程中，训练样本输入到优化模型后，先由与基础模型相同的运动估计模块、运动向量编码和解码模块、运动补偿模块和残差数据编码器处理后输出对应输入样本的特征图yt，特征图yt经通道注意力模块处理形成修正特征图修正特征图进一步经空间注意力模块处理形成修正特征图最后对修正特征图进行取整运算和熵编码形成最终的编码码流；然后在解码端，对编码码流进行熵解码后输入到残差数据解码器，由残差数据解码器输出对应xt的解码图像再按s1中所述的损失函数公式对指定的权重参数λ取值λ2计算损失

11、批量加载训练样本集中的所有训练样本，以最小化所有训练样本的损失函数之和为目标，以反向传播的方式更新调整所述优化模型中通道注意力模块、空间注意力模块和残差数据解码器的各个网络层次的参数，直至第二阶段的学习过程收敛，得到一组第二网络参数集；

12、s3、在第一阶段和第二阶段的学习中设定不同的权重参数λ的取值组合，最终得到若干组第二网络参数集，每一组第二网络参数集对应两个学习阶段中一组权重参数λ的取值组合λ1和λ2；对于任意给定的码率限制，从所有第二网络参数集中选择一组在该码率限制下具有最小平均失真的第二网络参数集，用于供所述优化模型进行编解码操作。

13、作为优选，所述特征图yt经通道注意力模块处理形成修正特征图的具体方法包括：

14、残差数据编码器输出的对应输入样本的特征图为其中w、h和c分别为特征图的宽、高和通道数，并且取c等于16的整数倍数，通道注意力模块以此特征图yt为输入，特征图yt经自适应平均池化操作后形成1×1×c的特征图m1，特征图yt经自适应最大池化操作后形成1×1×c的特征图m2，m1经过依次连接的卷积层conv_c1、relu激活和卷积层conv_c2后形成特征图m′1，m2经过依次连接的卷积层conv_c1、relu激活和卷积层conv_c2后形成特征图m′2，将特征图m′1和特征图m′2进行逐元素的求和运算，再将运算结果经sigmoid激活操作后形成1×1×c的特征图m3；最后，将输入到通道注意力模块的特征图yt的每个元素yt(m,n,c)分别与特征图m3的第c通道的值相乘，得到经通道注意力模块修正后的特征图

15、作为优选，所述卷积层conv_c1包含c/16个1×1×c卷积核，卷积层conv_c2包含c个1×1×c/16卷积核，两个卷积层的卷积步长都为1。

16、作为优选，所述特征图经空间注意力模块处理形成修正特征图的具体方法包括：

17、以通道注意力模块修正后的特征图作为空间注意力模块的输入，对沿通道方向分别进行平均池化和最大池化操作，再将平均池化和最大池化操作形成的两个w×h×1的特征图沿通道方向拼接成一个w×h×2的特征图m4；特征图m4经后接的卷积层conv_c3和sigmoid激活操作形成一个w×h×1的特征图m5；最后，输入到空间注意力模块的特征图的每个元素分别与特征图m5中对应位置的元素m5(m,n)相乘，得到经空间注意力模块修正后的特征图

18、作为优选，所述卷积层conv_c3包含1个7×7×2卷积核，且卷积步长为1。

19、作为优选，针对每一组权重参数λ的取值组合λ1和λ2所对应的第二网络参数集，将其导入所述优化网络中对测试视频进行编解码操作，并测量编码后的码率和解码重建图像相对输入图像的失真，从而获得对应该组网络参数集的平均码率和失真，并作为码率-失真平面上的一个可操作点；由所有网络参数集获得的可操作点形成可操作率失真曲线，该曲线的下边界凸包络定义了编码系统的最优性能；按下式求解约束极值问题的解，得到满足码率限制要求且最为接近可操作率失真曲线下边界凸包络的可操作点：

20、

21、其中rc为限制的码率；x和分别表示测试视频中的原始图像帧以及对应的解码重建图像；

22、将求解得到的这个可操作点对应的网络参数集作为增加了通道注意力和空间注意力模块的所述优化模型的网络参数集，用于对实际视频进行编解码操作。

23、作为优选，所述损失函数公式中，误差采用xt和之间的均方误差，与码率相关的代价r采用编码每像素所需的比特数衡量。

24、相对于现有技术而言，本发明的有益效果如下：

25、本发明提供的方法在dvc基础模型的残差数据编码器之后增加了一个通道注意力模块和一个空间注意力模块，用于实现码率控制。第一阶段的学习针对基础模型，获得若干组对应不同失真码率平衡因子值的网络参数集；在第二阶段，以迁移学习的方式，对基础模型的每一组参数集学习若干组仅包含通道注意力、空间注意力和残差数据解码器的各个网络层次的轻量级参数集。采用本发明提供的基于注意力机制和迁移学习的视频压缩方法能以较小的存储代价保存较多对应不同失真码率平衡因子值的参数模型，从而为精细化的码率控制提供可能性。