技术新讯 > 电子通信装置的制造及其应用技术 > 基于多阶段不规则编码单元划分的VVC-SCC帧内编码方法及装置  >  正文

基于多阶段不规则编码单元划分的VVC-SCC帧内编码方法及装置

  • 国知局
  • 2025-01-17 13:04:57

本发明涉及视频编码领域,具体涉及一种基于多阶段不规则编码单元划分的vvc-scc帧内编码方法及装置。

背景技术:

1、随着计算机科学技术的快速发展,屏幕内容视频作为一种新型的视频表示形式,日益受到关注。相较于自然内容视频,屏幕内容视频具有边缘锐利、包含大量的平坦区域以及重复出现的相同图案文本,如果用传统的视频编码标准来处理屏幕内容视频,压缩效果往往不佳,会出现文本失真、图像模糊等问题。因此,联合视频编码组在高效视频编码-屏幕内容编码标准(high efficiency video coding -screen content coding,hevc-scc)的基础上开发了新一代屏幕内容编码标准:多功能视频编码-屏幕内容编码(versatilevideo coding - screen content coding, vvc-scc)。该标准通过沿用hevc-scc的帧内块复制模式、调色板等模式,提高了屏幕内容视频的压缩效果,但计算复杂度也急剧增加。

2、由于vvc-scc采用了四叉树嵌套多叉树划分结构,需要自上而下从128×128大小的编码单元开始划分,直到划分成最小4×4的编码单元,然后再由下往上比较划分代价,通过对比划分前编码单元的率失真代价与划分成子编码单元的率失真代价之和决定是否划分。如果划分成子编码单元的率失真代价之和小于划分前编码单元的率失真代价,则编码时编码单元需要划分,否则不划分。为了减少vvc-scc编码器的计算复杂度。传统的快速算法依赖于手工提取的特征,对vvc-scc进行加速,然而其特征数量有限,只适用于特定序列。随着机器学习,尤其是深度学习技术的突破,可以通过深度学习技术来改进传统编码器,从而提高视频编码的速度和效率。然而,现有的卷积神经网络结构在学习能力上存在局限性,需要多次调用编码单元划分预测模型对编码单元逐次预测,而不是直接输出当前帧的预测结果,这无法有效保持rdc的平衡。因此,基于上述问题的考量,在不影响主观质量的情况下降低屏幕内容视频编码单元划分的计算复杂度是vvc-scc加速算法的关键挑战。

技术实现思路

1、本技术的目的在于针对上述提到的技术问题提出一种基于多阶段不规则编码单元划分的vvc-scc帧内编码方法及装置。

2、第一方面,本发明提供了一种基于多阶段不规则编码单元划分的vvc-scc帧内编码方法,包括以下步骤:

3、获取屏幕内容视频,对屏幕内容视频进行处理,得到若干个编码树单元,将每个编码树单元划分为若干个第一尺寸的当前编码单元;

4、构建基于多阶段卷积神经网络的编码单元划分预测模型并训练,得到经训练的编码单元划分预测模型,编码单元划分预测模型包括五个阶段,每个阶段均包括残差模块和子网络;

5、采用vvc-scc编码器对第一尺寸的当前编码单元进行编码,在编码过程中确定当前量化参数并进行归一化,得到归一化的当前量化参数,将第一尺寸的当前编码单元和归一化的当前量化参数输入到经训练的编码单元划分预测模型,经过当前阶段预测得到当前阶段的预测结果,当前阶段的预测结果包括在编码过程中当前阶段输入的当前编码单元所对应的不同的模式类别的预测概率,模式类别包括不划分模式以及将当前阶段输入的当前编码单元划分为缩小一个级别尺寸的编码单元的划分模式;对不同的模式类别设置不同的阈值,根据每个模式类别的预测概率及其对应的阈值确定是否将模式类别置于率失真优化列表中,若将模式类别置于率失真优化列表中,则通过vvc-scc编码器对率失真优化列表中的模式类别进行率失真代价计算,并选择率失真代价最小的模式类别作为当前编码单元的最优模式类别,采用最优模式类别对当前阶段输入的当前编码单元进行划分,得到划分后的编码单元并与归一化的当前量化参数输入到下一个阶段,经过下一个阶段预测得到下一个阶段的预测结果,将下一个阶段的预测结果作为当前阶段的预测结果重复以上得到当前阶段的预测结果之后的步骤;若不将模式类别置于率失真优化列表中,则直接跳过模式类别的率失真代价计算。

6、作为优选,根据每个模式类别的预测概率及其对应的阈值确定是否将模式类别置于率失真优化列表中,具体包括:

7、响应于确定第n个当前编码单元在当前阶段的预测结果中的第m个模式类别的预测概率满足以下公式:

8、;

9、其中,表示第n个当前编码单元在当前阶段的预测结果中的模式类别为m的预测概率,表示第n个当前编码单元在当前阶段的预测结果中的模式类别为i的预测概率,,表示模式类别m对应的阈值,max表示取最大值,则确定将第n个当前编码单元在当前阶段的预测结果中的模式类别m置于率失真优化列表中,否则确定不将第n个当前编码单元在当前阶段的预测结果中的模式类别m置于率失真优化列表中。

10、作为优选,划分模式包括四叉树划分模式、水平二叉树划分模式、水平三叉树划分模式、垂直二叉树划分和/或垂直三叉树划分模式,在编码单元划分预测模型的第一个阶段的划分模式为四叉树划分模式,在编码单元划分预测模型的第二个阶段和第三个阶段的划分模式为四叉树划分模式、水平二叉树划分模式、水平三叉树划分模式、垂直二叉树划分和垂直三叉树划分模式;在编码单元划分预测模型的第四个阶段和第五个阶段的划分模式为水平二叉树划分模式、水平三叉树划分模式、垂直二叉树划分和垂直三叉树划分模式。

11、作为优选,不划分模式对应的阈值为1,四叉树划分模式对应的阈值为0.1,水平二叉树划分模式对应的阈值为0.7,水平三叉树划分模式对应的阈值为0.05,垂直二叉树划分对应的阈值为0.05,垂直三叉树划分模式对应的阈值为0.1。

12、作为优选,编码单元划分预测模型中,第一个阶段包括第一残差模块和第一子网络,第一子网络包括依次连接的第一特征提取层、第一卷积层、第一全连接层和第二全连接层,第一特征提取层为第一非对称卷积网络,第一非对称卷积网络包括依次连接的卷积核大小为9×5的卷积层、卷积核大小为7×7的卷积层和卷积核大小为5×9的卷积层;第二个阶段包括第二残差模块和第二子网络,第二子网络包括依次连接的第二特征提取层、第二卷积层、第三卷积层、第三全连接层和第四全连接层,第二特征提取层为第二非对称卷积网络,第二非对称卷积网络包括依次连接的卷积核大小为7×3的卷积层、卷积核大小为5×5的卷积层和卷积核大小为3×7的卷积层;第三个阶段包括第三残差模块和第三子网络,第三子网络包括依次连接的第三特征提取层、第四卷积层、第五卷积层、第五全连接层和第六全连接层,第三特征提取层为卷积核大小为4hs×4ws的自适应卷积层;第四个阶段包括第四残差模块和第四子网络,第五个阶段包括第五残差模块和第五子网络,第四子网络和第五子网络包括依次连接的第四特征提取层、第六卷积层、第七全连接层和第八全连接层,第四特征提取层为卷积核大小为2hs×2ws的自适应卷积层;其中hs和ws分别为自适应卷积层的高度单元和宽度单元,若当前编码单元为矩形时,且当前编码单元的宽大于高时,ws=(w/h),hs=1,其中w和h为当前编码单元的宽和高;否则ws=1,hs=(h/w),当当前编码单元为方形时,ws=1,hs=1;归一化的当前量化参数分别输入到第一全连接层、第二全连接层、第三全连接层、第四全连接层、第五全连接层、第六全连接层、第七全连接层和第八全连接层,归一化的当前量化参数表示为:

13、;

14、其中,表示当前量化参数,为归一化的当前量化参数;

15、第一残差模块、第二残差模块、第三残差模块、第四残差模块、第五残差模块均采用残差结构,残差结构包括依次连接的第七卷积层和第八卷积层,第七卷积层的输入特征与第八卷积层的输出特征进行残差连接。

16、作为优选,编码单元划分预测模型的训练过程中所使用的损失函数如下:

17、;

18、其中,l表示损失函数,n表示批训练大小,m表示模式类别集合,和表示第n个当前编码单元在模式类别为m情况下的真实标签和预测标签,为第n个当前编码单元在模式类别为m情况下的率失真代价值,为权重系数。

19、第二方面,本发明提供了一种基于多阶段不规则编码单元划分的vvc-scc帧内编码装置,包括:

20、数据处理模块,被配置为获取屏幕内容视频,对屏幕内容视频进行处理,得到若干个编码树单元,将每个编码树单元划分为若干个第一尺寸的当前编码单元;

21、模型构建模块,被配置为构建基于多阶段卷积神经网络的编码单元划分预测模型并训练,得到经训练的编码单元划分预测模型,编码单元划分预测模型包括五个阶段,每个阶段均包括残差模块和子网络;

22、编码模块,被配置为采用vvc-scc编码器对第一尺寸的当前编码单元进行编码,在编码过程中确定当前量化参数并进行归一化,得到归一化的当前量化参数,将第一尺寸的当前编码单元和归一化的当前量化参数输入到经训练的编码单元划分预测模型,经过当前阶段预测得到当前阶段的预测结果,当前阶段的预测结果包括在编码过程中当前阶段输入的当前编码单元所对应的不同的模式类别的预测概率,模式类别包括不划分模式以及将当前阶段输入的当前编码单元划分为缩小一个级别尺寸的编码单元的划分模式;对不同的模式类别设置不同的阈值,根据每个模式类别的预测概率及其对应的阈值确定是否将模式类别置于率失真优化列表中,若将模式类别置于率失真优化列表中,则通过vvc-scc编码器对率失真优化列表中的模式类别进行率失真代价计算,并选择率失真代价最小的模式类别作为当前编码单元的最优模式类别,采用最优模式类别对当前阶段输入的当前编码单元进行划分,得到划分后的编码单元并与归一化的当前量化参数输入到下一个阶段,经过下一个阶段预测得到下一个阶段的预测结果,将下一个阶段的预测结果作为当前阶段的预测结果重复以上得到当前阶段的预测结果之后的步骤;若不将模式类别置于率失真优化列表中,则直接跳过模式类别的率失真代价计算。

23、第三方面,本发明提供了一种电子设备,包括一个或多个处理器;存储装置,用于存储一个或多个程序,当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如第一方面中任一实现方式描述的方法。

24、第四方面,本发明提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现如第一方面中任一实现方式描述的方法。

25、第五方面,本发明提供了一种计算机程序产品,包括计算机程序,计算机程序被处理器执行时实现如第一方面中任一实现方式描述的方法。

26、相比于现有技术,本发明具有以下有益效果:

27、(1)本发明提出的基于多阶段不规则编码单元划分的vvc-scc帧内编码方法采用基于多阶段卷积神经网络的编码单元划分预测模型,由五个子网络构成,对应vvc-scc中编码单元划分的五个阶段,对不同阶段的编码单元设计不同网络结构可以更好学习不同特征,提升训练效果,提高预测精度。

28、(2)本发明提出的基于多阶段不规则编码单元划分的vvc-scc帧内编码方法,通过对不同划分模式设置不同阈值,降低了标签预测的错误率,实现计算复杂度和时间节省的良好权衡,能够在不影响主观质量的情况下,节省编码时间,加速vvc-scc的编码过程。

本文地址:https://www.jishuxx.com/zhuanli/20250117/356103.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。