技术新讯 > 电子通信装置的制造及其应用技术 > 一种基于多尺度注意力内容感知的视频码率控制方法  >  正文

一种基于多尺度注意力内容感知的视频码率控制方法

  • 国知局
  • 2024-08-02 13:49:16

本发明涉及视频处理,具体地,涉及一种基于多尺度注意力内容感知的视频码率控制方法。

背景技术:

1、随着互联网的飞速发展,包括智能手机和超高清电视在内的各种视频应用也越来越多地出现在人们的日常生活中。这类应用程序在为用户提供极佳视觉体验的同时,也对网络通信的信道传输带宽提出了更高的需求。尽管最新提出的vvc视频编码标准可以达到更高效的压缩性能。但是,随着超高清视频的大量使用,其海量的数据仍将对信道带宽造成极大的挑战。因此,必须采用合适的码率控制编码优化方法,使编码后的视频在有限的码率范围内,尽量减少编码视频的失真。

2、另外,研究者们对人类视觉系统(hvs)的研究表明,在正常情况下,人的视野范围仅为2-5°,并且人眼对图像不同区域的敏感程度存在明显差异。我们在观看图片时,经常会把自己的注意力集中在某些特定的目标或者区域。这表明,人类的视觉注意力并非完全均匀的,而是对于人眼感兴趣区(roi)的失真表现得更加敏感。因此,如果将视频编码技术和人眼视觉特性相结合,根据人眼的视觉特性来指导视频编码过程,则可以有效地消除更多的主观视觉感知冗余,提升视频的压缩质量和用户的主观感受。

技术实现思路

1、针对传统视频编码方案中存在的视频冗余信息,本发明的目的是提供一种基于多尺度注意力内容感知的视频码率控制方法,使得目标比特分配方案更加合理,减少冗余,有效提升视频主观感知质量。

2、本发明的第一方面,提供一种基于多尺度注意力内容感知的视频码率控制方法,包括:帧级目标比特分配和ctu级目标比特分配;其中:

3、所述帧级目标比特分配,包括:

4、计算视频编码帧与前向和后向参考帧的帧差得到编码帧差,并确定视频时域预测结构参数;其中,所述编码帧差表示视频的内容特性;

5、使用所述编码帧差和所述视频时域预测结构参数确定帧级目标比特分配权重和分配策略;

6、所述ctu级目标比特分配,包括:

7、采用多尺度注意力的视频显著性检测模块提取视频显著性特征,确定人眼对不同区域的感兴趣程度;

8、使用所述视频显著性特征确定ctu级目标比特分配权重和分配策略。

9、可选地,所述使用所述编码帧差和所述视频时域预测结构参数确定帧级目标比特分配权重和分配策略,包括:

10、对于帧级码率控制,第j帧图像目标比特数tf(j)表示为:

11、

12、其中wf(j)表示帧级目标比特分配的权重;

13、使用帧差来表示视频的内容特性,其中前向差分mdf和后向差分mdb分别表示为:

14、

15、

16、使用wmd表示前向差分mdf和后向差分mdb的平均值,则优化后的帧级目标比特分配权重表示为:

17、

18、可选地,所述采用多尺度注意力的视频显著性检测模块提取视频显著性特征,包括:

19、获取视频的时空特征;

20、采用基于特征分配权重的注意力机制模块,将所述时空特征输入所述注意力机制模块,所述时空特征经过x和y两个通道分别使用全局最大池化和平均池化处理,最终获得各个特征的注意力权重;

21、将经过所述注意力机制模块后得到的输出特征,经过双向卷积长短期记忆模块和卷积块,得到视频序列最终的显著性值,所述输出特征是指各个特征与它们对应的注意力权重相乘得到的结果。

22、可选地,所述获取视频的时空特征,包括:

23、使用光流网络提取视频光流信息,再分别使用时间卷积神经网络和空间卷积神经网络提取视频时空特征并融合,获取视频的初步时空特征;

24、使用多个依次递增的不同扩张率的空洞卷积来提取多个尺度的上下文时空特征,并进行金字塔多尺度特征融合,得到视频的最终的时空特征。

25、可选地,所述使用光流网络提取视频光流信息,再分别使用时间卷积神经网络和空间卷积神经网络提取视频时空特征并融合,获取视频的初步时空特征,具体包括:

26、用(it-τ,it,it+τ)表示第t帧以及它的前向帧和后向帧,则序列经过光流网络获得的光流信息为ot-τ,t+τ,再将光流信息经过时间卷积神经网络获得时间特征ftt;

27、空间卷积神经网络以视频帧it作为输入,经过空间卷积神经网络提取空间特征fts,再将得到的空间特征fts使用全局平均池化提取全局特征向量,再复制该向量将全局特征恢复至原始维度,并将其与fts和ftt融合后得到的特征再次融合,获取初步提取的时空特征ftst。

28、可选地,使用多个依次递增的不同扩张率的空洞卷积来提取多个尺度的上下文时空特征,并进行金字塔多尺度特征融合,得到视频的最终的时空特征,包括:

29、构建res-net50和扩张卷积串联构成的多尺度特征提取模块;

30、将所述时空特征ftst输入多尺度特征提取模块,其中resnet-50的每个stage的第一个卷积块处理时空特征ftst,并将stage1至stage4的输出特征经过扩张率分别为1,3,5,7的空洞卷积,得到四组不同维度的特征;

31、再将后三组特征上采样至第一组特征的维度并融合得到多尺度时空特征ftms-st;

32、最后将时空特征ftst跳跃连接至该多尺度特征提取模块的输出ftms-st,得到最后的时空特征ftst′。

33、本发明第二方面,提供一种终端,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时可用于执行所述的基于多尺度注意力内容感知的视频码率控制方法。

34、本发明第三方面,提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时可用于执行所述的基于多尺度注意力内容感知的视频码率控制方法。

35、与现有技术相比,本发明具有如下至少之一的有益效果:

36、本发明充分考虑视频的内容特性和时域预测结构,提出一种基于帧差和时域预测结构的帧级目标比特方案,相比于原有编码器中仅仅考虑时域结构权重,本发明中的方案又添加了内容特性权重,使得目标比特分配方案更加合理,减少了冗余,有效提升视频主观感知质量。

37、本发明基于生成的显著性特征,使用视频显著性特征确定ctu级目标比特分配权重和分配策略,进一步的,根据各个ctu的显著性与帧平均显著性的比值,提出一种基于显著性特征的ctu级比特方案,该方案根据人眼对不同区域的感兴趣程度分配不同的比特权重,所提出的方案可以有效提升视频主观感知质量。

38、本发明使用具有不同扩张率的空洞卷积提取多尺度的视频时空特征,相比于之前的网络模型,扩大了感受野,并且多尺度的时空特征可以捕捉到不同层次、不同大小的信息,使得模型对于输入数据的理解更加全面,并且提升了模型对于图像信息的理解能力。

39、本发明采用双支双向协同注意力模块,该模块在通道注意力模块的基础之上,又考虑了数据在空间的位置关系,通过在特征图的不同位置之间建立注意力连接,更准确地捕捉到空间信息。

本文地址:https://www.jishuxx.com/zhuanli/20240801/240780.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。