使用图像分割进行视频编码的系统和方法与流程
- 国知局
- 2024-08-02 12:39:35
本发明总体上涉及视频编码和解码领域。具体地,本发明涉及使用图像分割进行视频编码器加速的系统和方法。
背景技术:
1、视频编解码器可以包括压缩或解压缩数字视频的电子电路或软件。视频编解码器可以将未压缩的视频转换为压缩格式,反之亦然。在视频压缩的上下文中,压缩视频(和/或执行其某一功能)的设备通常可被称为编码器,而解压缩视频(和/或执行其某一功能)的设备可被称为解码器。
2、压缩数据的格式可以符合标准视频压缩规范。压缩可能是有损的,因为压缩视频缺少原始视频中存在的一些信息。这样的后果可能包括解压缩视频可能具有比原始未压缩视频低的质量,因为没有足够的信息来准确地重建原始视频。
3、在视频质量、用于表示视频的数据量(例如由位率确定)、编码和解码算法的复杂度、对数据丢失和错误的敏感性、编辑的容易性、随机访问、端到端延迟(例如时延)等之间可能存在复杂的关系。
4、运动补偿可以包括一种考虑到参考帧(例如先前和/或将来帧)通过考虑相机和/或视频中对象的运动来预测视频帧或其一部分的方法。运动补偿可以在用于视频压缩的视频数据的编码和解码中采用,例如在使用运动图像专家组(mpeg)的高级视频编码(avc)标准(也称为h.264)的编码和解码中采用。运动补偿可以根据参考图片到当前图片的变换来描述图片。参考图片在与当前图片比较时可以在时间上在先前,或者在与当前图片比较时来自将来。当可以从先前传输和/或存储的图像准确地合成图像时,可以提高压缩效率。
技术实现思路
1、一种对视频信号进行编码和/或加速视频信号的编码的方法包括:接收包括多个像素的视频帧;以及将视频帧分割为多个编码树单元(ctu)。对视频帧执行对象检测和图像分割以生成对象识别数据和识别对象边界的至少一个分割掩码。分割掩码被多个ctu覆盖,并且对于其中识别对象边界的ctu,将ctu分割成至少两个编码单元(cu),其中至少一个cu包含感兴趣对象且至少一个cu不包含感兴趣对象。
2、对视频帧的编码可包括用至少部分基于cu是否包含感兴趣对象而确定的分辨率和/或量化参数对cu进行编码。
3、分割优选地选自包括水平分割、垂直分割和几何分割的组。图像分割可以从各种已知的图像分割方法中选择,包括语义分割、实例分割和全景分割。
4、对象识别数据包括在视频帧中检测到的各个对象的实例标签。对象识别数据可包括视频帧中的各个像素的实例标签。对象识别数据可以包括对象类、帧中的对象位置和/或例如对象的边界框的尺寸信息。
5、方法还可以包括执行至少部分地基于对象识别数据执行的运动估计。
6、本文还提供了一种视频编码器。视频编码器接收包括多个像素且可分割成多个编码树单元(ctu)的视频帧数据。编码器包括图像检测和分割处理器,其接收视频帧并生成对象识别数据和至少一个图像分割掩码。还提供了掩码到编码块映射处理器,其用于将分割掩码映射到视频帧的ctu,并基于ctu中检测到的对象边界将至少一个ctu分割成多个编码单元(cu)。视频编码处理器接收视频帧、对象识别数据和分割的cu,并且用至少部分地基于cu是否包含对象而确定的分辨率或量化参数中的至少一者来编码cu。
7、掩码到编码块映射处理器优选地使用从包括水平分割、垂直分割和几何分割的组中选择的分割来分割ctu。
8、图像检测和分割处理器优选地应用从包括语义分割、实例分割和全景分割的组中选择的图像分割方法。
9、在一些实施例中,对象识别数据可以包括在视频帧中检测到的各个对象的实例标签。对象识别数据可包括视频帧中的各个像素的实例标签。对象识别数据可另外或替代地包括对象类、帧中的对象位置和/或对象的对象尺寸或边界框信息。
10、编码器还可以包括运动估计处理,其中,运动估计至少部分地基于对象识别数据来执行。
11、编码器可以采用硬件加速。图像检测和分割处理器可以包括或包含神经网络。
12、在结合附图查阅本发明的特定非限制性实施例的以下描述之后,本发明的非限制性实施例的这些和其它方面和特征将对本领域技术人员变得明了。
技术特征:1.一种对视频信号编码的方法,包括:
2.根据权利要求1所述的方法,还包括:用至少部分地由cu是否包含感兴趣对象确定的分辨率或量化参数中的至少一者对所述cu编码。
3.根据权利要求1所述的方法,其中,所述分割选自包括水平分割、垂直分割和几何分割的组。
4.根据权利要求1所述的方法,其中,所述图像分割选自包括语义分割、实例分割和全景分割的组。
5.根据权利要求1所述的方法,其中,所述对象识别数据包括用于在所述视频帧中检测到的各个对象的实例标签。
6.根据权利要求1所述的方法,其中,所述对象识别数据包括所述视频帧中的各个所述像素的实例标签。
7.根据权利要求1所述的方法,其中,所述对象识别数据包括对象类、所述帧中的对象位置。
8.根据权利要求7所述的方法,其中,所述对象识别数据还包括对象的边界框。
9.根据权利要求2所述的方法,还包括运动估计的步骤,其中,至少部分地基于所述对象识别数据来执行所述运动估计。
10.一种视频编码器,所述视频编码器接收包括多个像素的视频帧数据,所述视频帧被分割成多个编码树单元(ctu),所述编码器包括:
11.根据权利要求10所述的编码器,其中,所述掩码到编码块映射处理器使用从包括水平分割、垂直分割和几何分割的组中选择的分割对ctu进行分割。
12.根据权利要求10所述的编码器,其中,所述图像检测和分割处理器应用从包括语义分割、实例分割和全景分割的组中选择的图像分割方法。
13.根据权利要求10所述的编码器,其中,所述对象识别数据包括用于在所述视频帧中检测到的各个对象的实例标签。
14.根据权利要求10所述的编码器,其中,所述对象识别数据包括所述视频帧中的各个所述像素的实例标签。
15.根据权利要求10所述的编码器,其中,所述对象识别数据包括对象类、所述帧中的对象位置。
16.根据权利要求10所述的编码器,其中,所述对象识别数据还包括对象的边界框。
17.根据权利要求10所述的编码器,还包括运动估计处理,其中,运动估计至少部分地基于所述对象识别数据来执行。
18.根据权利要求10所述的编码器,其中,所述图像检测和分割处理器包括神经网络。
技术总结提供了一种视频编码器,包括图像检测和分割处理器,其接收视频帧并生成对象识别数据和至少一个图像分割掩码。掩码到编码块映射处理器将分割掩码映射到视频帧的CTU,并且基于CTU中的检测到的对象边界将至少一个CTU分割成多个编码单元(CU)。视频编码处理器接收视频帧、对象识别数据和分割的CU,并且用至少部分地基于CU是否包含对象而确定的分辨率或量化参数中的至少一者来编码CU。技术研发人员:菲力博·阿兹克,博里约夫·福尔特,哈利·卡瓦受保护的技术使用者:OP解决方案公司技术研发日:技术公布日:2024/8/1本文地址:https://www.jishuxx.com/zhuanli/20240802/237169.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。