技术新讯 > 电子通信装置的制造及其应用技术 > 用于视频编码、解码的方法、装置和存储介质与流程 > 正文

用于视频编码、解码的方法、装置和存储介质与流程

国知局
2024-10-09 15:00:46

本公开描述了总体上涉及视频编码、解码方法及相关装置的实施例。

背景技术：

1、未压缩的数字图像和/或视频可以包括一系列图片，每个图片具有例如1920×1080亮度样本和相关色度样本的空间维度。该系列图片可以具有固定或可变的图像速率(非正式地也称为帧速率)，例如，每秒60幅图片或60hz。未压缩的图像和/或视频有特定的比特率要求。例如，每样本8比特的1080p60 4:2:0视频(60hz帧速率的1920x1080亮度样本分辨率)需要接近1.5gbit/s的带宽。一小时这样的视频需要超过600g字节的存储空间。

2、图像和/或视频编码和解码的一个目的是通过压缩来减少输入图像和/或视频信号中的冗余。压缩有助于降低上述带宽和/或存储空间需求，在某些情况下可降低两个数量级或更多。尽管本文这里描述所使用的视频编码/解码是作为说明性示例，但是在不脱离本公开的精神的情况下，相同的技术可以以类似的方式应用于图像编码/解码。可以采用无损压缩和有损压缩及其组合。无损压缩是指可以从压缩的原始信号中重构出原始信号的精确副本的技术。当使用有损压缩时，重构信号可能与原始信号不相同，但是原始信号和重构信号之间的失真足够小，使得重构信号对预期应用有用。对于视频来说，广泛采用的是有损压缩。被容许的失真量取决于应用；例如，某些消费者流应用的用户可能比电视分发应用的用户容忍更高的失真。可实现的压缩比可以反映出：更高的容许/可容忍失真可以产生更高的压缩比。

3、视频编码器和解码器可以利用几大类技术，包括例如运动补偿、变换处理、量化和熵编码。

4、视频编解码器技术可以包括称为帧内编码的技术。在帧内编码中，样本值是在不参考来自先前重构的参考图片的样本或其他数据的情况下表示的。在某些视频编解码器中，图片在空间上被细分为样本块。当所有样本块都以帧内模式编码时，该图片可以是帧内图片。帧内图片及其派生图片(例如，独立的解码器刷新图片)可以用于重置解码器状态，因此可以用作编码视频比特流和视频会话中的第一图片，或者用作静止图像。可帧内块的样本可以被变换，并且在熵编码之前可以对变换系数进行量化。帧内预测可以是一种在预变换域中最小化样本值的技术。在一些情况下，变换后的dc值越小，ac系数越小，在给定量化步长下表示熵编码后的块所需的比特就越少。

5、例如，从mpeg-2代编码技术中使用的传统帧内编码不使用帧内预测。然而，一些较新的视频压缩技术包括尝试基于诸如数据块的编码和/或解码期间获得的周围样本数据和/或元数据执行的预测技术。这种技术此后被称为“帧内预测”技术。注意，至少在一些情况下，帧内预测所使用的参考数据来自重构中的当前图片，而不是来自参考图片。

6、可以有许多不同形式的帧内预测。当在给定的视频编码技术中可以使用多于一种这样的技术时，所使用的特定技术可以被编码为使用特定技术的特定帧内预测模式。在某些情况下，帧内预测模式可以有子模式和/或参数，其中，子模式和/或参数可以被单独编码或包含在模式码字中，其定义所使用的预测模式。对于给定的模式、子模式和/或参数组合，使用哪个码字会对通过帧内预测的编码效率增益产生影响，因此，对于将码字转换成比特流的熵编码技术也会产生影响。

7、h.264引入了特定的帧内预测模式，在h.265中进行了改进，并在更新的编码技术中进一步改进，例如，共同探索模型(joint exploration model，简称jem)、通用视频编码(versatile video coding，简称vvc)和基准集(benchmark set，简称bms)。使用已经是可用样本的相邻样本值来形成预测块。根据方向将相邻样本的样本值复制到预测块中。对使用中的方向的参考可以被编码仅比特流中，或者可以被其本身预测出。

8、参考图1a，右下方描绘了从h.265中定义的33个可能的预测方向(对应于35个帧内模式的33个角度模式)中已知的9个预测方向的子集。箭头会聚的点(101)表示被预测的样本。箭头表示的是来自哪个被预测的样本的方向。例如，箭头(102)指示样本(101)是从与水平线成45°角的右上方的一个或多个样本预测到的。类似地，箭头(103)指示样本(101)是从与水平线成22.5°角的样本(101)左下方的一个或多个样本预测到的。

9、仍然参考图1a，在左上方描绘了4×4样本的正方形块(104)(由粗虚线表示)。正方形块(104)包括16个样本，每个样本标有“s”，其在y维度上的位置(例如，行索引)和其在x维度上的位置(例如，列索引)。例如，样本s21是y维度中的第二个样本(从顶部算起)和x维度中的第一个样本(从左侧算起)。类似地，样本s44在y和x维度上都是块(104)中的第四个样本。由于该块的大小为4×4个样本，所以s44位于右下角。还示出了遵循类似编号方案的参考样本。用r标记的参考样本、其相对于块的y位置(例如，行索引)和x位置(列索引)来标记(104)。在h.264和h.265中，预测样本与重构中的块相邻；因此，不需要使用负值。

10、帧内图片预测可以从合适的信号预测方向的相邻样本中复制参考样本值来工作。例如，假设已编码的视频比特流包含针对此块的信号，其指示与箭头(102)一致的预测方向——即，从与水平成45°角的右上方的样本来预测样本。在这种情况下，从相同的参考样本r05预测样本s41、s32、s23和s14。然后从参考样本r08预测样本s44。

11、在某些情况下，多个参考样本的值可以组合，例如，通过插值，以便计算参考样本；尤其是当方向不能被45°整除时。

12、随着视频编码技术的发展，可能的方向的数量已经增加。在h.264(2003年)中，可以表示九个不同方向。这在h.265(2013年)中增加到33个。目前，jem/vvc/bms可以支持多达65个方向。已经通过实验来识别最可能的方向，并且熵编码中的某些技术用于以少量比特来表示那些可能的方向，对于不太可能的方向接受一定的惩罚。此外，方向本身有时可以从相邻的已经解码的块中使用的相邻方向来预测。

13、图1b示出了示意图(110)，描绘了根据jem的65个帧内预测方向，以说明预测方向的数量随着时间的推移而增加。

14、编码视频比特流中帧内预测方向比特的映射所表示的方向可以根据视频编码技术的不同而不同。这种映射的范围可以从诸如简单直接映射到码字，到涉及最有可能模式的复杂自适应方案，以及类似的技术。然而，在大部分情况下，与某些其他方向相比，某些方向在统计上不太可能出现在视频内容中。由于视频压缩的目标是减少冗余，在较好的视频编码技术中，那些不太可能的方向将由更多的比特来表示，相对更可能的方向。

15、可以使用带运动补偿的图片帧间预测进行图像和/或视频编码和解码。运动补偿可以是有损压缩技术，并且可以涉及这样的技术，其中，来自先前重构的图片或其一部分(参考图片)的样本数据块在运动矢量(此后称为mv)指示的方向上进行空间移位之后，可以用于预测新重构的图片或图片部分。在某些情况下，参考图片可以与当前正在重构的图片相同。mv可以具有两个维度x和y，或者三个维度，第三个维度是使用中的参考图片的指示(参考图片间接可以是时间维度)。

16、在一些视频压缩技术中，可应用于样本数据的某个区域的mv可以从其他mv中预测，例如，从与空间上邻近正在重构的区域的并且在解码顺序上在该mv之前的样本数据的另一个区域相关的mv中预测。这样做可以大大减少编码mv所需的数据量，从而消除冗余并提高压缩率。mv预测可以有效地工作，例如，因为当对从相机导出的输入视频信号(称为自然视频)进行编码时，存在统计可能性，即比单个mv可应用的区域大的区域在相似的方向上移动，因此，在某些情况下，可以使用从相邻区域的mv导出的相似运动矢量来预测。这使得给定区域发现的mv与从周围mv预测出的mv相似或相同，并且在熵编码之后，这又可以用比直接编码mv时所使用的更少的比特数来表示。在某些情况下，mv预测可以是从原始信号(即：样本流)导出的信号(即：mv)的无损压缩的示例。在其他情况下，mv预测本身可能是有损耗的，例如，当从几个周围的mv计算预测值时，会出现舍入误差。

17、在h.265/hevc(itu-t rec.h.265，“high efficiency video coding”，2016年12月)中描述各种mv预测机制。在h.265提供的许多mv预测机制中，参考图2描述了一种此后被称为“空间合并”的技术。

18、参考图2，当前块(201)包括由编码器在运动搜索过程中发现的样本，以便从已经被空间移位的相同大小的先前块中预测。并非直接编码该mv，可以使用与五个周围样本(表示为a0、a1和b0、b1、b2(分别为202至206))中的任一个相关联的mv，从与一个或多个参考图片相关联的元数据中导出该mv，例如，从最近的(按照解码顺序)参考图片中导出。在h.265中，mv预测可以使用来自相邻块正在使用的相同参考图片的预测器。

技术实现思路

1、本公开的各方面提供了用于视频编码和解码的方法和装置。

2、在一些示例中，一种用于视频解码的装置包括处理电路。处理电路被配置为从编码视频比特流接收当前图片中的多个块的预测信息。处理电路基于预测信息确定多个块是否允许解码器侧运动矢量细化dmvr模式或双向光流bdof模式中的至少一个。响应于多个块允许dmvr模式或bdof模式中的至少一个的确定结果，处理电路确定多个具有运动矢量差分合并mmvd的合并标志被推断为对于多个块为假。多个mmvd的合并标志分别指示mmvd模式是否被应用于多个块。响应于多个mmvd的合并标志被推断为对于多个块为假的确定结果，处理电路在不应用mmvd模式的情况下重构多个块中的每个块。

3、在一个实施例中，预测信息包括至少一个标志，标志指示多个块是否允许dmvr模式或bdof模式中的至少一个。

4、在一个示例中，处理电路确定(i)当前图片参考前向参考图片和后向参考图片，以及(ii)当前图片在前向参考图片和后向参考图片的中间。处理电路确定多个mmvd的合并标志并非以信令形式通知，并且基于在当前图片中不允许mmvd模式的确定结果，来推断多个mmvd的合并标志的取值。

5、在一个示例中，处理电路确定前向参考图片和当前图片之间的第一图片顺序计数poc差的绝对值等于后向参考图片和当前图片之间的第二图片顺序计数poc差的绝对值。例如，第一图片顺序计数poc差的绝对值和第二图片顺序计数poc差的绝对值小于阈值。

6、在一个实施例中，预测信息包括多个块的mmvd的合并启用标志，mmvd的合并启用标志指示对于多个块，未启用mmvd模式，处理电路确定多个块的多个mmvd的合并标志被推断为假。

7、在一个示例中，多个块是当前图片中的切片。

8、在一个实施例中，响应于多个mmvd的合并标志未被推断为对于多个块为假的确定结果，多个块中每个块相应的mmvd的合并标志的取值将在编码视频比特流中以信令形式通知。处理电路可以基于多个块是否允许dmvr模式或bdof模式中的一个或多个，在第一上下文和第二上下文中选择上下文。处理电路可以使用具有所选上下文的上下文自适应二进制算术编码cabac来解码多个块中每个块相应的mmvd的合并标志。

9、在一个实施例中，预测信息指示是否满足选择第一上下文的条件。条件包括多个块允许dmvr模式或bdof模式中的一种或多种，多个块的参考图片包括前向参考图片和后向参考图片，并且前向参考图片和当前图片之间的第一图片顺序计数poc差的绝对值等于后向参考图片和当前图片之间的第二图片顺序计数poc差的绝对值。处理电路可以基于所满足的条件，选择第一上下文，作为所选的上下文。处理电路可以基于多个条件中未满足的一个条件，选择第二上下文，作为所选的上下文。

10、在一个实施例中，基于第一概率来初始化所述第一上下文，第一概率指示多个块中每个块相应的mmvd的合并标志为假的概率高于mmvd的合并标志为真的概率的概率。

11、本公开的各方面还提供了用于视频解码器中进行视频解码的方法，其中，包括：从编码视频比特流接收当前图片中的多个块的预测信息；基于预测信息，确定多个块是否允许解码器侧运动矢量细化dmvr模式或双向光流bdof模式中的至少一个；响应于多个块允许dmvr模式或bdof模式中的至少一个的确定结果，确定多个具有运动矢量差分合并mmvd的合并标志被推断为对于多个块为假，多个mmvd的合并标志分别指示mmvd模式是否被应用于多个块；以及响应于多个mmvd的合并标志被推断为对于多个块为假的确定结果，在不应用mmvd模式的情况下重构多个块中的每个块。

12、在一个实施例中，预测信息包括至少一个标志，标志指示多个块是否允许dmvr模式或bdof模式中的至少一个。

13、在一个示例中，该方法还包括：确定(i)当前图片参考前向参考图片和后向参考图片，以及(ii)当前图片在前向参考图片和后向参考图片的中间；确定多个mmvd的合并标志并非以信令形式通知；以及基于在当前图片中不允许mmvd模式的确定结果，来推断多个mmvd的合并标志。

14、在一个示例中，当前图片在前向参考图片和后向参考图片的中间的确定结果，将确定出前向参考图片和当前图片之间的第一图片顺序计数poc差的绝对值等于后向参考图片和当前图片之间的第二图片顺序计数poc差的绝对值。

15、在一个示例中，第一图片顺序计数poc差的绝对值和第二图片顺序计数poc差的绝对值小于阈值。

16、在一个实施例中，预测信息包括多个块的mmvd的合并启用标志，mmvd的合并启用标志指示对于多个块，未启用mmvd模式，以及该方法包括确定多个块的多个mmvd的合并标志被推断为假。

17、在一个实施例中，多个块是当前图片中的切片。

18、在一个实施例中，响应于多个mmvd的合并标志未被推断为对于多个块为假的确定结果，多个块中每个块相应的mmvd的合并标志将在编码视频比特流中以信令形式通知，并且该方法还包括：基于多个块是否允许dmvr模式或bdof模式中的一个或多个，在第一上下文和第二上下文中选择上下文，以及使用具有所选上下文的上下文自适应二进制算术编码cabac，来解码多个块中每个块相应的mmvd的合并标志。

19、在一个示例中，预测信息指示是否满足选择第一上下文的条件，条件包括：多个块允许dmvr模式或bdof模式中的一种或多种，多个块的参考图片包括前向参考图片和后向参考图片，并且前向参考图片和当前图片之间的第一图片顺序计数poc差的绝对值等于后向参考图片和当前图片之间的第二图片顺序计数poc差的绝对值，并且选择上下文包括：基于所满足的条件，选择第一上下文，作为所选的上下文；以及基于多个条件中未满足的一个条件，选择第二上下文，作为所选的上下文。

20、在一个示例中，基于第一概率来初始化第一上下文，第一概率指示多个块中每个块相应的mmvd的合并标志为假的概率高于mmvd的合并标志为真的概率的概率。

21、本公开的各方面还提供了用于视频编码的方法，其中，包括：确定当前图片是否满足至少一个要求，其中，至少一个要求包括：当前图片中的多个块允许运动矢量细化dmvr模式或双向光流bdof模式中的至少一个；多个块未启用mmvd模式；响应于多个块允许dmvr模式或bdof模式中的至少一个的确定结果，在不应用运动矢量差分合并mmvd模式的情况下对多个块中的每个块进行编码；响应于多个块未启用mmvd模式的确定结果，在不应用运动矢量差分合并mmvd模式的情况下对多个块中的每个块进行编码；在至少一个要求均未满足的情况下，对多个块中的每个块进行单独确定，以确定是否应用mmvd模式对相应块进行编码，并根据单独确定的结果对相应块进行编码。

22、本公开的各方面还提供了用于视频编码的装置，其中，包括处理电路。处理电路被配置为确定当前图片是否满足至少一个要求，其中，至少一个要求包括：当前图片中的多个块允许运动矢量细化dmvr模式或双向光流bdof模式中的至少一个；多个块未启用mmvd模式；响应于多个块允许dmvr模式或bdof模式中的至少一个的确定结果，在不应用运动矢量差分合并mmvd模式的情况下对多个块中的每个块进行编码；响应于多个块未启用mmvd模式的确定结果，在不应用运动矢量差分合并mmvd模式的情况下对多个块中的每个块进行编码；在至少一个要求均未满足的情况下，对多个块中的每个块进行单独确定，以确定是否应用mmvd模式对相应块进行编码，并根据单独确定的结果对相应块进行编码。

23、本公开的各方面还提供了一种存储程序的非暂时性计算机可读存储介质，该程序可由至少一个处理器执行，以执行用于视频编码和解码的方法。