技术新讯 > 电子通信装置的制造及其应用技术 > 高斯混合模型熵译码的制作方法 > 正文

高斯混合模型熵译码的制作方法

国知局
2024-08-02 14:42:51

本发明涉及一种对熵编码信号进行解码的方法、一种对信号进行熵编码的方法以及一种相应的解码器、编码器和码流。

背景技术：

1、人工神经网络(neural network，nn)的最新进展，尤其是卷积神经网络的最新进展，使得将基于神经网络(neural network，nn)的技术应用于图像和视频压缩任务成为可能。

2、熵译码需要熵模型(先验分布)对信号进行编码和解码。

3、在已知方法中，使用以下步骤：

4、1.nn架构(编码器nn)用于：生成数据的潜在表示。

5、2.nn架构(超编码器nn)用于：生成数据的潜在表示的熵模型的潜在表示，其中，所述熵模型由表征一个或多个码符号概率的一个或多个概率分布参数定义。

6、3.nn架构(熵nn)生成用于对数据的潜在表示进行译码的熵模型的参数，这取决于由nn架构处理的熵模型(超解码器nn)的潜在表示和由nn架构(自回归上下文nn)处理的数据本身的潜在表示。

7、使用自回归上下文nn显著增加了对实时应用至关重要的解码器运行时间。这是由逐个样本进行处理的模型的自回归运算造成的。

8、此外，还提出了熵模型nn，所述熵模型nn提供了用于对数据的潜在表示进行熵译码的gmm参数。这种方法指定了熵模型nn，但gmm参数不是译码的，而是从超解码器nn获取的。然而，混合模型中的高斯数量是固定的，并受到预训练的nn模型的约束，这限制了模型对内容的适应性。

9、高斯混合模型(gaussian mixture model，gmm)在现有技术中用于有损图像译码，使用图像上的颜色分量和位置作为gmm的维度。参数被译码为字典，以免不同块的模型重复。然而，这种方法不使用gmm模型对信号进行熵译码。

10、在通用视频编码(versatile video coding，vvc)标准中，可以使用指数哥伦布译码按每块对运动矢量差值进行译码。然而，这限制了可用于熵译码的分布类别，因此产生的位数通常高于香农熵极限。

技术实现思路

1、鉴于上述情况，本技术的目的在于提供一种克服上述一个或多个缺点并提供有效熵译码的译码方法。

2、上述和其它目的通过独立权利要求请求保护的主题来实现。其它实现方式在从属权利要求、说明书和附图中是显而易见的。

3、根据第一方面，提供了一种对编码信号进行解码的方法，所述方法包括以下步骤：接收包括熵编码信号的至少一个码流，所述信号用一个或多个高斯混合模型(gaussianmixture model，gmm)进行熵编码，并且所述至少一个码流包括：用于获取所述一个或多个gmm的参数的信息；根据来自所述至少一个码流的所述信息获取所述gmm参数；使用具有所述获取的gmm参数的gmm对信号进行熵解码。

4、本发明提供了一种使用一个或多个gmm熵模型(在编码器侧拟合)对信号进行译码的方案。从解码器侧的码流中获取一个或多个gmm熵模型的参数。可以直接从码流中的相应信息中获取参数，也可以从从码流中获取的用于其他获取参数的信息中获取参数。这是对熵模型gmm参数进行指示的显式方式。可以实现接近香农极限的压缩性能。与自回归建模相比，可以实现解码器的加速。以下描述特别是实施例的描述中具体说明了参数指示的技术细节。本发明可应用于2d/3d图像和视频压缩、特征图译码、变分自编码器(variationalautoencoder，vae)应用的技术领域，特别是从vae中获取的运动信息译码、2d/3d图像和视频合成以及面向机器的视频译码等。

5、根据一种实现方式，获取gmm参数的步骤可以包括：从至少一个码流中获取所述gmm参数中的一个或多个gmm参数的控制信息；处理控制信息，以便从码流中对一个或多个gmm参数进行熵解码。

6、因此，解码器可以从码流中读取解析和处理控制参数。控制信息可以涉及对参数解析和处理的过程和/或与信号信道的映射和/或参数值限制和/或参数总数进行定义的语法元素。

7、根据一种实现方式，控制信息可以包括以下中的至少一个：(a)gmm模式，所述gmm模式指示信道与gmm数量之间的关系，特别是以下gmm模式之一：每个信道一个gmm、所有信道一个gmm、或所有信道一个特定数量的gmm；(b)gmm数量；(c)用于将一个或多个信道映射到gmm的一个或多个索引；(d)对gmm参数的缩放因子进行指示的一个或多个模式，每个模式是指示使用所述缩放因子的预定义值的第一模式、指示所述缩放因子将从所述码流进行熵解码的第二模式、指示所述缩放因子的2的幂的指数将从所述码流进行解码的第三模式中的一个；(e)gmm参数的一个或多个缩放系数；(f)对gmm参数的限幅值进行指示的一个或多个模式，每个模式是指示使用所述限幅值的预定义值的第一模式、指示所述限幅值将从所述码流进行熵解码的第二模式、指示所述限幅值的2的幂的指数将从所述码流进行解码的第三模式中的一个；(g)gmm参数的一个或多个限幅值；(h)每个gmm的高斯数量。

8、码流可以包括一个或多个信号信道，并且控制信息gmm模式可以将gmm数量与码流中的信道相关联。控制信息gmm数量可以指定每个gmm中的gmm数量和高斯数量。具体而言，可以为所有信道一个特定数量的gmm的模式提供gmm数量。一个或多个索引可以将信道映射到gmm。控制信息可以包括：对gmm参数的缩放因子进行指示一个或多个模式，该模式指示如何获取缩放因子。控制信息可以包括gmm参数的一个或多个缩放系数(缩放因子)。此外，控制信息可以包括：用于对限幅值进行指示的模式和/或限幅值。需要注意的是，不同的gmm参数可以具有不同的用于对限幅值进行指示的模式。例如，均值可以有两个进行指示的限幅值，一个用于标准差，一个用于权重，或者任何其他组合。这同样适用于gmm参数的缩放因子。不同的模式提供了不同的参数/值处理。

9、根据一种实现方式，针对每个高斯，gmm参数包括：均值、标准差和/或权重。

10、均值和标准差定义了gmm中每个高斯的形式，权重定义了gmm中特定高斯的相对比例。每个权重可以是0到1之间的数字，gmm中所有权重的总和为1。考虑到这种求和条件，可能没有必要对码流中的所有权重进行指示，因为其中一个权重可以根据其他权重计算出来。

11、根据一种实现方式，所述方法可以包括根据解码的gmm参数构建信号频率表的进一步的步骤；其中，对信号进行熵解码的步骤包括：使用信号频率表对信号进行解码。

12、频率表建立在从最小可能信号值–qs/2到最大可能信号值+qs/2的范围上，其中，qs代表量化步长。量化的样本具有量化步长qs。该范围上的频率表的每个折叠区间都具有qs值的长度。频率表可以乘以确定算术编解码器的精度的系数，并可以通过下界为1或某个其他值进行限幅，以保证不存在零概率符号。

13、根据一种实现方式，信号包括一个或多个信道，对所述信号进行熵解码的步骤包括：用相应的gmm参数集对每个信道进行熵解码。

14、因此，每个信道可以独立解码。

15、根据一种实现方式，所述至少一个码流包括：包括所述熵编码信号的第一码流和包括所述gmm参数的第二码流。

16、其优点是，在没有具有gmm参数的第二码流的情况下，第一码流不能解码，因此，这起到了隐私保护的作用。可替代地，可以应用仅对在码流中进行指示的gmm参数和参数解析和处理信息进行加密。因此，并非所有码流都加密，而是只有一小部分码流加密，加密和解密过程加快。

17、根据第二方面，提供了一种对信号进行编码的方法，所述方法包括以下步骤：使用一个或多个具有确定的gmm参数的高斯混合模型(gaussian mixture model，gmm)对所述信号进行熵编码；生成包括所述熵编码信号和所述确定的gmm参数的至少一个码流。

18、此外，所述方法可以包括确定gmm参数的步骤。

19、上文提供的解码方法的解释和优点在此处也适用。为避免重复，此处及下文省略这些内容。

20、根据一种实现方式，所述方法还可以包括：设置用于获取所述确定的gmm参数中的一个或多个gmm参数的控制信息；其中，所述至少一个码流包括所述控制信息。

21、根据一种实现方式，控制信息可以包括以下中的至少一个：(a)gmm模式，所述gmm模式指示信道与gmm数量之间的关系，特别是以下gmm模式之一：每个信道一个gmm、所有信道一个gmm、或所有信道一个特定数量的gmm；(b)gmm数量；(c)用于将一个或多个信道映射到gmm的一个或多个索引；(d)对gmm参数的缩放因子进行指示的一个或多个模式，每个模式是指示使用所述缩放因子的预定义值的第一模式、指示所述缩放因子将从所述码流进行熵解码的第二模式、指示所述缩放因子的2的幂的指数将从所述码流进行解码的第三模式中的一个；(e)gmm参数的一个或多个限幅值；(f)每个gmm的高斯数量。

22、根据一种实现方式，针对每个高斯，gmm参数可以包括：均值、标准差和/或权重。

23、根据一种实现方式，信号包括一个或多个信道，对所述信号进行熵编码的步骤包括：用相应的gmm参数集对每个信道进行熵编码。

24、根据一种实现方式，所述至少一个码流可以包括：包括所述熵编码信号的第一码流和包括所述gmm参数的第二码流。

25、根据一种实现方式，所述方法可以包括：使用gmm累积分布函数执行优化算法以获取确定的gmm参数的进一步的步骤。

26、根据一种实现方式，执行所述优化算法可以包括：根据每个gmm在步长间隔上的所述gmm累积分布函数的差值使损失函数最小化。

27、根据一种实现方式，优化可以是针对具有相应的不同高斯数量的gmm并行执行的。

28、根据一种实现方式，可以从具有不同高斯数量的优化gmm集中选择相对于码流中的所需位具有最小指示成本的gmm。

29、根据第三方面，提供了一种用于对编码信号进行解码的解码器，所述解码器包括：用于执行根据第一方面或其任一实现形式所述的对编码信号进行解码的方法的处理电路。

30、根据第四方面，提供了一种用于对信号进行编码的编码器，所述编码器包括：用于执行根据第二方面或其任一实现形式所述的对信号进行编码的方法的处理电路。

31、根据第五方面，提供了一种计算机程序，所述计算机程序包括指令，当所述程序由计算机执行时，所述指令使所述计算机执行根据第一方面或其任一实现形式所述的对编码信号进行解码的方法，或根据第二方面或其任一实现形式所述的对信号进行编码的方法。

32、根据第六方面，提供了一种计算机可读介质，所述计算机可读介质包括指令，当所述指令由计算机执行时，所述指令使所述计算机执行根据第一方面或其任一实现形式所述的对编码信号进行解码的方法，或根据第二方面或其任一实现形式所述的对信号进行编码的方法。

33、根据第七方面，提供了一种码流，所述码流包括：用一个或多个高斯混合模型(gaussian mixture model，gmm)进行编码的熵编码信号；gmm参数。

34、根据一种实现方式，所述码流可以包括：所述gmm参数中的一个或多个gmm参数的控制信息。

35、根据一种实现方式，控制信息可以包括以下中的至少一个：(a)gmm模式，所述gmm模式指示信道与gmm数量之间的关系，特别是以下gmm模式之一：每个信道一个gmm、所有信道一个gmm、或所有信道一个特定数量的gmm；(b)gmm数量；(c)用于将一个或多个信道映射到gmm的一个或多个索引；(d)对gmm参数的缩放因子进行指示的一个或多个模式，每个模式是指示使用所述缩放因子的预定义值的第一模式、指示所述缩放因子将从所述码流进行熵解码的第二模式、指示所述缩放因子的2的幂的指数将从所述码流进行解码的第三模式中的一个；(e)gmm参数的一个或多个缩放系数；(f)对gmm参数的限幅值进行指示的一个或多个模式，每个模式是指示使用所述限幅值的预定义值的第一模式、指示所述限幅值将从所述码流进行熵解码的第二模式、指示所述限幅值的2的幂的指数将从所述码流进行解码的第三模式中的一个；(g)gmm参数的一个或多个限幅值；(h)每个gmm的高斯数量。

36、根据一种实现方式，针对每个高斯，gmm参数可以包括：均值、标准差和/或权重。