技术新讯 > 计算推算,计数设备的制造及其应用技术 > 实现低复杂度的基于神经网络的处理的方法或装置与流程 > 正文

实现低复杂度的基于神经网络的处理的方法或装置与流程

国知局
2024-12-26 15:11:32

本实施例中的至少一个一般涉及用于视频编码或解码的方法或装置，更具体地说，涉及对输入数据张量应用低复杂度的基于神经网络的处理以生成输出数据张量的方法或装置。

背景技术：

1、为了实现高压缩效率，图像和视频编码方案通常采用预测(包括运动矢量预测)和变换来利用视频内容中的空间和时间冗余。通常，使用帧内或帧间预测来利用帧内或帧间相关性，然后对原始图像和预测图像之间的差异(通常表示为预测误差或预测残差)进行变换、量化和熵编码。为了重构视频，压缩数据通过与熵编码、量化、变换和预测对应的逆过程进行解码。

2、最近探索的高压缩技术新增包括基于神经网络的处理。这种基于神经网络的处理的缺点是处理可能不可复现、处理复杂(由于运算数量或运算本身的性质)、要存储的数据量巨大。因此，有必要提供一种允许完全可复现的处理且优化内存效率和计算能力的神经网络的实现。因此，需要改进现有技术。

技术实现思路

1、通过本文描述的一般方面解决和克服了现有技术的缺点和不足。

2、根据第一方面，提供一种方法。该方法包括：获得代表数据样本的输入数据张量；以及对输入数据张量应用基于神经网络的处理以生成输出数据张量。根据特定特征，基于神经网络的处理包括多个处理层，其中每个处理层生成中间张量。至少一个处理层被表示为输入数据张量和权重张量之间的张量积，并且至少一个处理层被表示为偏置张量的加算。有利的是，张量(例如输入数据张量、权重张量、偏置张量、中间张量和输出数据张量)的量化表示中的任一者的缩放因子都使用2的幂。

3、根据另一方面，提供一种方法。该方法包括通过根据所公开的任一实施例对输入数据张量应用基于神经网络的处理以生成输出数据张量来进行视频解码，其中输入数据张量的数据样本至少包括图像块样本。

4、根据另一方面，提供一种方法。该方法包括通过根据所公开的任一实施例对输入数据张量应用基于神经网络的处理以生成输出数据张量来进行视频编码，其中输入数据张量的数据样本至少包括图像块样本。

5、根据另一方面，提供一种装置。该装置包括一个或多个处理器，其中该一个或多个处理器配置成实施根据其任一变体的用于视频解码的方法。根据另一方面，用于视频解码的装置包括用于根据所公开的任一实施例对输入数据张量应用基于神经网络的处理以生成输出数据张量的装置。

6、根据另一方面，提供另一种装置。该装置包括一个或多个处理器，其中该一个或多个处理器配置成实施根据其任一变体的用于视频编码的方法。根据另一方面，用于视频编码的装置包括用于根据所公开的任一实施例对输入数据张量应用基于神经网络的处理以生成输出数据张量的装置。

7、根据至少一个实施例的另一个一般方面，提供一种设备，其包括：根据任一解码实施例的装置；以及以下中的至少一者：(i)配置成接收信号的天线，该信号包括视频块；(ii)配置成将接收的信号限制到包括视频块的频带的频带限制器；或(iii)配置成显示代表视频块的输出的显示器。

8、根据至少一个实施例的另一个一般方面，提供一种非暂时性计算机可读介质，其包含根据所述编码实施例或变体中的任一者生成的数据内容。

9、根据至少一个实施例的另一个一般方面，提供一种信号，其包含根据所述编码实施例或变体中的任一者生成的视频数据。

10、根据至少一个实施例的另一个一般方面，将比特流格式化以包含根据所述编码实施例或变体中的任一者生成的数据内容。

11、根据至少一个实施例的另一个一般方面，提供一种计算机程序产品，其包括指令，其中该指令在由计算机执行时使计算机执行所述编码/解码实施例或变体中的任一者。

12、一般方面的这些和其它方面、特征和优点将通过以下结合附图阅读的示例性实施例的详细描述变得显而易见。

技术特征：

1.一种计算机实施的方法，包括：

2.一种装置，包括存储器和一个或多个处理器，其中所述一个或多个处理器配置成：

3.根据权利要求1所述的方法或根据权利要求2所述的装置，其中通过所述缩放因子的、根据2的幂进行的移位来获得张量的量化表示。

4.根据权利要求1和3中任一项所述的方法或根据权利要求2和3中任一项所述的装置，其中所述输入数据张量的量化表示的偏移参数、所述权重张量的量化表示的偏移参数、所述偏置张量的量化表示的偏移参数、中间张量的量化表示的偏移参数以及所述输出数据张量的量化表示的偏移参数等于零。

5.根据权利要求1、3和4中任一项所述的方法或根据权利要求2-4中任一项所述的装置，其中表示所述偏置张量的加算的所述至少一个处理层与表示所述张量积的所述至少一个处理层融合。

6.根据权利要求5所述的方法或根据权利要求5所述的装置，其中通过以下方式来获得作为融合的张量积和偏置张量加算的结果的中间张量(t)：

7.根据权利要求6所述的方法或根据权利要求6所述的装置，其中在累加所述输入数据张量的量化表示与所述权重张量的量化表示的部分乘积之和(∑xiwij)时使用至少2个中间变量以避免溢出。

8.根据权利要求5-7中任一项所述的方法或根据权利要求5-7中任一项所述的装置，其中至少一个处理层包括激活层，所述激活层与表示融合的张量积和偏置张量加算的至少一个处理层融合。

9.根据权利要求8所述的方法或根据权利要求8所述的装置，

10.一种计算机实施的方法，包括对图像块进行解码，其中所述解码包括根据权利要求1和3-9中任一项所述对输入数据张量应用基于神经网络的处理以生成输出数据张量，并且其中所述数据样本至少包括图像块样本。

11.根据权利要求10所述的方法，其中所述数据样本还包括与所述图像块相关的其它信息。

12.一种计算机实施的方法，包括对图像块进行编码，其中所述编码包括根据权利要求1、3-9中任一项所述对输入数据张量应用基于神经网络的处理以生成输出数据张量，并且其中所述数据样本至少包括图像块样本。

13.根据权利要求12所述的方法，其中所述数据样本还包括与所述图像块相关的其它信息。

14.一种装置，包括存储器和一个或多个处理器，其中所述一个或多个处理器配置成通过根据权利要求1和3-9中任一项所述对输入数据张量应用基于神经网络的处理以生成输出数据张量来对图像块进行解码，并且其中所述数据样本至少包括图像块样本。

15.一种装置，包括存储器和一个或多个处理器，其中所述一个或多个处理器配置成通过根据权利要求1和3-9中任一项所述对输入数据张量应用基于神经网络的处理来编码图像块以生成输出数据张量，并且其中所述数据样本至少包括图像块样本。

16.一种非暂时性程序存储设备，所述非暂时性程序存储设备可由计算机读取，且有形地体现所述计算机可执行的指令程序，所述指令程序用于执行根据权利要求1和3-9中任一项所述的方法。

17.一种计算机实施的训练方法，包括：

18.一种装置，包括存储器和一个或多个处理器，其中所述一个或多个处理器配置成：

19.一种根据权利要求17所述的方法进行训练的经训练的机器学习模型。

技术总结提出了至少一种方法和装置，用于通过对输入数据张量应用基于神经网络的处理来生成输出数据张量，从而高效地对视频进行编码或解码。例如，将对所述张量的量化限制为按2的幂进行缩放。例如，将张量积层、偏置加法层和激活融合，以减少运算次数并增加用来表示值的可用位数。技术研发人员：F·加尔平,G·博伊松,P·博尔德斯,T·杜马斯受保护的技术使用者：交互数字CE专利控股有限公司技术研发日：技术公布日：2024/12/23