用于数据处理的方法、装置和介质与流程
- 国知局
- 2024-11-25 15:57:48
本公开的实施例一般涉及数据处理技术,更具体地,涉及用于数据编解码的基于变换器的概率建模。
背景技术:
1、图像/视频压缩是以无损或有损的方式降低图像/视频传输和存储成本的重要技术。图像/视频压缩技术可分为两个分支,经典视频编解码方法和基于神经网络的视频压缩方法。经典视频编解码方案采用基于变换的解决方案,其中研究者通过仔细地手动设计熵代码建模量化域中的依赖性来利用隐变量(例如,小波系数)中的统计依赖性。基于神经网络的视频压缩有两种形式:基于神经网络的编解码工具和基于端到端神经网络的视频压缩。基于神经网络的编解码工具被嵌入到现有经典视频编解码器中作为编码工具并且仅用作框架的一部分,而基于端到端神经网络的视频压缩是基于神经网络开发的单独框架,不依赖于经典视频编解码器。图像/视频编解码的编解码效率通常期望得到进一步提高。
技术实现思路
1、本公开的实施例提供用于数据处理的方案。
2、在第一方面,提出了一种用于数据处理的方法。该方法包括:在数据与数据的比特流之间的转换期间,通过使用具有注意力机制的第一模型,确定针对与比特流相关联的熵编解码的概率分布;以及基于概率分布执行转换。
3、根据本公开的第一方面的方法,通过使用具有注意力机制的第一模型来获得针对熵编解码的概率分布。与传统的基于卷积的解决方案相比,第一模型可以额外捕获经量化的隐量之间的长程相关性。利用同时捕获经量化的隐量之间的长程和短程相关性的能力,第一模型具有比基于卷积的解决方案更好的感受野。因此,所提出的方法可以有利地提高编解码效率。
4、在第二方面,提出了一种用于数据处理的装置。该装置包括处理器和其上具有指令的非暂态存储器。指令在由处理器执行时使处理器执行根据本公开的第一方面的方法。
5、在第三方面,提出了一种非暂态计算机可读存储介质。非暂态计算机可读存储介质存储有指令,指令使处理器执行根据本公开的第一方面的方法。
6、在第四方面,提出了另一种非暂态计算机可读记录介质。该非暂态计算机可读记录介质存储由用于数据处理的装置执行的方法生成的数据比特流。方法包括:通过使用具有注意力机制的第一模型,确定针对与比特流相关联的熵编解码的概率分布;以及基于概率分布生成比特流。
7、在第五方面,提出一种用于存储数据的比特流的方法。该方法包括:通过使用具有注意力机制的第一模型,确定针对与比特流相关联的熵编解码的概率分布;基于概率分布生成比特流;以及将比特流存储在非暂态计算机可读记录介质中。
8、本技术实现要素:旨在以简化的形式介绍下面在详细描述中进一步描述的概念选择。本发明内容不旨在识别所要求保护的主题的关键特征或基本特征,也不旨在用于限制所要求保护的主题的范围。
技术特征:1.一种数据处理方法,包括:
2.根据权利要求1所述的方法,其中所述第一模型包括变换器模型或变换器上下文模型。
3.根据权利要求1-2中任一项所述的方法,其中所述概率分布是通过使用所述第一模型与自回归模型和超先验模型的组合来确定的。
4.根据权利要求3所述的方法,其中确定所述概率分布包括:
5.根据权利要求4所述的方法,其中所述概率分布是通过使用与所述第一模型不同的另一模型生成的。
6.根据权利要求3所述的方法,其中确定所述概率分布包括:
7.根据权利要求6所述的方法,其中所述概率分布由另一模型基于所述中间信息和所述第二输出生成。
8.根据权利要求6所述的方法,其中所述概率分布是通过直接组合所述中间信息和所述第二输出来生成的。
9.根据权利要求3所述的方法,其中确定所述概率分布包括:
10.根据权利要求9所述的方法,其中所述概率分布由另一模型基于所述中间信息和所述第一输出生成。
11.根据权利要求10所述的方法,其中所述概率分布是通过直接组合所述中间信息和所述第一输出来生成的。
12.根据权利要求3所述的方法,其中确定所述概率分布包括:
13.根据权利要求12所述的方法,其中所述另一模型的输入包括以下至少一项:
14.根据权利要求1-13中任一项所述的方法,其中关于所述概率分布是否通过使用所述第一模型与自回归模型和超先验模型的组合来确定的信息在所述比特流中被指示。
15.根据权利要求1-13中任一项所述的方法,其中关于所述概率分布是否通过使用所述第一模型与自回归模型和超先验模型的组合来确定的信息由解码器确定。
16.根据权利要求1-2中任一项所述的方法,其中所述概率分布是通过使用所述第一模型与超先验模型的组合来确定的。
17.根据权利要求16所述的方法,其中所述概率分布是通过使用所述第一模型基于所述数据的量化隐表示和所述超先验模型的输出来确定的。
18.根据权利要求16所述的方法,其中所述第一模型的输入包括所述数据的量化隐表示。
19.根据权利要求18所述的方法,其中所述概率分布是通过使用另一模型基于所述第一模型的输出和所述超先验模型的输出来确定的。
20.根据权利要求18所述的方法,其中所述概率分布作为所述第一模型的输出被确定。
21.根据权利要求1-2中任一项所述的方法,其中所述概率分布是通过使用所述第一模型与自回归模型的组合来确定的。
22.根据权利要求21所述的方法,其中所述概率分布是通过使用所述第一模型基于所述数据的量化隐表示和所述自回归模型的输出来确定的。
23.根据权利要求21所述的方法,其中所述第一模型的输入包括所述数据的量化隐表示。
24.根据权利要求23所述的方法,其中所述概率分布是通过使用另一模型基于所述第一模型的输出和所述自回归模型的输出来确定的。
25.根据权利要求23所述的方法,其中所述概率分布作为所述第一模型的输出被确定。
26.根据权利要求1-2中任一项所述的方法,其中所述第一模型的输入包括所述数据的量化隐表示。
27.根据权利要求26所述的方法,其中所述输入还包括另一模型的输出。
28.根据权利要求27所述的方法,其中所述另一模型的输入包括以下至少一项:
29.根据权利要求1-2中任一项所述的方法,其中关于所述第一模型是否用于替换自回归模型的信息在所述比特流中被指示,
30.根据权利要求1-2中任一项所述的方法,其中关于所述第一模型是否用于替换自回归模型的信息由解码器确定,
31.根据权利要求1-2中任一项所述的方法,其中所述概率分布是通过使用多个所述第一模型来确定的。
32.根据权利要求31所述的方法,确定所述概率分布包括:
33.根据权利要求32所述的方法,其中所述概率分布是基于所述第一候选概率分布和所述第二候选概率分布的加权和生成的,并且针对所述第一候选概率分布和所述第二候选概率分布的权重是基于可学习参数或隐信息确定的。
34.根据权利要求32所述的方法,其中所述概率分布由至少一个另外的模型生成。
35.根据权利要求31所述的方法,其中多个所述第一模型中的一个第一模型用于所述数据的量化隐表示的第一空间位置处的第一元素,并且多个所述第一模型中的另一第一模型用于所述量化隐表示的第二空间位置处的第二元素,所述第二元素空间位置不同于所述第一元素空间位置。
36.根据权利要求31所述的方法,其中关于待使用的所述第一模型的信息在所述比特流中被指示。
37.根据权利要求36所述的方法,其中所述信息是基于率失真(rd)损失估计来确定的。
38.根据权利要求36所述的方法,其中所述信息是基于隐信息确定的。
39.根据权利要求31所述的方法,其中关于待使用的所述第一模型的信息由解码器确定。
40.根据权利要求39所述的方法,其中所述信息是基于超先验信息确定的。
41.根据权利要求39所述的方法,其中所述信息是通过自回归模型来确定的。
42.根据权利要求39所述的方法,其中所述信息是通过超先验信息和自回归模型的组合来确定的。
43.根据权利要求1-2中任一项所述的方法,其中确定所述概率分布包括:
44.根据权利要求43所述的方法,其中确定所述上下文参数包括:
45.根据权利要求44所述的方法,其中执行所述注意力计算包括:
46.根据权利要求45所述的方法,其中所述关系以自回归方式被确定。
47.根据权利要求44-46中任一项所述的方法,其中用于执行所述注意力计算的查询、键和值基于所述量化隐表示被确定。
48.根据权利要求47所述的方法,其中所述查询通过使用第一子网络基于所述量化隐表示来确定,
49.根据权利要求47所述的方法,其中所述查询、所述键和所述值中的每项是所述量化隐表示。
50.根据权利要求45-49中任一项所述的方法,其中所述关系由关系矩阵表示,并且掩码被应用在所述关系矩阵以用于生成所述结果。
51.根据权利要求50所述的方法,其中严格下三角矩阵被用于生成所述结果。
52.根据权利要求51所述的方法,其中所述掩码是所述严格下三角矩阵。
53.根据权利要求51所述的方法,其中所述掩码是所述严格下三角矩阵的子集。
54.根据权利要求50所述的方法,其中下三角矩阵被用于生成所述结果,并且所述关系矩阵的对角线上的元素在所述比特流中被指示。
55.根据权利要求54所述的方法,其中所述掩码是所述下三角矩阵。
56.根据权利要求54所述的方法,其中所述掩码是所述下三角矩阵的子集。
57.根据权利要求50所述的方法,其中下三角矩阵被用于生成所述结果,并且所述关系矩阵的对角线上的元素被设置为对通道维度的查询的和。
58.根据权利要求57所述的方法,其中所述掩码是所述下三角矩阵。
59.根据权利要求57所述的方法,其中所述掩码是所述下三角矩阵的子集。
60.根据权利要求50所述的方法,其中下三角矩阵被用于生成所述结果,并且所述关系矩阵的对角线上的元素基于附加信息被确定。
61.根据权利要求60所述的方法,其中所述掩码是所述下三角矩阵。
62.根据权利要求60所述的方法,其中所述掩码是所述下三角矩阵的子集。
63.根据权利要求60-62中任一项所述的方法,其中所述附加信息包括自回归模型的输出或超先验模型的输出中的至少一项。
64.根据权利要求50所述的方法,其中完整的所述关系矩阵被用于生成所述结果,并且所述关系矩阵的上三角部分的元素基于附加信息被确定。
65.根据权利要求64所述的方法,其中所述附加信息包括自回归模型的输出或超先验模型的输出中的至少一项。
66.根据权利要求44-65中任一项所述的方法,其中多个注意力模块被用于执行所述注意力计算。
67.根据权利要求66所述的方法,其中所述多个注意力模块中的一个注意力模块的输出被确定为所述注意力计算的所述结果。
68.根据权利要求66所述的方法,其中所述注意力计算的所述结果是通过对所述多个注意力模块的输出执行聚合处理来生成的。
69.根据权利要求68所述的方法,其中所述聚合过程包括在通道域或空间域中的拼接。
70.根据权利要求68所述的方法,其中所述聚合过程包括线性运算。
71.根据权利要求70所述的方法,其中所述线性运算包括加法或减法。
72.根据权利要求45-46中任一项所述的方法,其中用于执行所述注意力计算的键和值基于所述量化隐表示来确定,并且用于执行所述注意力计算的查询基于附加信息来确定。
73.根据权利要求72所述的方法,其中所述附加信息基于超先验模型的输出或自回归模型的输出中的至少一项来确定。
74.根据权利要求72-73中任一项所述的方法,其中所述查询是通过使用第一子网络基于所述附加信息来确定的,
75.根据权利要求72-73中任一项所述的方法,其中所述查询是所述附加信息,并且所述键和所述值中的每一项是所述量化隐表示。
76.根据权利要求72-75中任一项所述的方法,其中所述关系由关系矩阵表示,并且掩码被应用于所述关系矩阵以用于生成所述结果。
77.根据权利要求76所述的方法,其中严格三角矩阵被用于生成所述结果。
78.根据权利要求77所述的方法,其中所述严格三角矩阵是严格下三角矩阵,并且所述掩码是所述严格下三角矩阵。
79.根据权利要求77所述的方法,其中所述严格三角矩阵是严格下三角矩阵,并且所述掩码是所述严格下三角矩阵的子集。
80.根据权利要求76所述的方法,其中三角矩阵被用于生成所述结果,并且所述关系矩阵的对角线上的元素基于所述查询的自相关来确定。
81.根据权利要求80所述的方法,其中所述三角矩阵是下三角矩阵,并且所述掩码是所述下三角矩阵。
82.根据权利要求80所述的方法,其中所述三角矩阵是下三角矩阵,并且所述掩码是所述下三角矩阵的子集。
83.根据权利要求76所述的方法,其中整个所述关系矩阵被用于生成所述结果,并且所述关系矩阵的上三角部分的元素基于将附加信息用作所述查询和所述键来确定。
84.根据权利要求76所述的方法,其中所述关系矩阵的子集被用于生成所述结果,并且所述关系矩阵的上三角部分的元素基于将附加信息用作所述查询和所述键来确定。
85.根据权利要求72-84中任一项所述的方法,其中多个注意力模块被用于执行所述注意力计算。
86.根据权利要求85所述的方法,其中所述多个注意力模块中的一个注意力模块的输出被确定为所述注意力计算的所述结果。
87.根据权利要求85所述的方法,其中所述注意力计算的所述结果是通过对所述多个注意力模块的输出执行聚合处理来生成的。
88.根据权利要求87所述的方法,其中所述聚合过程包括在通道域或空间域中的拼接。
89.根据权利要求87所述的方法,其中所述聚合过程包括线性运算。
90.根据权利要求89所述的方法,其中所述线性运算包括加法或减法。
91.根据权利要求1-90中任一项所述的方法,其中所述转换通过使用具有所述注意力机制的第二模型来执行。
92.根据权利要求91所述的方法,其中所述第二模型包括变换器模型。
93.根据权利要求91所述的方法,其中与用于执行所述转换的所述数据相关联的预测通过使用所述第二模型来确定。
94.根据权利要求93所述的方法,其中所述预测包括帧内预测或帧间预测中的至少一项。
95.根据权利要求91-94中任一项所述的方法,其中与用于执行所述转换的所述数据相关联的运动信息通过使用所述第二模型来确定。
96.根据权利要求95所述的方法,其中所述运动信息包括运动矢量、光流或隐运动信息中的至少一项。
97.根据权利要求91-96中任一项所述的方法,其中所述数据包括多个帧,并且所述第二模型的输入包括所述多个帧中的经编解码帧。
98.根据权利要求1-97中任一项所述的方法,其中所述数据包括以下至少一项:
99.根据权利要求1-98中任一项所述的方法,其中所述转换包括将所述数据编码到所述比特流中。
100.根据权利要求1-98中任一项所述的方法。其中所述转换包括从所述比特流解码所述数据。
101.一种用于数据处理的装置,包括处理器和其上具有指令的非暂态存储器,所述指令在由所述处理器执行时使所述处理器执行根据权利要求1-100中任一项所述的方法。
102.一种非暂态计算机可读存储介质,存储指令,所述指令使处理器执行根据权利要求1-100中任一项所述的方法。
103.一种非暂态计算机可读记录介质,存储数据的比特流,所述比特流由用于数据处理的装置执行的方法生成,其中所述方法包括:
104.一种用于存储数据的比特流的方法,包括:
技术总结本公开的实施例提供一种数据处理方案。提出了一种用于数据处理的方法。该方法包括:在数据与数据的比特流之间的转换期间,通过使用具有注意力机制的第一模型来确定针对与比特流相关联的熵编解码的概率分布;以及基于概率分布执行转换。技术研发人员:吴耀军,李跃,张召宾,S·艾森力克,张凯,张莉受保护的技术使用者:抖音视界有限公司技术研发日:技术公布日:2024/11/21本文地址:https://www.jishuxx.com/zhuanli/20241125/339451.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。