用于视频处理的方法、装置和介质与流程
- 国知局
- 2024-08-02 14:35:17
本公开的实施例总体涉及视频编解码技术,并且更具体地,涉及基于机器学习模型的编解码工具选择。
背景技术:
1、如今,数字视频功能正应用于人们生活的各个方面中。针对视频编码/解码,已经提出了多种类型的视频压缩技术,诸如mpeg-2、mpeg-4、itu-th.263、itu-th.264/mpeg-4第10部分高级视频编解码(avc)、itu-th.265高效视频编解码(hevc)标准、多功能视频编解码(vvc)标准。然而,传统视频编解码技术的编解码效率通常非常低,这是不希望的。
技术实现思路
1、本公开的实施例提供了一种用于视频处理的方案。
2、在第一方面,提出了一种用于视频处理的方法。该方法包括:在视频的目标视频块与所述视频的比特流之间的转换期间,通过使用机器学习模型确定针对所述目标视频块的目标编解码工具;以及通过使用所述目标编解码工具执行所述转换。
3、根据本公开的第一方面的方法在编解码工具的确定中利用机器学习模型。与在选择编解码工具时不考虑机器学习滤波器的传统方案相比,所提出的方法可以选择更合适的编解码工具。这样可以提高编解码效果和编解码效率。
4、在第二方面,提出了一种用于处理视频数据的装置。用于处理视频数据的装置包括处理器和其上具有指令的非暂态存储器,其中指令在由处理器执行时使得处理器执行根据第一方面的方法。
5、在第三方面,提出了一种用于处理视频数据的装置。非暂态计算机可读存储介质存储使处理器执行根据第一方面的方法的指令。
6、在第四方面,提出了一种非暂态计算机可读记录介质。该非暂态计算机可读记录介质存储有视频的由视频处理装置执行的方法所产生的比特流,其中该方法包括:通过使用机器学习模型确定所述视频的目标视频块的目标编解码工具;以及通过使用所述目标编解码工具生成比特流。
7、在第五方面,提出了一种用于存储视频的比特流的方法。该方法包括:通过使用机器学习模型确定所述视频的目标视频块的目标编解码工具;通过使用所述目标编解码工具生成比特流;以及在非暂态计算机可读记录介质中存储比特流。
8、提供本技术实现要素:是为了以简化的形式介绍以下在具体实施例中进一步描述的概念的选择。本发明内容不旨在标识所要求保护的主题的关键特征或基本特征,也不旨在用于限制所要求保护主题的范围。
技术特征:1.一种用于视频处理的方法,包括:
2.根据权利要求1所述的方法,其中在确定所述目标编解码工具期间,所述机器学习模型被用于神经网络(nn)滤波。
3.根据权利要求1或权利要求2所述的方法,其中所述机器学习模型是由所述转换期间使用的编码器获得的。
4.根据权利要求1-3任一项所述的方法,其中确定所述目标编解码工具包括:
5.根据权利要求1-4中任一项所述的方法,其中所述机器学习模型不是由所述转换期间使用的解码器获得的。
6.根据权利要求1-5中任一项所述的方法,其中所述机器学习模型包括以下至少一项:
7.根据权利要求1-6中任一项所述的方法,其中不同于所述机器学习模型的另一模型由所述转换期间使用的编码器获得。
8.根据权利要求7所述的方法,其中所述机器学习模型与所述另一模型相结合。
9.根据权利要求7所述的方法,其中所述机器学习模型在所述另一模型之前或之后被应用。
10.根据权利要求7-9中任一项所述的方法,其中所述另一模型包括以下至少一项:
11.根据权利要求7-10中任一项所述的方法,还包括:
12.根据权利要求11所述的方法,其中所述滤波顺序包括如下顺序:
13.根据权利要求11或权利要求12所述的方法,其中所述滤波顺序是预定义的。
14.根据权利要求11或权利要求12所述的方法,还包括:
15.根据权利要求7-14中任一项所述的方法,还包括:
16.根据权利要求15所述的方法,其中所述第一信息包括以下至少一项:
17.根据权利要求14-16中任一项所述的方法,其中所述编解码信息包括以下至少一项:
18.根据权利要求14-17中任一项所述的方法,其中所述编解码信息包括以下至少一项:
19.根据权利要求1-18中任一项所述的方法,其中确定所述目标编解码工具包括:
20.根据权利要求1-19任一项所述的方法,其中通过使用所述机器学习模型确定所述目标编解码工具包括以下至少一项:
21.根据权利要求20所述的方法,其中确定所述目标经编解码的帧内工具包括:
22.根据权利要求20所述的方法,其中确定所述目标帧间模式包括:
23.根据权利要求20所述的方法,其中确定所述目标经编解码的帧间工具包括:
24.根据权利要求20所述的方法,其中确定所述目标划分模式包括:
25.根据权利要求20所述的方法,其中确定所述目标经编解码工具包括:
26.根据权利要求25所述的方法,其中:
27.根据权利要求1-26中任一项所述的方法,其中确定所述目标编解码工具包括:
28.根据权利要求27所述的方法,其中所述第一失真利用以下之一被确定:
29.根据权利要求1-26中任一项所述的方法,还包括:
30.根据权利要求29所述的方法,其中所述第一矩阵包括绝对差总和(sad)矩阵或绝对变换差总和(satd)矩阵。
31.根据权利要求1-30任一项所述的方法,其中通过使用所述机器学习模型确定所述目标编解码工具包括:
32.根据权利要求31所述的方法,其中所述第二失真包括所述目标视频块的成本。
33.根据权利要求31或权利要求32所述的方法,其中所述第二失真度利用以下之一被确定:
34.根据权利要求31-33中任一项所述的方法,其中确定所述第二失真包括:
35.根据权利要求34所述的方法,其中基于所述第三失真确定所述第二失真包括:
36.根据权利要求34所述的方法,其中基于所述第三失真确定所述第二失真包括:
37.根据权利要求36所述的方法,其中基于所述第三失真和所述第四失真确定所述第二失真包括:
38.根据权利要求31-33中任一项所述的方法,其中确定所述第二失真包括:
39.根据权利要求38所述的方法,其中所述至少一个滤波模型包括以下至少一项:
40.根据权利要求38或权利要求39所述的方法,其中基于所述第五失真和所述至少一个失真确定所述第二失真包括:
41.根据权利要求31-33中任一项所述的方法,其中确定所述第二失真包括:
42.根据权利要求39或权利要求41所述的方法,其中所述另一模型包括以下至少一项:
43.根据权利要求41所述的方法,其中所述另一模型在所述机器学习模型之前被应用于所述重建样本。
44.根据权利要求41或权利要求43所述的方法,其中基于所述第六失真和所述第七失真确定所述第二失真包括:
45.根据权利要求31-33中任一项所述的方法,其中确定所述第二失真包括:
46.根据权利要求45所述的方法,其中所述因子包括预定范围内的常数。
47.根据权利要求46所述的方法,其中所述预定范围包括0与1.0之间的范围。
48.根据权利要求45的方法,还包括:
49.根据权利要求1-48中任一项所述的方法,其中在确定所述目标编解码工具期间,滤波过程通过使用所述机器学习模型被应用于所述目标视频块的重建样本。
50.根据权利要求49所述的方法,其中所述滤波过程不同于应用于所述目标视频块的环路内滤波过程或后处理过程。
51.根据权利要求50所述的方法,其中在所述滤波过程中使用的所述机器学习模型不同于在所述环路内滤波过程或所述后处理过程中使用的另一滤波模型。
52.根据权利要求51所述的方法,其中在所述滤波过程中使用的机器学习模型的第一数目不同于在所述环路内滤波过程或所述后处理过程中使用的另外的滤波模型的第二数目。
53.根据权利要求51或权利要求52所述的方法,其中所述机器学习模型的第一网络结构不同于所述另一滤波模型的第二网络结构。
54.根据权利要求49-53中任一项所述的方法,其中所述滤波处理被应用于所述目标视频块的子区域。
55.根据权利要求54所述的方法,其中所述目标视频块的所述子区域包括以下至少一项:
56.根据权利要求49-55中任一项所述的方法,其中所述滤波过程被应用于所述目标视频块的下采样版本。
57.根据权利要求1-56中任一项所述的方法,其中所述机器学习模型与在所述转换期间使用的解码器获得的另一机器学习模型相同。
58.根据权利要求57所述的方法,其中所述机器学习模型的残差块的第一数目与所述另外的机器学习模型的残差块的第二数目相同。
59.根据权利要求1-56中任一项所述的方法,其中所述机器学习模型不同于由在所述转换期间使用的解码器获得的另一机器学习模型。
60.根据权利要求59所述的方法,其中所述机器学习模型比所述另一机器学习模型更简单。
61.根据权利要求59或权利要求60所述的方法,其中所述机器学习模型的第一深度不同于所述另一机器学习模型的第二深度。
62.根据权利要求61所述的方法,其中所述第一深度比所述第二深度浅。
63.根据权利要求59-62中任一项所述的方法,其中所述机器学习模型的第一特征图不同于所述另一机器学习模型的第二特征图。
64.根据权利要求59-63中任一项所述的方法,其中所述机器学习模型的特征图的第一数目小于所述另一机器学习模型的特征图的第二数目。
65.根据权利要求59-64中任一项所述的方法,其中所述机器学习模型的残差块的第一数目不同于所述另一机器学习模型的残差块的第二数目。
66.根据权利要求65所述的方法,其中所述机器学习模型的残差块的所述第一数目小于所述另一机器学习模型的残差块的所述第二数目。
67.根据权利要求65或权利要求66所述的方法,其中残差块的所述第一数目包括以下之一:1、2、3、4、5或6。
68.根据权利要求59-67中任一项所述的方法,其中所述机器学习模型的第一卷积核不同于所述另一机器学习模型的第二卷积核。
69.根据权利要求1-68中任一项所述的方法,还包括:
70.根据权利要求69所述的方法,其中所述第二信息包括以下至少一项:
71.根据权利要求69或权利要求70所述的方法,其中所述编解码信息包括以下至少一项:
72.根据权利要求69-71中任一项所述的方法,其中所述编解码信息包括以下至少一项:
73.根据权利要求69-72中任一项所述的方法,其中所述编解码信息包括以下至少一项:
74.根据权利要求1-73中任一项所述的方法,其中所述转换包括将所述目标视频块编码到所述比特流中。
75.根据权利要求1-73中任一项所述的方法,其中所述转换包括从所述比特流解码所述目标视频块。
76.一种用于处理视频数据的装置,包括处理器和在其上具有指令的非暂态存储器,其中所述指令在由所述处理器执行时使所述处理器执行根据权利要求1-75中任一项所述的方法。
77.一种非暂态计算机可读存储介质,存储使处理器执行根据权利要求1-75中任一项所述的方法的指令。
78.一种非暂态计算机可读记录介质,存储视频的通过由视频处理装置执行的方法生成的比特流,其中所述方法包括:
79.一种用于存储视频的比特流的方法,包括:
技术总结本公开的实施例提供了一种用于视频处理的方案。提出了一种用于视频处理的方法。该方法包括:在视频的目标视频块与视频的比特流之间的转换期间,通过使用机器学习模型确定针对目标视频块的目标编解码工具;以及通过使用目标编解码工具执行转换。通过在选择编解码工具时考虑机器学习模型,可以选择更合适的编解码工具。这样可以提高编解码性能。技术研发人员:李俊儒,李跃,张凯,张莉受保护的技术使用者:抖音视界有限公司技术研发日:技术公布日:2024/7/25本文地址:https://www.jishuxx.com/zhuanli/20240801/243272.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。