技术新讯 > 电子通信装置的制造及其应用技术 > 用于视频处理的方法、装置和介质与流程 > 正文

用于视频处理的方法、装置和介质与流程

国知局
2024-08-02 14:03:39

本公开的实施例总体涉及视频编解码技术，并且更具体地，涉及使用机器学习模型的率失真优化(rdo)过程。

背景技术：

1、如今，数字视频功能正应用于人们生活的各个方面中。针对视频编码/解码，已经提出了多种类型的视频压缩技术，诸如mpeg-2、mpeg-4、itu-th.263、itu-th.264/mpeg-4第10部分高级视频编解码(avc)、itu-th.265高效视频编解码(hevc)标准、多功能视频编解码(vvc)标准。然而，传统视频编解码技术的编解码效率通常非常低，这是不希望的。

技术实现思路

1、本公开的实施例提供了一种用于视频处理的方案。

2、在第一方面，提出了一种用于视频处理的方法。该方法包括：在视频的目标视频块与视频的比特流之间的转换期间，至少部分地基于以下中的至少一个失真来确定针对目标视频块的失真度量：根据机器学习模型集合的目标视频块的经滤波失真集合，或者在不使用机器学习模型集合的情况下确定的目标视频块的第二失真；基于失真度量来确定关于在对目标视频块的率失真优化(rdo)过程中使用机器学习模型集合的信息；以及基于信息执行转换。

3、根据本公开的第一方面的方法基于目标视频块的失真来确定如何在rdo过程中使用机器学习模型。与在rdo过程中不考虑机器学习滤波器的常规方案相比，所提出的方法能够改进rdo过程。由此，编解码有效性和编解码效率能够得到提升。

4、在第二方面，提出了另一种用于视频处理的方法。该方法包括：在视频的目标视频块与视频的比特流之间的转换期间，基于与目标视频块相关联的第一信息或与目标视频块的邻近块相关联的第二信息中的至少一个，根据机器学习模型，对目标视频块执行滤波过程；通过基于滤波过程对目标视频块执行率失真优化(rdo)过程来确定目标编解码工具；以及通过使用目标编解码工具执行转换。

5、根据本公开的第二方面的方法基于根据机器学习模型对目标视频块执行滤波过程并且基于此种执行来执行rdo过程。由此，编解码有效性和编解码效率能够得到提升。

6、在第三方面，提出了另一种用于视频处理的方法。该方法包括：在视频的目标视频块与视频的比特流之间的转换期间，基于目标视频块的编解码信息确定关于在对目标视频块的率失真优化(rdo)过程中使用机器学习模型的信息；通过基于信息对目标视频块执行rdo过程来确定用于目标视频块的目标编解码工具；以及通过使用目标编解码工具执行转换。

7、根据本公开的第三方面的方法基于目标视频块的编解码信息确定如何在rdo过程中使用机器学习模型。与在rdo过程中不考虑机器学习滤波器的常规方案相比，所提出的方法能够改进rdo过程。由此，编解码有效性和编解码效率能够得到提升。

8、在第四方面，提出了一种用于处理视频数据的装置。用于处理视频数据的装置包括处理器和其上具有指令的非暂态存储器，其中指令在由处理器执行时使得处理器执行根据第一方面、第二方面、或第三方面的方法。

9、在第五方面，提出了一种用于处理视频数据的装置。非暂态计算机可读存储介质存储使处理器执行根据第一方面、第二方面、或第三方面的方法的指令。

10、在第六方面，提出了一种非暂态计算机可读记录介质。该非暂态计算机可读记录介质存储有视频的由视频处理装置执行的方法所产生的比特流，其中该方法包括：至少部分地基于以下中的至少一个失真来确定针对视频的目标视频块的失真度量：根据机器学习模型集合的目标视频块的经滤波失真集合，或者在不使用机器学习模型集合的情况下确定的目标视频块的第二失真；基于失真度量来确定关于在对目标视频块的率失真优化(rdo)过程中使用机器学习模型集合的信息；以及基于信息生成比特流。

11、在第七方面，提出了一种用于存储视频的比特流的方法。该方法包括：至少部分地基于以下中的至少一个失真来确定针对视频的目标视频块的失真度量：根据机器学习模型集合的目标视频块的经滤波失真集合，或者在不使用机器学习模型集合的情况下确定的目标视频块的第二失真；基于失真度量来确定关于在对目标视频块的率失真优化(rdo)过程中使用机器学习模型集合的信息；基于信息生成比特流；以及在非暂态计算机可读记录介质中存储比特流。

12、在第八方面，提出了另一种非暂态计算机可读记录介质。非暂态计算机可读记录介质存储有由视频处理装置执行的方法所生成的视频的比特流，其中该方法包括：基于与视频的目标视频块相关联的第一信息或与目标视频块的邻近块相关联的第二信息中的至少一个，根据机器学习模型，对目标视频块执行滤波过程；通过基于滤波过程对目标视频块执行率失真优化(rdo)过程来确定目标编解码工具；以及通过使用目标编解码工具来生成比特流。

13、在第九方面，提出了另一种用于存储视频的比特流的方法。该方法包括：基于与视频的目标视频块相关联的第一信息或与目标视频块的邻近块相关联的第二信息中的至少一个，根据机器学习模型，对目标视频块执行滤波过程；通过基于滤波过程对目标视频块执行率失真优化(rdo)过程来确定目标编解码工具；通过使用目标编解码工具来生成比特流；以及在非暂态计算机可读记录介质中存储比特流。

14、在第十方面，提出了另一种非暂态计算机可读记录介质，存储有由视频处理装置执行的方法所生成的视频的比特流，其中该方法包括：基于视频的目标视频块的编解码信息确定关于在对目标视频块的率失真优化(rdo)过程中使用机器学习模型的信息；通过基于信息对目标视频块执行rdo过程来确定用于目标视频块的目标编解码工具；以及通过使用目标编解码工具来生成比特流。

15、在第十一方面，提出了另一种用于存储视频的比特流的方法。该方法包括：基于视频的目标视频块的编解码信息确定关于在对目标视频块的率失真优化(rdo)过程中使用机器学习模型的信息；通过基于信息对目标视频块执行rdo过程来确定用于目标视频块的目标编解码工具；通过使用目标编解码工具来生成比特流；以及在非暂态计算机可读记录介质中存储比特流。

16、提供本技术实现要素：是为了以简化的形式介绍以下在具体实施例中进一步描述的概念的选择。本发明内容不旨在标识所要求保护的主题的关键特征或基本特征，也不旨在用于限制所要求保护主题的范围。

技术特征：

1.一种用于视频处理的方法，包括：

2.根据权利要求1所述的方法，其确定所述失真度量包括：

3.根据权利要求1所述的方法，其确定所述失真度量包括：

4.根据权利要求1所述的方法，其确定所述失真度量包括：

5.根据权利要求4所述的方法，其中获得所述失真度量包括：

6.根据权利要求5所述的方法，其中：

7.根据权利要求4所述的方法，其中获得所述失真度量包括：

8.根据权利要求7所述的方法，其中所述第一权重和所述第二权重包括1。

9.根据权利要求6或7所述的方法，还包括：

10.根据权利要求9所述的方法，其中所述编解码配置包括以下中的至少一个：全帧内、随机接入、低延迟b或低延迟p。

11.根据权利要求2-10中任一项所述的方法，还包括：

12.根据权利要求11所述的方法，其中所述索引包括：1、2或3中的一个。

13.根据权利要求2-10中任一项所述的方法，还包括：

14.根据权利要求2-10中任一项所述的方法，其中所述第一失真与所述机器学习模型集合中的默认机器学习模型相关联。

15.根据权利要求1所述的方法，其确定所述失真度量包括：

16.根据权利要求15所述的方法，其中所述第三权重包括1.0、0.9或1.1中的一个。

17.根据权利要求15或16所述的方法，还包括：

18.根据权利要求17所述的方法，其中所述编解码配置包括以下中的至少一个：全帧内、随机接入、低延迟b或低延迟p。

19.根据权利要求1所述的方法，其确定所述失真度量包括：

20.根据权利要求19所述的方法，其中获得所述失真度量包括：

21.根据权利要求19所述的方法，其中获得所述失真度量包括：

22.根据权利要求19所述的方法，其中获得所述失真度量包括：

23.根据权利要求22所述的方法，还包括：

24.根据权利要求19-23中任一项所述的方法，其中所述子集中的一定数目的经滤波失真包括默认值。

25.根据权利要求24所述的方法，其中所述默认值包括0、1、2、3或4中的一个。

26.根据权利要求19-23中任一项所述的方法，其中从所述经滤波失真集合确定所述子集包括：

27.根据权利要求26所述的方法，其中所述编解码信息包括以下中的至少一个：

28.根据权利要求1-27中任一项所述的方法，还包括：

29.根据权利要求1-28中任一项所述的方法，还包括：

30.根据权利要求1-28中任一项所述的方法，还包括：

31.根据权利要求30所述的方法，其中在所述机器学习模型集合之前应用所述滤波器集合中的至少一个。

32.根据权利要求30所述的方法，其中在所述滤波器集合中的至少一个之后使用所述机器学习模型集合。

33.根据权利要求30-32中任一项所述的方法，其确定所述第二失真包括：

34.根据权利要求30-32中任一项所述的方法，其确定所述第二失真包括：

35.根据权利要求30-34中任一项所述的方法，其中所述滤波器集合包括以下中的至少一个：

36.根据权利要求1-35中任一项所述的方法，其中所述信息包括以下中的至少一个：

37.根据权利要求1-36中任一项所述的方法，其中执行所述转换包括：

38.根据权利要求37所述的方法，其确定所述目标编解码工具包括：

39.根据权利要求1-38中任一项所述的方法，其中所述rdo过程用于确定以下目标编解码工具中的至少一个：

40.根据权利要求1-39中任一项所述的方法，其中所述机器学习模型集合中的一个包括以下中的至少一个：

41.一种用于视频处理的方法，包括：

42.根据权利要求41所述的方法，其中所述第一信息包括以下中的至少一个：

43.根据权利要求41或42所述的方法，其中所述第一信息包括来自所述目标视频块的至少一个参考帧的参考信息。

44.根据权利要求41-43中任一项所述的方法，其中所述第一信息包括以下中的至少一个：

45.根据权利要求41-43中任一项所述的方法，其中所述第一信息包括所述目标视频块的来自所述目标视频块的至少一个运动补偿参考块的参考信息。

46.根据权利要求41-45中任一项所述的方法，其中所述第二信息包括以下中的至少一个：

47.根据权利要求41-46中任一项所述的方法，其中所述邻近块位于以下位置中的至少一个处：

48.根据权利要求41-47中任一项所述的方法，其中所述邻近块的样本包括所述邻近块的未经重构的原始样本。

49.根据权利要求41-47中任一项所述的方法，还包括：

50.根据权利要求41-47中任一项所述的方法，还包括：

51.根据权利要求41-50中任一项所述的方法，其中所述机器学习模型包括以下中的至少一个：

52.一种用于视频处理的方法，包括：

53.根据权利要求52所述的方法，其中所述信息包括以下中的至少一个：

54.根据权利要求52或53所述的方法，其中所述编解码信息包括以下中的至少一个：

55.根据权利要求52-54中任一项所述的方法，其确定所述信息包括：

56.根据权利要求55所述的方法，其中基于所述维度确定所述信息包括：

57.根据权利要求56所述的方法，其中：

58.根据权利要求52-54中任一项所述的方法，其确定所述信息包括：

59.根据权利要求58所述的方法，其中基于所述颜色分量确定所述信息包括：

60.根据权利要求59所述的方法，其中所述第一颜色分量包括以下中的至少一个：

61.根据权利要求52-54中任一项所述的方法，其确定所述信息包括：

62.根据权利要求61所述的方法，其中基于所述第一率失真成本或所述第二率失真成本中的至少一个确定所述信息包括：

63.根据权利要求62所述的方法，其中所述第一阈值成本或所述第二阈值成本中的至少一个包括默认值。

64.根据权利要求63所述的方法，其中所述默认值包括以下中的一个：

65.根据权利要求62所述的方法，其中所述第一因子、所述第二因子、所述第一阈值比值或所述第二阈值比值包括以下中的一个：

66.根据权利要求62所述的方法，还包括：

67.根据权利要求66所述的方法，其中所述编解码配置包括以下中的至少一个：全帧内、随机接入、低延迟b或低延迟p。

68.根据权利要求52-54中任一项所述的方法，其确定所述信息包括：

69.根据权利要求68所述的方法，其中基于所述第一率失真成本和所述第三率失真成本来确定所述信息包括：

70.根据权利要求69所述的方法，还包括：

71.根据权利要求70所述的方法，其中所述编解码配置包括以下中的至少一个：全帧内、随机接入、低延迟b或低延迟p。

72.根据权利要求52-54中任一项所述的方法，其确定所述信息包括：

73.根据权利要求72所述的方法，其中基于所述时域层确定所述信息包括以下中的一个：

74.根据权利要求73所述的方法，其中所述阈值索引包括：0、1、2、3、4、5或6中的一个。

75.根据权利要求52-54中任一项所述的方法，其确定所述信息包括：

76.根据权利要求75所述的方法，其中基于所述子编解码单元的所述进一步编解码信息来确定所述信息包括：

77.根据权利要求75所述的方法，其中基于所述子编解码单元的所述进一步编解码信息来确定所述信息包括：

78.根据权利要求1-77中任一项所述的方法，其中在对所述目标视频块的所述rdo过程中使用所述机器学习模型包括：

79.根据权利要求78所述的方法，其中所述部分样本包括所述目标视频块的中心子块中的样本。

80.根据权利要求79所述的方法，其中：

81.根据权利要求52-80中任一项所述的方法，其中所述机器学习模型包括以下中的至少一个：

82.根据权利要求1-81中任一项所述的方法，其中所述转换包括将所述目标视频块编码到所述比特流中。

83.根据权利要求1-81中任一项所述的方法，其中所述转换包括从所述比特流解码所述目标视频块。

84.一种用于处理视频数据的装置，包括处理器和其上具有指令的非暂态存储器，其中所述指令在由所述处理器执行时使所述处理器执行根据权利要求书1-83中任一项所述的方法。

85.一种非暂态计算机可读存储介质，存储有使处理器执行根据权利要求1-83中任一项所述的方法的指令。

86.一种非暂态计算机可读记录介质，存储有由视频处理装置执行的方法所生成的视频的比特流，其中该方法包括：

87.一种用于存储视频的比特流的方法，包括：

88.一种非暂态计算机可读记录介质，存储有由视频处理装置执行的方法所生成的视频的比特流，其中该方法包括：

89.一种用于存储视频的比特流的方法，包括：

90.一种非暂态计算机可读记录介质，存储有由视频处理装置执行的方法所生成的视频的比特流，其中该方法包括：

91.一种用于存储视频的比特流的方法，包括：

技术总结本公开的实施例提供了一种用于视频处理的方案。提出了一种用于视频处理的方法。该方法包括：在视频的目标视频块与视频的比特流之间的转换期间，至少部分地基于以下中的至少一个失真来确定针对目标视频块的失真度量：根据机器学习模型集合的目标视频块的经滤波失真集合，或者在不使用机器学习模型集合的情况下确定的目标视频块的第二失真；基于失真度量来确定关于在对目标视频块的率失真优化(RDO)过程中使用机器学习模型集合的信息；以及基于信息执行转换。由此，可以改进RDO过程，并且因此编解码性能能够得到提升。技术研发人员：李俊儒,李跃,张凯,张莉受保护的技术使用者：抖音视界有限公司技术研发日：技术公布日：2024/7/23