技术新讯 > 乐器声学设备的制造及制作,分析技术 > 音频信号的处理方法、装置、存储介质及计算机程序产品与流程  >  正文

音频信号的处理方法、装置、存储介质及计算机程序产品与流程

  • 国知局
  • 2024-06-21 10:44:12

本技术涉及音频编解码领域,特别涉及一种音频信号的处理方法、装置、存储介质及计算机程序产品。

背景技术:

1、随着生活质量的提高,人们对高质量音频的需求不断增大。为了利用有限的带宽更好地传输音频信号,通常需要先在编码端对音频信号进行数据压缩,以得到码流,然后将码流传输到解码端。解码端对接收到的码流进行解码处理,以重建音频信号,重建出的音频信号用于回放。然而,对音频信号进行压缩的过程中可能会对音频信号的音质造成影响。因此,如何在保证音频信号的音质的同时,提升对音频信号的压缩效率,成为一个亟需解决的技术问题。

技术实现思路

1、本技术提供了一种音频信号的处理方法、装置、存储介质及计算机程序产品,能够提升编码效果和压缩效率。所述技术方案如下:

2、第一方面,提供了一种音频信号的处理方法,所述方法包括:

3、按照多种子带划分方式和所述多种子带划分方式对应的截止子带,分别对所述音频信号进行子带划分,以得到多个候选子带集合,所述多个候选子带集合与所述多种子带划分方式一一对应,每个候选子带集合包括多个子带;基于所述音频信号在各个候选子带集合包括的子带内的频谱值、所述音频信号的编码码率,以及各个候选子带集合包括的子带的子带带宽,确定各个候选子带集合的总标度值;按照各个候选子带集合的总标度值,从所述多个候选子带集合中选择一个候选子带集合作为目标子带集合,所述目标子带集合包括的各个子带具有标度因子,所述标度因子用于对所述音频信号的频谱包络进行整形。

4、在本技术中,按照音频信号的特点,从多种子带划分方式选择最佳的子带划分方式,即子带划分方式具有信号自适应的特点,能够自适应音频信号的编码码率,从而提高抗干扰能力。具体地,先按照多种子带划分方式分别对音频信号进行划分,再基于音频信号在所划分出各个子带内频谱值、各个子带的带宽以及音频信号的编码码率,确定每种子带划分方式所对应的总标度值,基于总标度值选择最佳的目标子带划分方式,即得到最佳的子带集合。后续按照最佳的子带集合中各个子带的标度因子来进行频谱包络整形的话,能够提升编码效果和压缩效率。

5、可选地,所述按照各个候选子带集合的总标度值,从所述多个候选子带集合中选择一个候选子带集合作为目标子带集合,包括:

6、将所述多个候选子带集合中总标度值最小的候选子带集合确定为所述目标子带集合。

7、可选地,所述基于所述音频信号在各个候选子带集合包括的子带内的频谱值、所述音频信号的编码码率,以及各个候选子带集合包括的子带的子带带宽,确定各个候选子带集合的总标度值,包括:

8、对于所述多个候选子带集合中的第一候选子带集合,基于所述音频信号在所述第一候选子带集合包括的各个子带内的频谱值,确定所述第一候选子带集合包括的各个子带的标度因子,所述第一候选子带集合为所述多个候选子带集合中的任一候选子带集合;

9、基于所述音频信号的编码码率,以及所述第一候选子带集合包括的各个子带的标度因子和子带带宽,确定所述第一候选子带集合的总标度值。

10、可选地,所述基于所述音频信号在所述第一候选子带集合包括的各个子带内的频谱值,确定所述第一候选子带集合包括的各个子带的标度因子,包括:

11、对于所述第一候选子带集合包括的第一子带,获取所述音频信号在所述第一子带内的所有频谱值的绝对值的最大值,所述第一子带为所述第一候选子带集合中的任一子带;

12、基于所述最大值,确定所述第一子带的标度因子。

13、可选地,所述音频信号的编码码率不小于第一码率阈值,和/或,所述音频信号的能量集中度大于集中度阈值;

14、所述基于所述音频信号的编码码率,以及所述第一候选子带集合包括的各个子带的标度因子和子带带宽,确定所述第一候选子带集合的总标度值,包括:

15、基于所述音频信号的编码码率和第二码率阈值,确定能量平滑基准值;

16、基于所述能量平滑基准值、所述第一候选子带集合包括的各个子带的标度因子和子带带宽,确定所述第一候选子带集合包括的各个子带的总能量值;

17、将所述第一候选子带集合包括的各个子带的总能量值进行相加,以得到所述第一候选子带集合的总标度值。

18、可选地,所述基于所述能量平滑基准值、所述第一候选子带集合包括的各个子带的标度因子和子带带宽,确定所述第一候选子带集合包括的各个子带的总能量值,包括:

19、对于所述第一候选子带集合包括的第一子带,将所述第一子带的标度因子与所述能量平滑基准值中的最大值,确定为所述第一子带的基准标度值,所述第一子带为所述第一候选子带集合中的任一子带;

20、将所述第一子带的基准标度值与所述第一子带的子带带宽的乘积,确定为所述第一子带的总能量值。

21、可选地,所述音频信号的编码码率小于第一码率阈值,且所述音频信号的能量集中度不大于集中度阈值;

22、所述基于所述音频信号的编码码率,以及所述第一候选子带集合包括的各个子带的标度因子和子带带宽,确定所述第一候选子带集合的总标度值,包括:

23、基于所述音频信号的编码码率和第二码率阈值,确定能量平滑基准值;

24、基于所述能量平滑基准值和所述第一候选子带集合包括的各个子带的标度因子,确定所述第一候选子带集合包括的各个子带的标度差异值,所述标定差异值表征相应子带的标度因子与相应子带的相邻子带的标度因子之间的差异;

25、基于所述第一候选子带集合包括的各个子带的标度差异值和子带带宽,确定所述第一候选子带集合的总标度值。

26、可选地,所述基于所述能量平滑基准值和所述第一候选子带集合包括的各个子带的标度因子,确定所述第一候选子带集合包括的各个子带的标度差异值,包括:

27、对于所述第一候选子带集合包括的第一子带,基于所述能量平滑基准值、所述第一子带的标度因子和所述第一子带的相邻子带的标度因子,确定所述第一子带的第一平滑值、第二平滑值和第三平滑值,所述第一子带为所述第一候选子带集合中的任一子带;

28、基于所述第一子带的第一平滑值、第二平滑值和第三平滑值,确定所述第一子带的标度差异值。

29、可选地,所述基于所述能量平滑基准值、所述第一子带的标度因子和所述第一子带的相邻子带的标度因子,确定所述第一子带的第一平滑值、第二平滑值和第三平滑值,包括:

30、如果所述第一子带是所述第一候选子带集合中的首个子带,则将所述第一子带的标度因子与所述能量平滑基准值中的最大值确定为所述第一子带的第一平滑值;如果所述第一子带不是所述第一候选子带集合中的首个子带,则将所述第一子带的前一个相邻子带的标度因子与所述能量平滑基准值中的最大值,确定为所述第一子带的第一平滑值;

31、将所述第一子带的标度因子与所述能量平滑基准值中的最大值,确定为所述第一子带的第二平滑值;

32、如果所述第一子带是所述第一候选子带集合中的最后一个子带,则将所述第一子带的标度因子与所述能量平滑基准值中的最大值确定为所述第一子带的第三平滑值;如果所述第一子带不是所述第一候选子带集合中的最后一个子带,则将所述第一子带的后一个相邻子带的标度因子与所述能量平滑基准值中的最大值,确定为所述第一子带的第三平滑值。

33、可选地,所述基于所述第一子带的第一平滑值、第二平滑值和第三平滑值,确定所述第一子带的标度差异值,包括:

34、对于所述第一候选子带集合包括的第一子带,确定所述第一子带的第一差异值和第二差异值,所述第一差异值是指所述第一子带的第一平滑值与第二平滑值之间的差值的绝对值,所述第二差异值是指所述第一子带的第二平滑值与第三平滑值之间的差值的绝对值,所述第一子带为所述第一候选子带集合中的任一子带;

35、基于所述第一子带的第一差异值和第二差异值,确定所述第一子带的标度差异值。

36、可选地,所述基于所述第一候选子带集合包括的各个子带的标度差异值和子带带宽,确定所述第一候选子带集合的总标度值,包括:

37、基于所述第一候选子带集合包括的子带的数量和各个子带的子带带宽,确定所述第一候选子带集合包括的各个子带的平滑加权系数;

38、将所述第一候选子带集合包括的各个子带的平滑加权系数相加,以得到所述第一候选子带集合的总平滑加权系数;

39、将所述第一候选子带集合包括的各个子带的标度差异值与平滑加权系数相乘,以得到所述第一候选子带集合包括的各个子带的加权标度差异值;

40、将所述第一候选子带集合包括的各个子带的加权标度差异值相加,以得到所述第一候选子带集合的求和标度值;

41、将所述第一候选子带集合的求和标度值与总平滑加权系数相除,以得到所述第一候选子带集合的总标度值。

42、可选地,所述方法还包括:

43、如果所述音频信号的编码码率小于第一码率阈值,则对所述音频信号的频谱进行带宽检测,以得到所述音频信号的截止频率;

44、基于所述截止频率,确定所述多种子带划分方式分别对应的截止子带。

45、可选地,所述方法还包括:

46、如果所述音频信号的编码码率不小于第一码率阈值,则将所述多种子带划分方式中各种子带划分方式指示的最后一个子带,确定为各种子带可选地,所述方法还包括:

47、对所述音频信号的频谱进行特征分析,以得到特征分析结果;

48、基于所述特征分析结果和所述音频信号的编码码率,从多种候选子带划分方式中确定所述多种子带划分方式。

49、可选地,所述特征分析结果包括主观信号标志或客观信号标志,所述主观信号标志指示所述音频信号的能量集中度不大于集中度阈值,所述客观信号标志指示所述音频信号的能量集中度大于所述集中度阈值。

50、可选地,所述音频信号的帧长为10毫秒,且采样率为88.2千赫兹或96千赫兹;或者,所述音频信号的帧长为5毫秒,且采样率为88.2千赫兹或96千赫兹;或者,所述音频信号的帧长为10毫秒,且采样率为44.1千赫兹或48千赫兹;

51、所述基于所述特征分析结果和所述音频信号的编码码率,从多种候选子带划分方式中确定所述多种子带划分方式,包括:

52、如果所述音频信号的编码码率小于第一码率阈值,且所述特征分析结果包括所述主观信号标志,则将所述多种候选子带划分方式中的第一组子带划分方式确定为所述多种子带划分方式;

53、其中,所述第一组子带划分方式如下:

54、{

55、{0,1,2,3,4,6,8,10,13,16,20,24,28,33,38,45,52,61,70,79,88,100,112,127,142,160,178,196,217,238,259,280,480},

56、{0,1,2,3,5,7,9,12,15,18,22,26,30,35,41,48,56,65,74,84,94,106,118,134,150,166,184,202,220,240,260,280,480},

57、{0,1,2,3,4,5,7,9,11,14,17,21,25,29,34,40,46,52,60,68,76,86,98,110,126,144,162,180,200,224,250,280,480},

58、{0,2,4,6,8,12,16,21,26,31,36,41,46,51,56,61,66,71,77,83,89,95,103,111,121,131,147,163,179,203,240,280,480},

59、{0,1,2,3,5,7,9,12,15,19,23,27,32,37,43,49,57,66,76,86,98,110,125,140,158,176,194,216,238,264,290,320,480},

60、{0,1,2,3,5,7,10,13,17,21,25,30,35,41,47,54,62,70,80,90,102,114,130,146,162,180,198,218,240,264,290,320,480},

61、{0,1,2,4,6,8,11,14,18,22,26,30,36,42,50,58,66,76,88,100,112,128,144,160,182,204,226,256,286,316,352,400,480},

62、{0,1,2,4,6,8,11,14,18,22,26,30,36,42,50,58,68,78,90,102,116,132,148,166,186,208,234,262,292,324,360,400,480}

63、}。

64、可选地,所述音频信号的帧长为10毫秒,且采样率为88.2千赫兹或96千赫兹;或者,所述音频信号的帧长为5毫秒,且采样率为88.2千赫兹或96千赫兹;或者,所述音频信号的帧长为10毫秒,且采样率为44.1千赫兹或48千赫兹;

65、所述基于所述特征分析结果和所述音频信号的码率,从多种候选子带划分方式中确定所述多种子带划分方式,包括:

66、如果所述音频信号的编码码率不小于第一码率阈值,和/或,所述特征分析结果包括所述客观信号标志,则将所述多种候选子带划分方式中的第二组子带划分方式确定为所述多种子带划分方式;

67、其中,所述第二组子带划分方式如下:

68、{

69、{0,1,2,3,4,5,6,7,8,10,12,14,16,19,22,26,30,35,40,45,50,57,64,73,82,92,102,112,124,136,148,160,480},

70、{0,1,2,3,4,5,7,9,11,13,15,18,21,24,28,33,38,44,50,57,64,73,82,93,104,116,128,140,155,170,185,200,480},

71、{0,1,2,3,4,6,8,10,13,16,20,24,28,33,38,45,52,61,70,79,88,100,112,127,142,160,178,196,217,238,259,280,480},

72、{0,1,2,4,6,10,14,18,22,26,30,34,42,50,58,66,74,84,96,108,120,136,152,168,192,216,240,272,304,336,376,424,480},

73、{0,1,2,4,6,10,14,18,26,34,42,50,62,74,86,98,112,128,144,160,176,196,216,236,256,280,304,328,352,384,416,448,480},

74、{0,80,92,104,112,120,128,136,144,148,152,156,160,164,168,172,176,180,184,188,192,196,200,208,216,224,232,240,248,256,268,280,480},

75、{0,200,212,224,232,240,248,256,264,268,272,276,280,284,288,292,296,300,304,308,312,316,320,328,336,344,352,360,368,376,388,400,480},

76、{0,320,332,344,356,364,372,380,384,388,392,396,400,404,408,412,416,420,424,428,432,436,440,444,448,452,456,460,464,468,472,476,480}

77、}。

78、可选地,所述音频信号的帧长为5毫秒,且采样率为44.1千赫兹或48千赫兹;

79、所述基于所述特征分析结果和所述音频信号的码率,从多种候选子带划分方式中确定所述多种子带划分方式,包括:

80、如果所述音频信号的编码码率小于第一码率阈值,且所述特征分析结果包括所述主观信号标志,则将所述多种候选子带划分方式中的第三组子带划分方式确定为所述多种子带划分方式;

81、其中,所述第三组子带划分方式如下:

82、{

83、{0,1,2,3,4,5,6,7,8,9,10,12,14,16,19,22,26,30,35,39,44,50,56,63,71,80,89,98,108,119,129,140,240},

84、{0,1,2,3,4,5,6,7,8,9,11,13,15,17,20,24,28,32,37,42,47,53,59,67,75,83,92,101,110,120,130,140,240},

85、{0,1,2,3,4,5,6,7,8,9,10,11,12,14,17,20,23,26,30,34,38,43,49,55,63,72,81,90,100,112,125,140,240},

86、{0,1,2,3,4,6,8,10,13,15,18,20,23,25,28,30,33,35,38,41,44,47,51,55,60,65,73,81,89,101,120,140,240},

87、{0,1,2,3,4,5,6,7,9,11,13,14,16,18,21,24,28,33,38,43,49,55,62,70,79,88,97,108,119,132,145,160,240},

88、{0,1,2,3,4,5,6,7,8,10,12,14,17,20,23,27,31,35,40,45,51,57,65,73,81,90,99,109,120,132,145,160,240},

89、{0,1,2,3,4,5,6,7,9,11,13,15,18,21,25,29,33,38,44,50,56,64,72,80,91,102,113,128,143,158,176,200,240},

90、{0,1,2,3,4,5,6,7,9,11,13,15,18,21,25,29,34,39,45,51,58,66,74,83,93,104,117,131,146,162,180,200,240}

91、}。

92、可选地,所述音频信号的帧长为5毫秒,且采样率为44.1千赫兹或48千赫兹;

93、所述基于所述特征分析结果和所述音频信号的码率,从多种候选子带划分方式中确定所述多种子带划分方式,包括:

94、如果所述音频信号的编码码率不小于第一码率阈值,和/或,所述特征分析结果包括所述客观信号标志,则将所述多种候选子带划分方式中的第四组子带划分方式确定为所述多种子带划分方式;

95、其中,所述第四组子带划分方式如下:

96、{

97、{0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,17,18,19,20,21,22,23,24,26,28,30,32,34,37,40,120},

98、{0,1,2,3,4,5,6,7,8,9,10,11,12,13,14,15,16,18,20,22,24,26,28,30,32,34,36,38,41,44,47,50,120},

99、{0,1,2,3,4,5,6,7,8,9,10,11,12,14,16,18,20,22,24,26,28,31,34,37,40,44,48,52,56,60,65,70,120},

100、{0,1,2,3,4,5,6,7,8,9,10,11,12,13,15,17,19,21,24,27,30,34,38,42,48,54,60,68,76,84,94,106,120},

101、{0,1,2,3,4,5,6,7,8,10,12,14,16,19,22,25,28,32,36,40,44,49,54,59,64,70,76,82,88,96,104,112,120},

102、{0,20,23,26,28,30,32,34,36,37,38,39,40,41,42,43,44,45,46,47,48,49,50,52,54,56,58,60,62,64,67,70,120},

103、{0,50,53,56,58,60,62,64,66,67,68,69,70,71,72,73,74,75,76,77,78,79,80,82,84,86,88,90,92,94,97,100,120},

104、{0,80,83,86,89,91,93,95,96,97,98,99,100,101,102,103,104,105,106,107,108,109,110,111,112,113,114,115,116,117,118,119,120}

105、}。

106、可选地,所述音频信号为双声道信号;

107、所述方法还包括:

108、基于所述目标子带集合包括的各个子带的标度因子和子带带宽,确定第一总标度值;

109、对所述双声道信号的频谱进行加减立体声变换,以得到变换后的双声道信号的频谱;

110、基于所述变换后的双声道信号在所述目标子带集合包括的各个子带内的频谱值,确定所述目标子带集合中各个子带的变换后的标度因子;

111、基于所述目标子带集合包括的各个子带的变换后的标度因子和子带带宽,确定第二总标度值;

112、如果所述第一总标度值不大于所述第二总标度值,则将所述双声道信号确定为待编码的信号。

113、可选地,所述方法还包括:

114、如果所述第一总标度值大于所述第二总标度值,且所述音频信号的编码码率不小于第一码率阈值,和/或,所述音频信号的能量集中度大于集中度阈值,则将所述变换后的双声道信号确定为待编码的信号。

115、可选地,所述标度因子包括左声道标度因子和右声道标度因子;

116、所述方法还包括:

117、如果所述第一总标度值大于所述第二总标度值,且所述音频信号的编码码率小于第一码率阈值,所述音频信号的能量集中度不大于集中度阈值,则基于所述目标子带集合包括的各个子带的左声道标度因子和右声道标度因子,确定所述目标子带集合包括的各个子带的左右标度因子差异值;

118、基于所述目标子带集合包括的各个子带的初始频点和截止频点,确定所述目标子带集合包括的各个子带的子带中心频率;

119、如果所述目标子带集合中存在至少一个子带的左右标度因子差异值大于差异阈值且子带中心频率在第一范围内,则将所述双声道信号确定为待编码的信号。

120、可选地,所述方法还包括:

121、如果所述目标子带集合中不存在所述至少一个子带,则将所述变换后的双声道信号确定为待编码的信号。

122、第二方面,提供了一种音频信号的处理装置,所述音频信号的处理装置具有实现上述第一方面中音频信号的处理方法行为的功能。所述音频信号的处理装置包括一个或多个模块,该一个或多个模块用于实现上述第一方面所提供的音频信号的处理方法。

123、第三方面,提供了一种音频信号的处理设备,所述音频信号的处理设备包括处理器和存储器,所述存储器用于存储执行上述第一方面所提供的音频信号的处理方法的程序,以及存储用于实现上述第一方面所提供的音频信号的处理方法所涉及的数据。所述处理器被配置为用于执行所述存储器中存储的程序。所述音频信号的处理设备还可以包括通信总线,该通信总线用于该处理器与存储器之间建立连接。

124、第四方面,提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当其在计算机上运行时,使得计算机执行上述第一方面所述的音频信号的处理方法。

125、第五方面,提供了一种包含指令的计算机程序产品,当其在计算机上运行时,使得计算机执行上述第一方面所述的音频信号的处理方法。

126、上述第二方面、第三方面、第四方面和第五方面所获得的技术效果与第一方面中对应的技术手段获得的技术效果近似,在这里不再赘述。

本文地址:https://www.jishuxx.com/zhuanli/20240618/21432.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。