技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种基于多维特征相似度融合的全参考音频质量评价方法 > 正文

一种基于多维特征相似度融合的全参考音频质量评价方法

国知局
2024-06-21 10:44:08

本公开涉及音频质量评价，具体地，涉及一种基于多维特征相似度融合的全参考音频质量评价方法。

背景技术：

1、在目前的音频信号传输系统中，压缩、存储和传输技术不可避免地会导致音频信号的失真，从而降低最终用户的感知质量。因此，测量用户对音频的感知质量，从而监控并保证整个系统对用户的良好感知质量具有重要意义。最可靠的音频质量评价方法是主观音频质量评价法，即由人类听众对音频信号进行评分。虽然主观音频质量评价是对音频质量相对准确的评估，但这种方法既耗时又昂贵。在大规模和实时处理系统中自动预测感知质量中，客观音频质量评价法较为常用。客观音频质量评价方法采用算法自动化地评估音频信号的质量，减少人力资源的浪费，在实践中具有可行性。

2、简单的客观音频质量评价方法包括均方根误差(rmse)法，其能够测量两个音频信号的每个采样点之间的差异，该方法虽然计算简单，但与主观评分的一致性较低。为了提高客观音频质量评价方法的性能，需要对人类的听觉系统进行建模。pesq算法和visqol算法都是根据这种方式设计的。pesq(《a.rix,j.beerends,m.hollier,and a.hekstra,“perceptual evaluation of speech quality(pesq)-a new method for speechquality assessment of telephone networks and codecs,”in 2001ieeeinternational conference on acoustics,speech,and signalprocessing.proceedings(cat.no.01ch37221),vol.2,2001,pp.749–752.》)采用一个改进的声学模型来模拟人类的听觉特征，并通过其设计的人耳感知模型来计算音频质量的客观分数。visqol(《a.hines,j.skoglund,a.c.kokaram,and n.harte,“visqol:an objectivespeech quality model,”eurasip journal on audio,speech,and music processing,vol.2015,no.1,pp.1–18,2015.》)通过建立听觉神经放电模型以将音频信号处理为神经图，并比较参考音频与退化音频所对应的神经图之间的相似度，对退化信号进行评分。

3、尽管上述现有技术建立了声学模型以模拟人类的听觉特征，但这些方法提取的特征类型相对单一，导致预测的分数在很大程度上依赖于声学模型的建立，因此跨数据库的泛化性能较弱。

技术实现思路

1、针对现有技术中的缺陷，本公开的目的是提供一种基于多维特征相似度融合的全参考音频质量评价方法。

2、为实现上述目的，根据本公开的一个方面，提供一种基于多维特征相似度融合的全参考音频质量评价方法，包括：

3、对参考音频和退化音频进行预处理，确定经过所述预处理后的所述参考音频和所述退化音频；

4、将预设的基于感知质量的图像质量评价算法推广处理至一维空间，采用所述一维空间的所述基于感知质量的图像质量评价算法确定所述参考音频的一维波形与所述退化音频的一维波形之间的相似度；

5、对所述参考音频和所述退化音频进行特征提取处理，确定所述参考音频的二维特征和所述退化音频的二维特征，并采用所述预设的基于感知质量的图像评价算法确定每一所述参考音频的二维特征和所述退化音频的二维特征之间的相似度；

6、将所述参考音频和所述退化音频之间的多维特征相似度分数进行融合处理，并回归处理至所述退化音频的质量分数，所述多维特征相似度分数包括所述参考音频的一维波形与所述退化音频的一维波形之间的相似度的分数、每一所述参考音频的二维特征和所述退化音频的二维特征之间的相似度的分数。

7、可选地，所述预处理的方式包括：

8、对所述参考音频和所述退化音频分别进行重采样处理；

9、在时域上将所述参考音频和所述退化音频进行对齐处理；

10、将所述参考音频的电平和所述退化音频的电平调整至同一预设水平；

11、采用活动语音检测器对所述参考音频和所述退化音频中的无声部分删除，并保留音频活跃部分。

12、可选地，所述对所述参考音频和所述退化音频分别进行重采样处理，包括：

13、将所述参考音频和所述退化音频采用预设的采样频率进行重新采样。

14、可选地，所述在时域上将所述参考音频和所述退化音频进行对齐处理，包括：

15、在时域上，通过所述参考音频和所述退化音频之间的互相关函数的最大值的位置确定信号的延迟，对所述参考音频和所述退化音频进行对齐。

16、可选地，所述将所述参考音频的电平和所述退化音频的电平调整至同一预设水平，包括：

17、将所述参考音频的信号幅度的均方根值和所述退化音频的信号幅度的均方根值调整至同一预设水平。

18、可选地，所述采用活动语音检测器对所述参考音频和所述退化音频中的无声部分删除，并保留音频活跃部分，包括：

19、采用活动语音检测器检测对所述参考音频和所述退化音频进行采样处理，确定所述参考音频和所述退化音频的采样点；

20、将所述参考音频和所述退化音频的采样点中语音振幅小于预设的语音频率的部分，确定为所述无声部分并删除，并保留音频活跃部分。

21、可选地，所述一维空间的所述基于感知质量的图像质量评价算法，包括：

22、一维结构相似度指数ssim1d；

23、一维梯度幅度相似度均值gmsm1d；

24、一维梯度幅度相似度偏差gmsd1d；

25、其中，基于所述参考音频和所述退化音频之间的响度相关性与音频质量非密切相关，所述一维结构相似度指数为在结构相似度指数(ssim)的基础上删除亮度项，经过所述推广处理的所述一维结构相似度指数的分数的计算方法包括：

26、

27、其中，r表示所述参考音频，d表示所述退化音频，σr表示所述参考音频的标准差，σd表示所述退化音频的标准差，σrd表示所述参考音频和所述退化音频之间的相关系数，c1表示第一常数，c2表示第二常数，c表示所述参考音频和所述退化音频之间的对比度的相似度，s表示所述参考音频和所述退化音频之间的结构的相似度；

28、其中，基于音频波形的梯度对音频质量的退化敏感条件，采用经过推广处理的一维差分算子确定所述参考音频和所述退化音频的梯度幅度以及所述参考音频和所述退化音频之间的一维的梯度幅度相似度，确定所述参考音频和所述退化音频之间的一维梯度幅度相似度的均值和一维梯度幅度相似度的偏差；

29、所述参考音频和所述退化音频之间的一维的梯度幅度相似度的计算方法，包括：

30、

31、其中，gms1d表示所述参考音频和所述退化音频之间的一维的梯度幅度相似度，p表示所述一维差分算子，mr表示所述参考音频的梯度幅度，md表示所述退化音频的梯度幅度，k表示第三常数；

32、所述一维梯度幅度相似度均值和所述一维梯度幅度相似度偏差的计算方法包括：

33、

34、其中，std表示标准差，mean表示均值。

35、可选地，所述对所述参考音频和所述退化音频进行特征提取处理，确定所述参考音频的二维特征和所述退化音频的二维特征，并采用所述预设的基于感知质量的图像评价算法确定每一所述参考音频的二维特征和所述退化音频的二维特征之间的相似度，包括：

36、对所述参考音频和所述退化音频进行特征提取处理，确定所述参考音频的二维特征和所述退化音频的二维特征；

37、将所述参考音频的二维特征进行特征块划分处理，确定所述参考音频的二维特征块；

38、根据所述参考音频的二维特征块匹配与所述退化音频中对应的二维特征块，确定参考音频-退化音频的二维特征块对；

39、采用基于感知质量的图像评价算法，确定每一所述参考音频-退化音频的二维特征块对之间的相似度。

40、可选地，所述参考音频的二维特征和所述退化音频的二维特征，包括：

41、时频谱bark；

42、时频谱cqt；

43、线性预测倒谱系数lpcc；

44、mel频率倒谱系数mfcc；

45、频谱rasta-plp；

46、倒谱rasta-plp。

47、可选地，所述方法还包括：

48、在对所述参考音频和所述退化音频进行特征提取处理之前，将所述参考音频和所述退化音频在时域上划分成帧长相等、帧与帧之间的时间间隔相等的多段音频帧。

49、可选地，所述将所述参考音频的二维特征进行特征块划分处理，确定所述参考音频的二维特征块，包括：

50、将所述参考音频的二维特征划分为相邻的、长度为n帧的二维特征块；

51、采用活动语音检测器对所述参考音频的二维特征块中的无声块进行删除处理。

52、可选地，所述根据所述参考音频的二维特征块匹配与所述退化音频中对应的二维特征块，确定参考音频-退化音频的二维特征块对，包括：

53、采用预设尺寸的滑动窗口在所述退化音频的二维特征中进行滑动检测，确定所述退化音频的二维特征上的每一位置上的所述参考音频的二维特征块和所述退化音频的二维特征块之间的结构相似度指数的分数；

54、将所述结构相似度指数的分数最高的位置处的退化音频的二维特征块确定为与所述参考音频的二维特征块对应的所述退化音频的二维特征块，并确定所述参考音频-退化音频的二维特征块对。

55、可选地，所述基于感知质量的图像评价算法，包括：

56、结构相似度指数ssim；

57、梯度幅度相似度均值gmsd；

58、其中，所述结构相似度指数的亮度项被移除。

59、可选地，所述对所述参考音频和所述退化音频进行特征提取处理，确定所述参考音频的二维特征和所述退化音频的二维特征，并采用所述预设的基于感知质量的图像评价算法确定每一所述参考音频的二维特征和所述退化音频的二维特征之间的相似度，还包括：

60、将每一所述参考音频-退化音频的二维特征块对之间的相似度的分数的平均值作为最终的每一所述参考音频的二维特征和所述退化音频的二维特征之间的相似度的分数。

61、可选地，所述参考音频和所述退化音频之间的多维特征相似度分数，采用如下任一种或多种：

62、采用一维结构相似度指数ssim1d评价的一维波形相似度的分数；

63、采用一维梯度幅度相似度均值gmsm1d评价的一维波形相似度的分数；

64、采用一维梯度幅度相似度偏差gmsd1d评价的一维波形相似度的分数；

65、采用结构相似度指数ssim评价的二维bark时频谱相似度的分数；

66、采用梯度幅度相似度均值gmsm评价的二维cqt时频谱相似度的分数；

67、采用梯度幅度相似度偏差gmsd评价的二维cqt时频谱相似度的分数；

68、采用结构相似度指数ssim评价的lpcc相似度的分数；

69、采用梯度幅度相似度偏差gmsd评价的lpcc相似度的分数；

70、采用结构相似度指数ssim评价的mfcc相似度的分数；

71、采用梯度幅度相似度偏差gmsd评价的mfcc相似度的分数；

72、采用结构相似度指数ssim评价的rasta-plp频谱相似度的分数；

73、采用梯度幅度相似度偏差gmsd评价的rasta-plp频谱相似度的分数；

74、采用结构相似度指数ssim评价的rasta-plp倒谱相似度的分数；

75、采用梯度幅度相似度偏差gmsd评价的rasta-plp倒谱相似度的分数。

76、可选地，所述回归处理采用的方式为向量回归的方式。

77、与现有技术相比，本公开实施例具有如下至少一种有益效果：

78、通过上述技术方案，将预设的基于感知质量的图像质量评价算法推广处理至一维空间，以应用于音频的时域上的一维波形，对参考音频和退化音频进行特征提取处理，确定参考音频的二维特征和退化音频的二维特征，以将音频视作图像，以应用基于感知质量的图像质量评价算法进行感知质量评价，最终将参考音频和退化音频之间的多位特征相似度分数进行融合处理，回归处理至退化音频的质量分数。通过本公开提取丰富的音频信号，并基于感知质量的图像质量评价算法的成功经验，成功将图像质量评价算法应用至音频质量评价中，并证明了图像质量评价算法应用至音频质量评价的有效性。