技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种音频质量评测方法及相关装置与流程 > 正文

一种音频质量评测方法及相关装置与流程

国知局
2024-06-21 11:36:46

本技术涉及音视频领域，尤其涉及一种音频质量评测方法及相关装置。

背景技术：

1、随着音频的广泛应用，如语音通信、音乐播放、语音识别等，确保音频质量达到高标准对于用户体验和应用性能至关重要。因此，开发一种准确、可靠的音频质量评测方法对于提供优质的音频服务至关重要。

2、目前，无参考音频质量评测方法包括：众投主观评分从大量的参与者中收集主观的音频质量评分，然后通过统计和分析这些评分，可以得出平均分数；一些非主观的音频评测算法自动评估音频质量，通常使用机器学习来分析音频的特征，然后给出音频质量评分。

3、然而，目前已知的无参音质评测算法都不能对包含音乐的音频进行质量评测，如果强行对包含音乐的音频进行质量评测，则存在评测结果不准确的问题。

技术实现思路

1、本技术实施例提供了一种音频质量评测方法及相关装置，能够克服现有技术的缺陷，能够实现对音频质量的评测，通过将语音片段从音频中提取出来，使得音频质量评测结果更为准确。

2、第一方面，本技术实施例提供了一种音频质量评测方法，包括：

3、获取待评测音频；

4、对所述待评测音频进行分类处理，确定所述待评测音频中的语音片段和音乐片段；

5、根据所述语音片段的位置信息和所述音乐片段的位置信息，从所述待评测音频中提取多个所述语音片段；

6、对多个所述语音片段进行质量评测，获得多个所述语音片段中的每一语音片段的评测结果；

7、基于所述每一语音片段的评测结果，获得所述待评测音频的评测结果。

8、可以看到，本技术实施例中，根据语音片段和音乐片段的位置信息，从待评测音频中提取多个语音片段，这样可以提取出只有语音的音频，避免音乐、背景等干扰对评测结果的影响，使得音频质量评测结果更为准确。基于每个语音片段的评测结果，得出待评测音频的整体评测结果。这样可以综合考虑各个语音片段的质量，得出对整个音频的评估，提供一个全面的评测结论。

9、基于第一方面，在可能的实现方式中，所述对所述待评测音频进行分类处理，确定所述待评测音频中的语音片段和音乐片段，包括：

10、将所述待评测音频分为多个片段；

11、提取所述多个片段中每个片段的特征；

12、根据所述每个片段的特征，确定所述多个片段中的各个片段是所述语音片段还是所述音乐片段。

13、可以看到，本技术实施例中，将待评测音频分为多个片段，可以便于对音频进行更精细地分析和评估；通过提取每个片段的特征并对特征进行分析，可以准确地将每个片段分类，为后续的评测和分析奠定基础。

14、基于第一方面，在可能的实现方式中，所述根据所述每个片段的特征，确定所述多个片段中的各个片段是所述语音片段还是所述音乐片段，包括：

15、将所述每个片段的特征输入卷积神经网络中，获得所述每个片段为所述语音片段的概率和所述每个片段为所述音乐片段的概率；

16、根据所述每个片段为所述语音片段的概率和所述每个片段为所述音乐片段的概率，确定所述各个片段是所述语音片段还是所述音乐片段。

17、可以看到，本技术实施例中，利用卷积神经网络对片段类型进行分类，卷积神经网络能够学习到音频片段中的局部特征，从而实现对细小片段的分类。相比传统的基于规则或手工特征提取的方法，卷积神经网络可以更好地捕捉到音频片段中的细微差异，提高分类的精度和准确性。

18、基于第一方面，在可能的实现方式中，所述待评测音频中包括时间信息，所述语音片段的位置信息指的是所述语音片段在所述待评测音频中的时间位置信息，所述音乐片段的位置信息指的是所述音乐片段在所述待评测音频中的时间位置信息。

19、基于第一方面，在可能的实现方式中，所述多个片段中的相邻片段在时间位置上存在重叠，则所述多个片段中的所述语音片段与所述音乐片段在时间位置上存在重叠；

20、在所述对多个所述语音片段进行质量评测之前，所述方法还包括：

21、将与所述音乐片段在时间位置上存在重叠的所述语音片段删除。

22、可以看到，本技术实施例中，在对多个语音片段进行质量评测之前，将与音乐片段在时间位置上存在重叠的语音片段删除，可以提高评测的准确性。因为重叠部分的语音片段可能会受到音乐的干扰，导致评测结果不准确。通过删除重叠部分，可以确保评测的对象是纯粹的语音片段，从而提高评测的准确性和可靠性。

23、基于第一方面，在可能的实现方式中，所述对多个所述语音片段进行质量评测，获得多个所述语音片段中的每一语音片段的评测结果，包括：

24、将多个所述语音片段输入语音评测模型中，获得多个所述语音片段中的每一语音片段的评测结果；所述语音评测模型包括特征提取层、卷积层、自注意力网络层以及注意力池化层，其中，

25、所述特征提取层用于提取多个所述语音片段中的每一语音片段的特征；

26、所述卷积层用于对所述每一语音片段的特征进行降维处理，获得所述每一语音片段的降维特征；

27、所述自注意力网络层用于基于自注意力机制对各个语音片段的降维特征进行加权处理，获得所述每一语音片段的加权特征；

28、所述注意力池化层用于根据所述每一语音片段的加权特征对所述每一语音片段进行评测，获得所述每一语音片段的评测结果。

29、可以看到，本技术实施例中，该语音评测模型通过特征提取、降维、自注意力和注意力池化等层的组合，能够提取语音片段的有用特征，捕捉上下文信息，并根据加权特征进行评测。这样可以提高评测的准确性和鲁棒性，为每个语音片段提供准确的评测结果。

30、基于第一方面，在可能的实现方式中，所述方法应用于直播或点播场景中。

31、第二方面，本技术实施例提供了语音评测模型的训练方法，包括：

32、获取多个参考语音片段和所述多个参考语音片段对应的标签，所述多个参考语音片段中的每个参考语音片段对应的标签包括多个用户对所述参考语音片段的评测结果的均值；

33、基于所述多个参考语音片段和所述多个参考语音片段对应的标签进行训练，获得语音评测模型，所述语音评测模型中的损失函数中包括对所述参考语音片段进行评测的用户数量。

34、可以看到，本技术实施例中，通过使用多个参考语音片段和对应的标签进行训练，并将评测用户数量添加至损失函数中，可以提高语音评测模型的客观性、可靠性和泛化能力。这样可以使模型更好地适应不同用户的评测需求，提供准确、一致的评测结果。

35、基于第二方面，在可能的实现方式中，所述语音评测模型是经过多轮训练获得的，在每一轮训练中，所述损失函数用于对当前参考语音片段的预测误差与评测所述当前参考语音片段的用户数量的α次幂之间的乘积求均方根误差，其中，所述当前参考语音片段的预测误差为所述当前参考语音片段对应的标签与所述语音评测模型对所述当前参考语音片段输出的评测结果之间的差值，α为可调参数。

36、可以看到，本技术实施例中，通过多轮训练和使用考虑预测误差和评测用户数量的损失函数，可以逐步优化语音评测模型的性能和准确度，这样可以使语音评测模型更好地适应不同用户的评测需求，提供准确、一致的评测结果，并通过调整参数α实现对评测权重的灵活控制。

37、第三方面，本技术实施例提供了一种音频质量评测装置，包括：

38、获取模块，用于获取待评测音频；

39、确定模块，用于对所述待评测音频进行分类处理，确定所述待评测音频中的语音片段和音乐片段；

40、提取模块，用于根据所述语音片段的位置信息和所述音乐片段的位置信息，从所述待评测音频中提取多个所述语音片段；

41、质量评测模块，用于对多个所述语音片段进行质量评测，获得多个所述语音片段中的每一语音片段的评测结果；

42、所述质量评测模块还用于，基于所述每一语音片段的评测结果，获得所述待评测音频的评测结果。

43、基于第三方面，在可能的实现方式中，所述确定模块用于：

44、将所述待评测音频分为多个片段；

45、提取所述多个片段中每个片段的特征；

46、根据所述每个片段的特征，确定所述多个片段中的各个片段是所述语音片段还是所述音乐片段。

47、基于第三方面，在可能的实现方式中，所述确定模块还用于：

48、将所述每个片段的特征输入卷积神经网络中，获得所述每个片段为所述语音片段的概率和所述每个片段为所述音乐片段的概率；

49、根据所述每个片段为所述语音片段的概率和所述每个片段为所述音乐片段的概率，确定所述各个片段是所述语音片段还是所述音乐片段。

50、基于第三方面，在可能的实现方式中，所述待评测音频中包括时间信息，所述语音片段的位置信息指的是所述语音片段在所述待评测音频中的时间位置信息，所述音乐片段的位置信息指的是所述音乐片段在所述待评测音频中的时间位置信息。

51、基于第三方面，在可能的实现方式中，所述多个片段中的相邻片段在时间位置上存在重叠，则所述多个片段中的所述语音片段与所述音乐片段在时间位置上存在重叠；

52、提取模块用于，将与所述音乐片段在时间位置上存在重叠的所述语音片段删除。

53、基于第三方面，在可能的实现方式中，质量评测模块用于，将多个所述语音片段输入语音评测模型中，获得多个所述语音片段中的每一语音片段的评测结果；所述语音评测模型包括特征提取层、卷积层、自注意力网络层以及注意力池化层，其中，

54、所述特征提取层用于提取多个所述语音片段中的每一语音片段的特征；

55、所述卷积层用于对所述每一语音片段的特征进行降维处理，获得所述每一语音片段的降维特征；

56、所述自注意力网络层用于基于自注意力机制对各个语音片段的降维特征进行加权处理，获得所述每一语音片段的加权特征；

57、所述注意力池化层用于根据所述每一语音片段的加权特征对所述每一语音片段进行评测，获得所述每一语音片段的评测结果。

58、第三方面中的各个功能模块用于实现上述第一方面以及第一方面的任意一种的实现方式所述的方法。

59、第四方面，本技术实施例提供了一种语音评测模型的训练装置，包括：

60、获取模块，用于获取多个参考语音片段和所述多个参考语音片段对应的标签，所述多个参考语音片段中的每个参考语音片段对应的标签包括多个用户对所述参考语音片段的评测结果的均值；

61、训练模块，用于基于所述多个参考语音片段和所述多个参考语音片段对应的标签进行训练，获得语音评测模型，所述语音评测模型中的损失函数中包括对所述参考语音片段进行评测的用户数量。

62、基于第四方面，在可能的实现方式中，所述语音评测模型是经过多轮训练获得的，在每一轮训练中，所述损失函数用于对当前参考语音片段的预测误差与评测所述当前参考语音片段的用户数量的α次幂之间的乘积求均方根误差，其中，所述当前参考语音片段的预测误差为所述当前参考语音片段对应的标签与所述语音评测模型对所述当前参考语音片段输出的评测结果之间的差值，α为可调参数。

63、第四方面中的各个功能模块用于实现上述第二方面以及第二方面的任意一种的实现方式所述的方法。

64、第五方面，本技术实施例提供了一种计算设备，包括存储器和处理器，所述存储器用于存储指令，所述处理器用于执行所述存储器中存储的所述指令，以实现上述第一方面以及第一方面的任意一种可能的实现方式所描述的方法，或者，以实现上述第二方面以及第二方面的任意一种可能的实现方式所描述的方法。

65、第六方面，本技术实施例提供了一种计算机存储介质，包括程序指令，当所述程序指令被设备执行时，使得所述设备执行第一方面以及第一方面的任意一种可能的实现方式所描述的方法，或者，使得所述设备执行第二方面以及第二方面的任意一种可能的实现方式所描述的方法。

66、第七方面，本技术提供了一种计算机程序产品，包括程序指令，当该计算机程序产品被计算设备执行时，该计算设备用于执行前述第一方面以及第一方面的任意一种可能的实现方式所述的方法，或者，用于执行前述第二方面以及第二方面的任意一种可能的实现方式所述的方法。该计算机程序产品可以为一个软件安装包，在需要使用前述第一方面或第二方面的任一种可能的设计提供的方法的情况下，可以下载该计算机程序产品并在设备上执行该计算机程序产品，以实现第一方面以及第一方面的任意一种可能的实现方式所述的方法，或者，以实现第二方面以及第二方面的任意一种可能的实现方式所述的方法。