技术新讯 > 乐器声学设备的制造及制作,分析技术 > 音频质量确定模型的训练方法、装置、设备以及存储介质与流程  >  正文

音频质量确定模型的训练方法、装置、设备以及存储介质与流程

  • 国知局
  • 2024-06-21 11:28:39

本技术涉及音频,尤其涉及一种音频质量确定模型的训练方法、装置、设备以及存储介质。

背景技术:

1、随着互联网技术的发展,直播、短视频、实时通信(real-time communication,rtc)等线上娱乐方式越来越丰富。这些线上娱乐方式中,音频的质量对用户体验至关重要。

2、相关技术中,通常采用主观音频质量评价方法和客观音频质量评价方法确定音频质量。其中,主观音频质量评价方法是指:由专业人士在专业环境下对音频进行测评,给出音频的主观质量分。客观音频质量评价方法是指:将无损音频作为参考音频,基于该参考音频,计算有损音频的客观音频指标,得到有损音频的客观质量分,其中,客观音频指标包括:感知客观听觉质量分析(perceptual objective listening quality analysis,polqa)、语音质量感知评测(perceptual evaluation of speech quality,pesq)和音频质量感知评测(perceptual evaluation of audio quality,peaq)等。

3、上述方法中,主观音频质量评价方法耗费人力成本和时间成本;客观音频质量评价方法需要无损音频作为参考音频,无法对线上语音等不存在参考音频的音频进行质量评估,并且客观质量分无法精准地反映用户对音频的主观听感。

技术实现思路

1、本技术提供一种音频质量确定模型的训练方法、装置、设备以及存储介质,通过该方法确定的质量分能够更加精准地反映用户的主观听感,并且无需参考音频,适用于多种场景下的音频质量评估,能够节约人力成本和时间成本。本方案内容如下。

2、根据本技术实施例的第一方面,提供一种音频质量确定模型的训练方法,该方法包括:

3、提取样本音频的频谱特征,该样本音频为带标签的音频,该标签包括该样本音频的平均质量分、质量分分布和类型分布,该质量分分布是指该样本音频对应于不同质量分档的概率,该类型分布是指该样本音频对应于不同音频类型的概率;

4、通过该音频质量确定模型中的第一子网络,对该样本音频的频谱特征进行处理,得到该样本音频的质量特征;

5、通过该音频质量确定模型中的第二子网络、第三子网络和第四子网络,分别对该样本音频的质量特征进行处理,得到该样本音频的预测质量分、预测质量分分布和预测类型分布;

6、基于该标签、该样本音频的预测质量分、预测质量分分布和预测类型分布,确定该音频质量确定模型的损失值,基于该损失值对该音频质量确定模型进行训练,得到训练好的音频质量确定模型。

7、通过上述方法,以样本音频的平均质量分、质量分分布和类型分布作为样本音频的标签,进而基于该标签对音频质量确定模型进行有监督的多任务训练,由于质量分分布为样本音频为不同分档的概率,将质量分分布作为标签的一部分能够使得模型学习到不同的对象对音频的评价尺度,进而基于训练好的模型预测出的质量分能够更加精准地反映人对音频的主观听感,并且由于类型分布为样本音频为不同音频类型的概率,将类型分布作为标签的一部分能够使得模型同时学习到音频分类知识,从而使得训练后的模型能够满足多种场景下不同类型的音频的质量评价,并且无需参考音频。

8、在一种可能实施方式中,该方法还包括:

9、获取该样本音频的多组质量分和音频类型,不同组该质量分和音频类型由不同的对象对该样本音频进行标注得到;

10、基于该多组质量分和音频类型,确定该样本音频的平均质量分、质量分分布和类型分布。

11、在一种可能实施方式中,该提取样本音频的频谱特征,包括:

12、对该样本音频进行短时傅里叶变换,得到该样本音频的时频域表示;

13、基于该样本音频的时频域表示,确定该样本音频的对数功率谱,该样本音频的对数功率谱为该样本音频的频谱特征。

14、在一种可能实施方式中,该通过该音频质量确定模型中的第一子网络,对该样本音频的频谱特征进行处理,得到该样本音频的质量特征,包括:

15、基于该样本音频的频谱特征,确定帧级别的质量特征;

16、对该帧级别的质量特征进行基于注意力的统计特性池化,得到句子级别的质量特征,该句子级别的质量特征为该样本音频的质量特征。

17、在一种可能实施方式中,该基于该标签、该样本音频的预测质量分、预测质量分分布和预测类型分布,确定该音频质量确定模型的损失值,包括:

18、基于该标签中的该平均质量分和该预测质量分,确定该音频质量确定模型的第一损失值;

19、基于该标签中的该质量分分布和该预测质量分分布,确定该音频质量确定模型的第二损失值;

20、基于该标签中的该类型分布和该预测类型分布,确定该音频质量确定模型的第三损失值;

21、融合该第一损失值、该第二损失值和该第三损失值,得到该损失值。

22、在一种可能实施方式中,该基于该标签中的该平均质量分和该预测质量分,确定该音频质量确定模型的第一损失值,包括:

23、将该平均质量分和该预测质量分之间的均方根误差确定为该第一损失值。

24、在一种可能实施方式中,该基于该标签中的该质量分分布和该预测质量分分布,确定该音频质量确定模型的第二损失值,包括:

25、将该质量分分布和该预测质量分分布的交叉熵确定为该第二损失值。

26、在一种可能实施方式中,该基于该标签中的该类型分布和该预测类型分布,确定该音频质量确定模型的第三损失值,包括:

27、将该类型分布和该预测类型分布的交叉熵确定为该第三损失值。

28、在一种可能实施方式中,该方法还包括:

29、提取待评估的音频的频谱特征;

30、通过该第一子网络,对该待评估的音频的频谱特征进行处理,得到该待评估的音频的质量特征;

31、通过该第二子网络,对该质量特征进行处理,得到该待评估的音频的质量分。

32、通过上述方法,音频质量确定模型为多任务学习模型,质量分预测、质量分分布预测和类型分布预测这三种任务之间共享第一子网络确定的质量特征,并且第一子网络的权重基于这三种任务对应的损失值同时调整,使得第一子网络能够学习到多种任务的信息,从而模型在处理质量分预测这一单任务时能够具有较好的泛化效果,提高所预测的质量分的精度。

33、根据本技术实施的第二方面,提供一种音频质量确定模型的训练装置,该装置包括:

34、提取单元,被配置为执行提取样本音频的频谱特征,该样本音频为带标签的音频,该标签包括该样本音频的平均质量分、质量分分布和类型分布,该质量分分布是指该样本音频对应于不同质量分档的概率,该类型分布是指该样本音频对应于不同音频类型的概率;

35、第一处理单元,被配置为执行通过该音频质量确定模型中的第一子网络,对该样本音频的频谱特征进行处理,得到该样本音频的质量特征;

36、第二处理单元,被配置为执行通过该音频质量确定模型中的第二子网络、第三子网络和第四子网络,分别对该样本音频的质量特征进行处理,得到该样本音频的预测质量分、预测质量分分布和预测类型分布;

37、训练单元,被配置为执行基于该标签、该样本音频的预测质量分、预测质量分分布和预测类型分布,确定该音频质量确定模型的损失值,基于该损失值对该音频质量确定模型进行训练,得到训练好的音频质量确定模型。

38、在一种可能实施方式中,该装置还包括:

39、获取单元,被配置为执行获取该样本音频的多组质量分和音频类型,不同组该质量分和音频类型由不同的对象对该样本音频进行标注得到;

40、确定单元,被配置为执行基于该多组质量分和音频类型,确定该样本音频的平均质量分、质量分分布和类型分布。

41、在一种可能实施方式中,该提取单元,被配置为执行:

42、对该样本音频进行短时傅里叶变换,得到该样本音频的时频域表示;

43、基于该样本音频的时频域表示,确定该样本音频的对数功率谱,该样本音频的对数功率谱为该样本音频的频谱特征。

44、在一种可能实施方式中,该第一处理单元,被配置为执行:

45、基于该样本音频的频谱特征,确定帧级别的质量特征;

46、对该帧级别的质量特征进行基于注意力的统计特性池化,得到句子级别的质量特征,该句子级别的质量特征为该样本音频的质量特征。

47、在一种可能实施方式中,该训练单元,包括:

48、第一确定子单元,被配置为执行基于该标签中的该平均质量分和该预测质量分,确定该音频质量确定模型的第一损失值;

49、第二确定子单元,被配置为执行基于该标签中的该质量分分布和该预测质量分分布,确定该音频质量确定模型的第二损失值;

50、第三确定子单元,被配置为执行基于该标签中的该类型分布和该预测类型分布,确定该音频质量确定模型的第三损失值;

51、融合子单元,被配置为执行融合该第一损失值、该第二损失值和该第三损失值,得到该损失值。

52、在一种可能实施方式中,该第一确定子单元,被配置为执行:

53、将该平均质量分和该预测质量分之间的均方根误差确定为该第一损失值。

54、在一种可能实施方式中,该第二确定子单元,被配置为执行:

55、将该质量分分布和该预测质量分分布的交叉熵确定为该第二损失值。

56、在一种可能实施方式中,该第三确定子单元,被配置为执行:

57、将该类型分布和该预测类型分布的交叉熵确定为该第三损失值。

58、在一种可能实施方式中,该提取单元还被配置为执行:

59、提取待评估的音频的频谱特征;

60、该第一处理单元还被配置为执行通过该第一子网络,对该待评估的音频的频谱特征进行处理,得到该待评估的音频的质量特征;

61、该第二处理单元还被配置为执行通过该第二子网络,对该质量特征进行处理,得到该待评估的音频的质量分。

62、根据本技术实施例的第三方面,提供一种电子设备,该电子设备包括:

63、一个或多个处理器;

64、用于存储该处理器可执行程序代码的存储器;

65、其中,该处理器被配置为执行该程序代码,以实现上述音频质量确定模型的训练方法。

66、根据本技术实施例的第四方面,提供一种计算机可读存储介质,该计算机可读存储介质包括:当该计算机可读存储介质中的程序代码由电子设备的处理器执行时,使得电子设备能够执行上述第一方面或第一方面的任一种可能实施方式所示的音频质量确定模型的训练方法。

67、根据本技术实施例的第五方面,提供一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述的音频质量确定模型的训练方法。

68、应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本技术。

本文地址:https://www.jishuxx.com/zhuanli/20240618/21723.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。