技术新讯 > 乐器声学设备的制造及制作,分析技术 > 音质检测方法及相关装置、设备和存储介质与流程 > 正文

音质检测方法及相关装置、设备和存储介质与流程

国知局
2024-06-21 11:50:57

本申请涉及语音处理，特别是涉及一种音质检测方法及相关装置、设备和存储介质。

背景技术：

1、在语音识别以及语音评测等应用领域，音频质量是决定待测语音性能的重要因素之一。

2、现有技术中，通常依赖于人工主观评估的方法或者传统的音频数据识别方法实现对待测音频的质量评测。但是，人工主观评估需要大量的时间和人力投入，并且评估结果容易受到主观因素的影响。而基于传统音频数据识别技术的方法往往对特定的音质缺陷类型有较强的依赖性，对于实际应用场景中复杂的缺陷数据具有较差的检测精度，从而削弱音质检测的准确性和鲁棒性。有鉴于此，如何提升音质检测的准确性和鲁棒性，成为亟待解决的问题。

技术实现思路

1、本申请主要解决的技术问题是提供一种音质检测方法及相关装置、设备和存储介质，能够提升音质检测的准确性和鲁棒性。

2、为了解决上述技术问题，本申请第一方面提供了一种音质检测方法，包括：基于待测音频中的语音段，提取得到目标频谱图；基于目标频谱图，生成代表语音段的第一音频特征；基于第一音频特征中各个元素位置的重要度，编码得到第二音频特征；其中，元素位置的重要度表征元素位置的特征元素相对于各个元素位置的特征元素而言对于音质检测的重要程度；基于第二音频特征进行分类预测，得到表征待测音频质量情况的分类结果。

3、为了解决上述技术问题，本申请第二方面提供了一种音质检测装置，包括：提取模块、生成模块、编码模块和分类模块，提取模块用于基于待测音频中的语音段，提取得到目标频谱图；生成模块用于基于目标频谱图，生成代表语音段的第一音频特征；编码模块用于基于第一音频特征中各个元素位置的重要度，编码得到第二音频特征；其中，元素位置的重要度表征元素位置的特征元素相对于各个元素位置的特征元素而言对于音质检测的重要程度；分类模块用于基于第二音频特征进行分类预测，得到表征待测音频质量情况的分类结果。

4、为了解决上述技术问题，本申请第三方面提供了一种电子设备，包括相互耦接的存储器和处理器，存储器中存储有程序指令，处理器用于执行程序指令以实现上述第一方面中的音质检测方法。

5、为了解决上述技术问题，本申请第四方面提供了一种计算机可读存储介质，存储有能够被处理器运行的程序指令，程序指令用于实现上述第一方面所述的音质检测方法。

6、上述方案，基于待测音频中的语音段，提取得到目标频谱图，基于目标频谱图生成代表语音段的第一音频特征，基于第一音频特征中各个元素位置的重要度，编码得到第二音频特征，元素位置的重要度表征元素位置的特征元素相对于各个元素位置的特征元素而言对于音质检测的重要程度，基于第二音频特征进行分类预测，得到表征待测音频质量情况的分类结果。一方面，基于频谱图生成代表语音段的第一音频特征，能够尽可能多地保留语音段的声学特征，进而为识别语音段中不同类型的噪声提供尽可能准确的辅助信息，另一方面，用于分类预测的第二音频特征基于第一音频特征中各个元素位置的重要度编码得到，能够在音质检测的过程中尽可能地关注到与音质检测相关的语音特征，故能提升音质检测的准确性和鲁棒性。

技术特征：

1.一种音质检测方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述基于所述第一音频特征中各个元素位置的重要度，编码得到第二音频特征，包括：

3.根据权利要求2所述的方法，其特征在于，所述基于所述第一音频特征，预测各个所述元素位置的重要度之前，所述方法还包括：

4.根据权利要求1所述的方法，其特征在于，所述基于待测音频中的语音段，提取得到目标频谱图，包括：

5.根据权利要求4所述的方法，其特征在于，所述目标频谱图至少包括梅尔频谱图，所述基于若干提取参数分别处理所述语音段，得到与所述提取参数对应的目标频谱图之前，所述方法还包括：

6.根据权利要求1所述的方法，其特征在于，所述基于所述第二音频特征进行分类预测，得到表征所述待测音频质量情况的分类结果之前，所述方法还包括：

7.根据权利要求1至6任一项所述的方法，其特征在于，所述分类结果由音质检测模型对所述待测音频检测得到，所述音质检测模型至少包括顺序连接的特征提取网络、特征编码网络、分类预测网络，所述特征提取网络用于生成所述第一音频特征，所述特征编码网络用于编码得到所述第二音频特征，且所述特征编码网络至少包含用于预测所述重要度的自适应感知层，所述分类预测网络用于预测所述分类结果。

8.一种音质检测装置，其特征在于，包括：

9.一种电子设备，其特征在于，包括相互耦接的存储器和处理器，所述处理器用于执行所述存储器中存储的程序指令，以实现权利要求1至7任一项所述的音质检测方法。

10.一种计算机可读存储介质，其上存储有程序指令，其特征在于，所述程序指令被处理器执行时实现权利要求1至7任一项所述的音质检测方法。

技术总结本申请公开了一种音质检测方法及相关装置、设备和存储介质，其中，音质检测方法包括：基于待测音频中的语音段，提取得到目标频谱图；基于目标频谱图，生成代表语音段的第一音频特征；基于第一音频特征中各个元素位置的重要度，编码得到第二音频特征；其中，元素位置的重要度表征元素位置的特征元素相对于各个元素位置的特征元素而言对于音质检测的重要程度；基于第二音频特征进行分类预测，得到表征待测音频质量情况的分类结果。上述方案，能够提升音质检测的准确性和鲁棒性。技术研发人员：苏涛,杨康,李宝善,吴奎,盛志超,王士进,刘聪,胡国平受保护的技术使用者：科大讯飞股份有限公司技术研发日：技术公布日：2024/5/10