技术新讯 > 乐器声学设备的制造及制作,分析技术 > 嗓音数据的质量分类方法、装置以及计算机设备 > 正文

嗓音数据的质量分类方法、装置以及计算机设备

国知局
2024-06-21 11:50:14

本发明涉及音频检测领域，特别涉及是一种嗓音数据的质量分类方法、装置、计算机设备以及存储介质。

背景技术：

1、在音频检测领域，目前常用的传统声学参数主要包括基频、强度、振动和声调和过零率，梅尔倒频谱系数等特征，这些参数对于捕捉和识别个体的声音特征至关重要。

2、然而，上述的传统声学参数的局限性在于它们无法充分表达嗓音数据中的复杂模式和细微差异，并且嗓音数据中通常包括正常嗓音以及失调嗓音，正常嗓音和失调嗓音之间存在连续性，基于传统声学参数的基本特性对嗓音数据进行质量检测，无法实现嗓音数据的准确以及高效的质量分类。

技术实现思路

1、基于此，本发明的目的在于，提供一种嗓音数据的质量分类方法、装置、计算机设备以及存储介质，通过对待分类的嗓音数据进行全面以及深入分析提取扰动特征数据、时域特征数据、频域特征数据、时频域融合特征数据以及卷积特征数据，提供了更为全面和精确的声音特征描述，结合提取的特征数据，采用涵盖特征选择、特征变换和分类框架，实现了对嗓音数据的质量分类，提高了质量分类的准确性以及效率。

2、第一方面，本申请实施例提供了一种嗓音数据的质量分类方法，包括以下步骤：

3、获得待分类的嗓音数据以及预设的音频质量分类模型，其中，所述音频质量分类模型包括特征提取模块、特征选择模块、特征变换模块以及分类模块；

4、将所述待分类的嗓音数据输入至所述特征提取模块中进行特征提取，获得音频特征矩阵，其中，所述音频特征矩阵包括若干个原始特征数据，所述原始特征数据包括扰动特征数据、时域特征数据、频域特征数据、时频域融合特征数据以及卷积特征数据；

5、将所述音频特征矩阵输入至所述特征选择模块中，对所述音频特征矩阵中若干个原始特征数据进行特征选择，获得若干个目标特征数据，构建特征选择矩阵；

6、将所述特征选择矩阵输入至所述特征变换模块中进行空间映射，获得若干个目标特征数据对应的空间映射特征数据，构建特征变换矩阵；

7、将所述特征变换矩阵输入至所述分类模块中进行分类预测，获得所述待分类的嗓音数据的质量预测概率数据，根据所述质量预测概率数据，获得所述待分类的嗓音数据的质量分类结果。

8、第二方面，本申请实施例提供了一种嗓音数据的质量分类装置，包括：

9、数据获得模块，用于获得待分类的嗓音数据以及预设的音频质量分类模型，其中，所述音频质量分类模型包括特征提取模块、特征选择模块、特征变换模块以及分类模块；

10、音频特征矩阵提取模块，用于将所述待分类的嗓音数据输入至所述特征提取模块中进行特征提取，获得音频特征矩阵，其中，所述音频特征矩阵包括若干个原始特征数据，所述原始特征数据包括扰动特征数据、时域特征数据、频域特征数据、时频域融合特征数据以及卷积特征数据；

11、音频特征矩阵选择模块，用于将所述音频特征矩阵输入至所述特征选择模块中，对所述音频特征矩阵中若干个原始特征数据进行特征选择，获得若干个目标特征数据，构建特征选择矩阵；

12、音频特征矩阵变换模块，用于将所述特征选择矩阵输入至所述特征变换模块中进行空间映射，获得若干个目标特征数据对应的空间映射特征数据，构建特征变换矩阵；

13、质量分类模块，用于将所述特征变换矩阵输入至所述分类模块中进行分类预测，获得所述待分类的嗓音数据的质量预测概率数据，根据所述质量预测概率数据，获得所述待分类的嗓音数据的质量分类结果。

14、第三方面，本申请实施例提供了一种计算机设备，包括：处理器、存储器以及存储在所述存储器上并可在所述处理器上运行的计算机程序；所述计算机程序被所述处理器执行时实现如第一方面所述嗓音数据的质量分类方法的步骤。

15、第四方面，本申请实施例提供了一种存储介质，所述存储介质存储有计算机程序，所述计算机程序被处理器执行时实现如第一方面所述的嗓音数据的质量分类方法的步骤。

16、在本申请实施例中，提供一种嗓音数据的质量分类方法、装置、计算机设备以及存储介质，对待分类的嗓音数据进行全面以及深入分析提取扰动特征数据、时域特征数据、频域特征数据、时频域融合特征数据以及卷积特征数据，提供了更为全面和精确的声音特征描述，结合提取的特征数据，采用涵盖特征选择、特征变换和分类框架，实现了对嗓音数据的质量分类，提高了质量分类的准确性以及效率。

17、为了更好地理解和实施，下面结合附图详细说明本发明。

技术特征：

1.一种嗓音数据的质量分类方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的嗓音数据的质量分类方法，其特征在于：所述扰动特征数据包括平滑倒谱峰值突出度数据、谐噪比数据、频率抖动数据、振幅抖动数据、频谱斜率数据、频谱回归线倾斜度数据、周期标准差数据、一次和二次谐波振幅差异数据、喉音噪声激发比数据、音高数据、音频质量指数数据和声学呼吸指数数据。

3.根据权利要求2所述的嗓音数据的质量分类方法，其特征在于：所述时域特征数据包括过零率数据；

4.根据权利要求3所述的嗓音数据的质量分类方法，其特征在于：所述频域特征数据包括平均梅尔倒频谱系数数据以及线性预测倒频谱系数数据；

5.根据权利要求4所述的嗓音数据的质量分类方法，其特征在于：所述特征选择模块包括若干个第一决策树；

6.根据权利要求5所述的嗓音数据的质量分类方法，其特征在于：所述特征变换模块包括若干个第二决策树，所述第二决策树包括与所述特征选择矩阵的相同目标特征数据数目的若干个叶节点；

7.根据权利要求6所述的嗓音数据的质量分类方法，其特征在于：所述分类模块包括若干个第三决策树；

8.根据权利要求5所述的嗓音数据的质量分类方法，其特征在于，所述将所述音频特征矩阵输入至所述特征选择模块中，对所述音频特征矩阵中若干个原始特征数据进行特征选择，获得若干个目标特征数据，构建特征选择矩阵之前，包括步骤：

9.一种嗓音数据的质量分类装置，其特征在于，包括：

10.一种计算机设备，其特征在于，包括处理器、存储器以及存储在所述存储器中并可在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现如权利要求1至8任一项所述的嗓音数据的质量分类方法的步骤。

技术总结本发明涉及音频检测领域，特别涉及一种嗓音数据的质量分类方法、装置、计算机设备以及存储介质，对待分类的嗓音数据进行全面以及深入分析提取扰动特征数据、时域特征数据、频域特征数据、时频域融合特征数据以及卷积特征数据，提供了更为全面和精确的声音特征描述，结合提取的特征数据，采用涵盖特征选择、特征变换和分类框架，实现了对嗓音数据的质量分类，提高了质量分类的准确性以及效率。技术研发人员：张俊鸿,庄伟豪,张雪媛,翁胤仑,王国望,彭卓凡,袭奇,王婧,谢承旺受保护的技术使用者：华南师范大学技术研发日：技术公布日：2024/5/8