技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种语音音高的识别方法、系统、电子设备及存储介质与流程 > 正文

一种语音音高的识别方法、系统、电子设备及存储介质与流程

国知局
2024-06-21 11:37:48

本技术涉及语音识别，特别是一种语音音高的识别方法、系统、电子设备及存储介质。

背景技术：

1、语音是人说话时声带振动发出的，听感的音高由声带振动的频率决定，通常以f0值作为音高的数值描述，音高的量纲就是振动频率。声带不震动只发气声时，认为f0等于0。f0等于0的语音叫做轻音，f0不等于0的语音叫做浊音。

2、现有的音高识别方案都是致力于分析语音局部的准周期性程度。这主要是考虑到发音机理是声带的往复震动，所以发出的语音波形在局部就会呈现周期性重复。但实际上声带的震动不会像数学领域里的正弦信号那样理想化规整，周期性不够典型，从而分析准周期性的方法被影响。尤其是当声带干裂，振动不稳定，更降低了周期性的理想化程度；或者当出现混响，发出的声波遇到障碍物反弹回来的声波与原语音波形叠加，形成多个周期性信号的混叠，周期性更不典型，从而导致音高识别效果不佳。

3、因此，亟需一种新的语音音高的识别方法。

技术实现思路

1、鉴于上述问题，本技术实施例提供了一种语音音高的识别方法、系统、电子设备及存储介质，以便克服上述问题或者至少部分地解决上述问题。

2、本技术实施例第一方面，提供了一种语音音高的识别方法，所述方法包括：

3、获取待识别的语音文件，并将所述待识别的语音文件分别输入音高识别模型和自监督模型；

4、通过所述音高识别模型得到所述待识别的语音文件对应的原始置信度向量以及所述音高识别模型的倒数第二层的输出结果；

5、通过所述自监督模型，得到所述待识别的语音文件对应的自监督置信度向量；

6、将所述自监督置信度向量与所述音高识别模型的倒数第二层的输出结果一起输入到预先训练好的辅助置信度预测模块中，得到预测辅助置信度向量；

7、将所述预测辅助置信度向量输入到预先训练好的向量数据库中，得到辅助置信度向量；

8、将所述原始置信度向量和所述辅助置信度向量相加，得到目标置信度向量；

9、根据所述目标置信度向量，计算得到所述待识别的语音文件的音高。

10、可选地，所述将所述预测辅助置信度向量输入到预先训练好的向量数据库中，得到所述辅助置信度向量，包括：

11、依次获取所述预测辅助置信度向量中的每一维度的所述预测辅助置信度向量；

12、将每一维度的所述预测辅助置信度向量输入所述向量数据库中，从所述向量数据库中检索出与各个维度的所述预测辅助置信度向量各自相匹配的优选置信度向量；

13、将与各个维度的所述预测辅助置信度向量各自相匹配的优选置信度向量进行组合，得到所述辅助置信度向量。

14、可选地，所述辅助置信度预测模块是通过如下步骤训练得到的：

15、获取任一条训练数据集，所述训练数据集包括：第一语音文件、所述第一语音文件通过所述音高识别模型倒数第二层输出的结果，以及所述第一语音文件通过所述音高识别模型识别后的第一原始置信度向量；

16、将所述第一语音文件输入所述自监督模型，得到所述第一语音文件对应的第一自监督置信度向量；

17、将所述第一自监督置信度向量与所述第一语音文件通过所述音高识别模型倒数第二层输出的结果一起输入初始辅助置信度预测模块，得到所述第一语音文件对应的第一预测辅助置信度向量；

18、根据所述第一预测辅助置信度向量与所述第一原始置信度向量，计算损失函数；

19、根据所述损失函数，更新所述初始辅助置信度预测模块的模型参数，得到所述辅助置信度预测模块。

20、可选地，所述向量数据库是通过如下步骤训练得到：

21、获取多条训练数据集，每一条所述训练数据集包括一个第二语音文件、所述第二语音文件通过所述音高识别模型倒数第二层输出的结果，以及所述第二语音文件通过所述音高识别模型识别后的输出的第二原始置信度向量，其中，所述第二语音文件为预先在干净环境中录制的语音文件；

22、从每一条所述训练数据集中分别提取出各个所述训练数据集各自的第二原始置信度向量；

23、通过数据库训练工具将各个所述第二原始置信度向量进行打包，得到所述向量数据库。

24、可选地，所述训练数据集是通过如下步骤训练得到：

25、获取多个原始训练数据，每个所述原始训练数据分别包括一个第三语音文件，其中，所述第三语音文件为预先在干净环境中录制的语音文件；

26、将每个所述原始训练数据输入音高识别模型，得到各个所述原始训练数据中的每个第三语音文件通过所述音高识别模型倒数第二层输出的结果以及每个第三语音文件通过所述音高识别模型识别后输出的第三原始置信度向量；

27、将每个所述第三语音文件、每个所述第三语音文件各自对应的通过所述音高识别模型识别后的倒数第二层输出的结果，以及，每个所述第三语音文件各自对应的通过所述音高识别模型识别后输出的第三原始置信度向量作为一条训练数据；

28、将多个所述训练数据组成所述训练数据集。

29、可选地，所述将所述自监督置信度向量与所述音高识别模型的倒数第二层的输出结果一起输入到预先训练好的辅助置信度预测模块中，得到预测辅助置信度向量，包括：

30、将所述自监督置信度向量与所述音高识别模型倒数第二层的输出结果按照维度进行拼接，得到拼接后的置信度向量；

31、将所述拼接后的置信度向量输入所述辅助置信度预测模块的全连接层，通过所述全连接层的加权求和与偏置处理后，得到所述预测辅助置信度向量。

32、可选地，所述根据所述目标置信度向量，计算得到所述待识别的语音文件的音高，包括：

33、根据所述目标置信度向量，确定所述待识别的语音文件中的每一帧语音文件各自对应的置信度向量；

34、将所述每一帧语音文件各自对应的置信度向量输入音高计算模块，得到每一帧语音文件各自对应的音高；

35、将所述每一帧语音文件各自对应的音高进行组合，得到所述待识别的语音文件的音高。

36、本技术实施例第二方面，提供了一种语音音高的识别系统，所述系统包括：

37、获取模块，用于获取待识别的语音文件，并将所述待识别的语音文件分别输入音高识别模型和自监督模型；

38、识别模块，用于通过所述音高识别模型得到所述待识别的语音文件对应的原始置信度向量以及所述音高识别模型的倒数第二层的输出结果；

39、通过所述自监督模型，得到所述待识别的语音文件对应的自监督置信度向量；

40、第一输入模块，用于将所述自监督置信度向量与所述音高识别模型的倒数第二层的输出结果一起输入到预先训练好的辅助置信度预测模块中，得到预测辅助置信度向量；

41、第二输入模块，用于将所述预测辅助置信度向量输入到预先训练好的向量数据库中，得到辅助置信度向量；

42、确定模块，用于将所述原始置信度向量和所述辅助置信度向量相加，得到目标置信度向量；

43、计算模块，用于根据所述目标置信度向量，计算得到所述待识别的语音文件的音高。

44、可选地，所述将所述预测辅助置信度向量输入到预先训练好的向量数据库中，得到所述辅助置信度向量，所述第二输入模块，包括：

45、第一获取子模块，用于依次获取所述预测辅助置信度向量中的每一维度的所述预测辅助置信度向量；

46、第一输入子模块，用于将每一维度的所述预测辅助置信度向量输入所述向量数据库中，从所述向量数据库中检索出与各个维度的所述预测辅助置信度向量各自相匹配的优选置信度向量；

47、组合子模块，用于将与各个维度的所述预测辅助置信度向量各自相匹配的优选置信度向量进行组合，得到所述辅助置信度向量。

48、可选地，所述辅助置信度预测模块是通过如下步骤训练得到的：

49、第一获取子单元，用于获取任一条训练数据集，所述训练数据集包括：第一语音文件、所述第一语音文件通过所述音高识别模型倒数第二层输出的结果，以及所述第一语音文件通过所述音高识别模型识别后的第一原始置信度向量；

50、第一输入子单元，用于将所述第一语音文件输入所述自监督模型，得到所述第一语音文件对应的第一自监督置信度向量；

51、第二输入子单元，用于将所述第一自监督置信度向量与所述第一语音文件通过所述音高识别模型倒数第二层输出的结果一起输入初始辅助置信度预测模块，得到所述第一语音文件对应的第一预测辅助置信度向量；

52、第一计算子单元，用于根据所述第一预测辅助置信度向量与所述第一原始置信度向量，计算损失函数；

53、第一更新子单元，用于根据所述损失函数，更新所述初始辅助置信度预测模块的模型参数，得到所述辅助置信度预测模块。

54、可选地，所述向量数据库是通过如下步骤训练得到：

55、第二获取子单元，用于获取多条训练数据集，每一条所述训练数据集包括一个第二语音文件、所述第二语音文件通过所述音高识别模型倒数第二层输出的结果，以及所述第二语音文件通过所述音高识别模型识别后的输出的第二原始置信度向量，其中，所述第二语音文件为预先在干净环境中录制的语音文件；

56、提取子单元，用于从每一条所述训练数据集中分别提取出各个所述训练数据集各自的第二原始置信度向量；

57、打包子单元，用于通过数据库训练工具将各个所述第二原始置信度向量进行打包，得到所述向量数据库。

58、可选地，所述训练数据集是通过如下步骤训练得到：

59、第三获取子单元，用于获取多个原始训练数据，每个所述原始训练数据分别包括一个第三语音文件，其中，所述第三语音文件为预先在干净环境中录制的语音文件；

60、第三输入子单元，用于将每个所述原始训练数据输入音高识别模型，得到各个所述原始训练数据中的每个第三语音文件通过所述音高识别模型倒数第二层输出的结果以及每个第三语音文件通过所述音高识别模型识别后输出的第三原始置信度向量；

61、输出子单元，用于将每个所述第三语音文件、每个所述第三语音文件各自对应的通过所述音高识别模型识别后的倒数第二层输出的结果，以及，每个所述第三语音文件各自对应的通过所述音高识别模型识别后输出的第三原始置信度向量作为一条训练数据；

62、组成子单元，用于将多个所述训练数据组成所述训练数据集。

63、可选地，所述将所述自监督置信度向量与所述音高识别模型的倒数第二层的输出结果一起输入到预先训练好的辅助置信度预测模块中，得到预测辅助置信度向量，所述第一输入模块，包括：

64、拼接子模块，用于将所述自监督置信度向量与所述音高识别模型倒数第二层的输出结果按照维度进行拼接，得到拼接后的置信度向量；

65、处理子模块，用于将所述拼接后的置信度向量输入所述辅助置信度预测模块的全连接层，通过所述全连接层的加权求和与偏置处理后，得到所述预测辅助置信度向量。

66、可选地，所述根据所述目标置信度向量，计算得到所述待识别的语音文件的音高，所述计算模块，包括：

67、确定子模块，用于根据所述目标置信度向量，确定所述待识别的语音文件中的每一帧语音文件各自对应的置信度向量；

68、第二输入子模块，用于将所述每一帧语音文件各自对应的置信度向量输入音高计算模块，得到每一帧语音文件各自对应的音高；

69、组合子模块，用于将所述每一帧语音文件各自对应的音高进行组合，得到所述待识别的语音文件的音高。

70、本技术实施例第三方面，提供了一种电子设备，包括存储器、处理器及存储在所述存储器上的计算机程序，所述处理器执行所述计算机程序以实现如本技术第一方面所述的语音音高的识别方法。

71、本技术实施例第四方面，提供了一种计算机可读存储介质，其上存储有计算机程序/指令，该计算机程序/指令被处理器执行时实现如本技术第一方面所述的语音音高的识别方法。

72、本技术的有益效果：

73、本技术实施例提供了一种语音音高的识别方法，所述方法包括：获取待识别的语音文件，并将所述待识别的语音文件分别输入音高识别模型和自监督模型；通过所述音高识别模型得到所述待识别的语音文件对应的原始置信度向量以及所述音高识别模型的倒数第二层的输出结果；通过所述自监督模型，得到所述待识别的语音文件对应的自监督置信度向量；将所述自监督置信度向量与所述音高识别模型的倒数第二层的输出结果一起输入到预先训练好的辅助置信度预测模块中，得到预测辅助置信度向量；将所述预测辅助置信度向量输入到预先训练好的向量数据库中，得到辅助置信度向量；将所述原始置信度向量和所述辅助置信度向量相加，得到目标置信度向量；根据所述目标置信度向量，计算得到所述待识别的语音文件的音高。本技术中，在训练音高识别模型时引入了自监督模型，通过自监督模型提供额外的训练数据，从而能够预测出更加可靠的辅助置信度向量，并通过将原始置信度向量和辅助置信度向量相加，得到目标置信度向量，最终通过计算目标置信度向量能够得到更加准确的音高。