技术新讯 > 乐器声学设备的制造及制作,分析技术 > 基于波束形成的门控循环单元网络说话人分离方法及装置与流程 > 正文

基于波束形成的门控循环单元网络说话人分离方法及装置与流程

国知局
2024-06-21 11:41:29

本发明涉及一种基于波束形成的门控循环单元网络说话人分离方法及装置，属于语音分离。

背景技术：

1、语音分离，是指通过运用一定的方法从混合语音信号中计算出个体语音信号的信号处理技术，目前的语音分离可以分为两个方向，一是在混合语音中进行多个声源之间的分离，二是在混合语音中进行单一声源与噪声等干扰的分离。

2、深度学习在语音识别领域的应用越来越广泛，在基于深度学习基础上的语音分离技术在训练阶段所需的时间和精力占主要部分。

3、当前深度学习模型采取的都是对语音信号频域特征提取，之后对该特征进行训练，得到输入特征和语音信号频谱特征间非线性映射关系，该方法虽然可以解决分离问题，但是语音频谱结构差异不太大的情况下，分离结果较差。

技术实现思路

1、本发明的目的在于克服现有技术中的不足，提供一种基于波束形成的门控循环单元网络说话人分离方法及装置，结合波束形成算法和深度学习gru网络，在混合语音中进行多个声源之间的分离，充分利用了语音信号的空间特征和频谱特征，有效提高分离性能。

2、为达到上述目的，本发明是采用下述技术方案实现的：

3、第一方面，本发明提供了一种基于波束形成的门控循环单元网络说话人分离方法，包括以下步骤：

4、步骤1：获取输入的语音信号；

5、步骤2：提取所述语音信号的特征；

6、步骤3：将所述语音信号的特征输入训练好的门控循环单元模型中，得到语音信号的二值掩码；所述门控循环单元模块的输入是语音信号的特征，输出是语音信号的二值掩码；

7、步骤4：基于所述语音信号的二值掩码进行信号分离，得到分离信号的频谱特征和空间特征，结合所述分离信号的频谱特征和空间特征对语音信号进行重构操作，还原得到原始语音信号。

8、进一步的，步骤2：提取所述语音信号的特征，包括：

9、用短时傅里叶变换提取所述语音信号的频谱特征；

10、用波束形成算法提取所述语音信号的空间特征；

11、将所述频谱特征和空间特征融合形成语音信号的特征。

12、进一步的，所述门控循环单元模型包括：

13、rt＝σ(xtwxr+ht-1whr+br)

14、zt＝σ(xtwxz+ht-1whz+bz)

15、～ht＝tanh(xtwxh+(rt⊙ht-1)whh+bh)

16、ht＝zt⊙ht-1+(1-zt)⊙～ht-1

17、其中，xt:当前时刻输入信息

18、ht-1:上一时刻的隐藏状态，隐藏状态充当了神经网络记忆，它包含之前节点所见过的数据的信息

19、ht：传递到下一时刻的隐藏状态

20、～ht：候选隐藏状态

21、rt：重置门

22、zt：更新门

23、σ：sigmoid函数，通过这个函数可以将数据变为0-1范围的数值；

24、tanh：tanh函数，通过这个函数可以将数据变为[-1,1]范围的数值。

25、进一步的，所述门控循环单元模型的训练方法包括：

26、获取训练集，所述训练集包括混合语音信号和原始语音信号；

27、将所述混合语音信号和原始语音信号通过短时傅里叶变换得到混合语音信号和原始语音信号的频谱特征，通过波束形成算法得到混合语音信号和原始语音信号的空间特征；

28、将混合语音信号的频谱特征和空间特征进行特征联合作为门控循环单元模型的输入，通过与原始语音信号的频谱特征和空间特征进行非线性映射，结合混合语音信号的频谱特征及空间特征和原始语音信号的频谱特征及空间特征进行门控循环单元模型迭代训练操作，直到门控循环单元模型达到收敛条件或最大迭代次数时训练过程停止，形成一个通过门控循环单元模型训练得到的二值掩码模型。

29、进一步的，所述训练集为voxceleb。

30、进一步的，步骤4：基于二值掩码进行信号分离，得到分离信号频谱特征和空间特征，结合信号相位谱和空间特征对语音信号进行重构操作，还原出原始语音信号，包括：

31、通过训练好的门控循环单元模型进行分离，得到输入的语音信号的二值掩码，而后通过短时傅里叶逆变换得到原始语音信号。

32、第二方面，本发明提供一种基于波束形成的门控循环单元网络说话人分离装置，其特征在于，所述装置包括：

33、输入模块：用于获取输入的语音信号；

34、特征提取模块：用于提取所述语音信号的特征；

35、门控循环模块：用于将所述语音信号的特征输入训练好的门控循环单元模型中，得到语音信号的二值掩码；所述门控循环单元模块的输入是语音信号的特征，输出是语音信号的二值掩码；

36、还原模块：用于基于所述语音信号的二值掩码进行信号分离，得到分离信号的频谱特征和空间特征，结合所述分离信号的频谱特征和空间特征对语音信号进行重构操作，还原得到原始语音信号。

37、进一步的，所述特征提取模块提取所述语音信号的特征，包括：

38、用短时傅里叶变换提取所述语音信号的频谱特征；

39、用波束形成算法提取所述语音信号的空间特征；

40、将所述频谱特征和空间特征融合形成语音信号的特征。

41、进一步的，所述门控循环单元模型包括：

42、rt＝σ(xtwxr+ht-1whr+br)

43、zt＝σ(xtwxz+ht-1whz+bz)

44、~ht＝tanh(xtwxh+(rt⊙ht-1)whh+bh)

45、ht＝zt⊙ht-1+(1-zt)⊙~ht-1

46、其中，xt:当前时刻输入信息

47、ht-1:上一时刻的隐藏状态，隐藏状态充当了神经网络记忆，它包含之前节点所见过的数据的信息

48、ht：传递到下一时刻的隐藏状态

49、～ht：候选隐藏状态

50、rt：重置门

51、zt：更新门

52、σ：sigmoid函数，通过这个函数可以将数据变为0-1范围的数值；

53、tanh：tanh函数，通过这个函数可以将数据变为[-1,1]范围的数值。

54、进一步的，所述门控循环单元模型的训练方法包括：

55、获取训练集，所述训练集包括混合语音信号和原始语音信号；

56、将所述混合语音信号和原始语音信号通过短时傅里叶变换得到混合语音信号和原始语音信号的频谱特征，通过波束形成算法得到混合语音信号和原始语音信号的空间特征；

57、将混合语音信号的频谱特征和空间特征进行特征联合作为门控循环单元模型的输入，通过与原始语音信号的频谱特征和空间特征进行非线性映射，结合混合语音信号的频谱特征及空间特征和原始语音信号的频谱特征及空间特征进行门控循环单元模型迭代训练操作，直到门控循环单元模型达到收敛条件或最大迭代次数时训练过程停止，形成一个通过门控循环单元模型训练得到的二值掩码模型。

58、进一步的，所述训练集为voxceleb。

59、进一步的，所述还原模块基于二值掩码进行信号分离，得到分离信号频谱特征和空间特征，结合信号相位谱和空间特征对语音信号进行重构操作，还原出原始语音信号，包括：

60、通过训练好的门控循环单元模型进行分离，得到输入的语音信号的二值掩码，而后通过短时傅里叶逆变换得到原始语音信号。

61、第三方面，本发明提供一种基于波束形成的门控循环单元网络说话人分离装置，包括处理器及存储介质；

62、所述存储介质用于存储指令；

63、所述处理器用于根据所述指令进行操作以执行根据第一方面所述方法的步骤。

64、第四方面，本发明提供一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器执行时实现第一方面所述方法的步骤。

65、与现有技术相比，本发明所达到的有益效果：

66、1、本发明提出结合波束形成算法和深度学习gru(gate recurrent unit)网络实验语音分离问题，充分利用了语音信号的空间特征和频谱特征进行语音信号的分离，分离精度更高。

67、2、本发明的基于波束形成的门控循环单元网络有以下优点：

68、(1)在序列数据处理任务中，gru(gate recurrent unit)训练的时间相对于lstm(long short-term memory)更短，因为gru(gate recurrent unit)基于lstm(long short-term memory)进行简化和改善，在门限数目上进行了优化，对深层网络进行训练时所需时间比较少。

69、(2)gru(gate recurrent unit)模型通过重置门、更新门的利用，能够深度学习处理长序列数据，并能够更好地处理长时序列中每个阶段之间的信息流动，此外gru(gaterecurrent unit)模型还具有更好的抗噪声能力。

70、3、本发明通过加入波束形成算法引入空间特征，对语音信号特征的利用更加充分，可以使得语音分离的精确度获得提升。