技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种基于深度学习的语音降噪方法与流程 > 正文

一种基于深度学习的语音降噪方法与流程

国知局
2024-06-21 11:44:38

本发明涉及语音降噪，具体是一种基于深度学习的语音降噪方法。

背景技术：

1、在现有的语音降噪解决方案中，尤其是基于深度学习的语音降噪方案中，通常将目标专注于从含有噪声的语音数据中还原出清晰地语音数据，即不含噪音的原声数据。这些研究都忽略了噪声在深度学习方法中的影响，含噪语音数据未能得到充分的分析和挖掘。

2、同时，分析语音数据等时序类的数据，大多数方法仅使用rnn、lstm等循环神经网络，网络模型较为简单，无法充分对数据特征进行分析和表征。

技术实现思路

1、为克服现有技术的不足，本发明提供了一种基于深度学习的语音降噪方法，解决现有技术存在的含噪语音数据未能得到充分的分析和挖掘、无法充分对数据特征进行分析和表征等问题。

2、本发明解决上述问题所采用的技术方案是：

3、一种基于深度学习的语音降噪方法，在训练过程中，提取噪声数据的特征信息，并将特征信息作为参考添加到降噪过程中，最终得到降噪后的清晰的原声语音数据。

4、作为一种优选的技术方案，在lstm算法的基础上加入变分自编码器计算方法，将数据进行重新编码，挖掘训练数据中隐含特征信息，再将隐含特征信息放入lstm网络中进行训练，最后再进行解码，从而获取降噪后的语音数据。

5、作为一种优选的技术方案，包括以下步骤：

6、s1，定义语音数据集d，语音数据集d包括n段时间长度相等的含有噪声的语音数据xi，和n段与xi对应的清晰的语音原声数据yi，xi与yi时间长度相等；

7、s2，对输入数据xi,n，分别放入进行注意力机制计算，对输入数据进行重新表征得到和

8、其中，xi,n表示xi通过滑动窗口的方式截取的若干数据段，xi表示一段含有噪音的语音数据，xi∈d1,1≤i≤n，滑动窗口大小lwindow和滑动距离llength设置为l，即lwindow＝llength＝l,l为超参数；n表示截取出的数据段的数量，表示用于提取清晰语音数据的注意力机制算法函数；表示用于提取噪声数据的注意力机制算法函数，表示输出的特征信息向量，表示输出的特征信息向量；

9、s3，将输入到编码器结构进行计算得到将输入到编码器结构进行计算得到此时对进行一次注意力机制计算，并将输出的特征结果添加到特征中；

10、其中，表示用于提取清晰语音数据的特征信息的编码器计算函数，表示用于提取噪声的特征信息的编码器计算函数，表示输出的特征信息向量，表示输出的特征信息向量；

11、s4，将输入到lstm网络进行训练得到将输入到lstm网络进行训练得到

12、其中，表示用于提取清晰语音数据的特征信息的lstm计算函数，表示输出的特征信息向量，表示用于提取噪声的特征信息的lstm计算函数，表示输出的特征信息向量。

13、s5，将输入到解码器结构进行计算得到将输入到解码器结构进行计算得到此时对进行一次注意力机制计算，并将输出的特征结果添加到特征中；

14、其中，表示用于提取清晰语音数据的特征信息的解码器计算函数，表示输出的特征信息向量，表示用于提取噪声的特征信息的计算的解码器计算函数，表示输出的特征信息向量；

15、s6，将语音片段组按顺序拼接成yi，1，将语音片段组按顺序拼接成yi，2，两个输出结果yi，1、yi，2与输入数据xi数据维度一致；

16、其中，yi，1为降噪后的清晰的原声语音数据，yi，2为输入数据xi中所含噪声数据。

17、作为一种优选的技术方案，步骤s2中，对输入数据进行注意力机制计算，计算公式如下：

18、

19、an1(n2)＝exp(score(xi，n1，xi，n2))＝exp(xi，n1·xi，n2)，n1≠n2

20、其中，xi，n1为当前输入数据xi，n中的某一段数据，xi，n2为输入数据xi，n中除xi，n1外的数据段，an1(n2)为xi，n1与xi，n2的注意力计算值，a′n1(n2)为加权过后的xi，n1与xi，n2的注意力计算值；

21、得到a′n1(n2)后可计算出新的x′i，n1，通过下式计算完成对xi，n1的重新表征：

22、x′i，n1＝xi，n1+watt∑a′n1(n2)xi，n2

23、其中，x′i，n1表示xi，n1经过注意力机制计算后的特征向量，watt为可训练参数；

24、由上述计算可得：

25、

26、

27、其中，表示用于提取清晰语音数据的特征信息的注意力机制函数，表示用于提取噪声的特征信息的注意力机制函数。

28、作为一种优选的技术方案，步骤s3中，将得到的和输入到编码器结构进行计算，计算公式如下：

29、x＝relu(liner(x))

30、μ＝liner(x)

31、σ＝exp(liner(x))

32、z＝sample(μ，σ)

33、其中，x为输入向量，relu(·)为激活函数，liner(·)为线性函数，μ为均值，σ为方差，sample(·)为采样函数，z为带有随机性的隐含特征向量；

34、由上述计算可得：

35、

36、

37、作为一种优选的技术方案，步骤s3中，对进行一次注意力机制计算，并将输出的特征结果添加到特征中；

38、计算过程如下：

39、

40、其中，β为超参数，为第一次提取噪声的参考特征信息的注意力机制函数。

41、作为一种优选的技术方案，步骤s4中，将和输入到lstm网络进行训练，lstm单元结构包括遗忘门、输入门、输出门、细胞状态。

42、作为一种优选的技术方案，步骤s4中，

43、遗忘门ft决定细胞状态里的信息是否丢失：该门输入数据包括t时刻的输入数据xt以及上一个时刻t-1时刻的隐藏向量ht-1，反馈给细胞状态ct-1；遗忘门ft计算公式如下：

44、ft＝σ(wf[xt，h-1]+bf)

45、输入门it决定细胞状态需要更新的数据；输入门it计算公式如下：

46、it＝σ(wi[xt，ht-1]+bi)

47、更新细胞状态ct，把上一时刻t-1时刻的细胞状态ct-1与ft相乘，丢弃掉需要遗忘的信息，之后再加入新的细胞状态；细胞状态ct计算公式如下：

48、ct＝ftct-1+it×(tanh(wc[xt，ht-1]+bc))

49、输出门ot决定输出部分细胞状态，输出门ot计算公式如下：

50、ot＝σ(wo[xt，ht-1]+bo)

51、最后计算当前时刻t时刻的隐藏向量ht，ht计算公式如下：

52、h＝ot×tanh(ct)

53、由上述计算：

54、

55、

56、其中，t表示时序数据中的时刻，t-1为t时刻的前一时刻，t的取值范围为[1，n]，n表示输入数据中数据段的数量，ft表示t时刻的遗忘门输出信息，it表示t时刻的输入门输出信息，ot表示lstm中t时刻的输出门输出信息，ct表示t时刻的细胞状态输出信息；

57、xt表示时序数据中t时刻的数据，即输入数据中的第t段数据，维度为nx×1，nx为超参数；

58、ht-1表示上一时刻t-1时刻的隐藏向量数据，ct-1表示上一时刻t-1时刻的细胞状态向量数据；对于t＝1时，h0定义为维度是nh×1的随机初始向量，c0定义为维度是nh×1的随机初始向量，nh为超参数；

59、wf表示遗忘门计算的可训练参数矩阵，维度为nh×(nx+nh)，bf表示遗忘门计算的可训练参数向量，维度为nh×1；

60、wi表示输入门计算的可训练参数矩阵，维度为nh×(nx+nh)，bi表示输入门计算的可训练参数向量，维度为nh×1；

61、wc表示细胞状态计算的可训练参数矩阵，维度为nh×(nx+nh)，bc表示细胞状态计算的可训练参数向量，维度为nh×1；

62、wo表示输出门计算的可训练参数矩阵，维度为nh×(nx+nh)，bo表示输出门计算的可训练参数向量，维度为nh×1。

63、作为一种优选的技术方案，步骤s5中，

64、将和输入到解码器结构进行计算，计算公式如下：

65、x＝relu(liner(x))

66、x＝sigmoid(liner(x))

67、其中，relu(·)为relu激活函数，sigmoid(·)为sigmoid激活函数；

68、由上述计算可得：

69、

70、

71、对进行一次注意力机制计算，并将输出的特征结果添加到特征中；

72、计算过程如下：

73、

74、其中，为第二次提取噪声的参考特征信息的注意力机制函数，γ为超参数。

75、作为一种优选的技术方案，步骤s4中，在训练lstm网络时，损失函数公式为：

76、

77、

78、其中，floss表示损失函数，n表示数据集中的数据实例的数量，xi表示一段含有噪音的语音数据，yi表示xi对应的清晰地语音原声数据，‖·‖2表示欧式距离计算，表示用于提取清晰语音数据的特征信息的编码器计算函数所产生的kl散度，表示用于提取噪声的特征信息的编码器计算函数所产生的kl散度，fkl表示kl散度计算公式。

79、本发明相比于现有技术，具有以下有益效果：

80、(1)本发明不仅关注于如何将含有噪音的语音数据降噪为清晰的原声语音数据，还关注从含有噪音的语音数据中分离出噪声数据；同时在本方法的训练过程中，提取噪声数据的特征信息，并将这些特征信息作为参考添加到降噪过程中，最终得到降噪后的清晰的原声语音数据；

81、(2)本发明在lstm算法的基础上加入vae(变分自编码器)计算方法，将数据进行重新编码，挖掘训练数据中隐含特征信息，再将这些隐含特征信息放入lstm网络中进行时序分析，最后再进行解码，从而获取降噪后的语音数据；

82、(3)本发明添加注意力机制对数据进行特征筛选，提取出重要的特征，将不重要的特征，甚至是具有干扰作用的特征进行抑制或剔除，提升模型的预测效果。