技术新讯 > 乐器声学设备的制造及制作,分析技术 > 语音降噪方法和装置、语音交互方法、电子设备和介质与流程 > 正文

语音降噪方法和装置、语音交互方法、电子设备和介质与流程

国知局
2024-06-21 10:38:51

本发明涉及语音处理，具体提供一种语音降噪方法和装置、语音交互方法、电子设备和介质。

背景技术：

1、随着信息技术的不断发展，家电配备语音识别模块得到普及，从单个的家电拓展到以住宅为载体，对家电设备进行集中管理，兼具便捷舒适、安全环保的智能家居，无不体现了语音识别技术的重要性。而正常家庭环境中，生活噪声会影响语音识别的准确率，如何降噪成为提高语音识别准确率的关键。

2、目前，在利用语音交互控制家电的情景中，噪声对语音信号的干扰较大，会严重影响语音识别的准确率，导致家电无法正常运行，影响用户体验。现在的语音降噪一般分为，传统信号处理方式：如谱减法、维纳滤波法。然而，像谱减法在处理过程中过多减去噪声谱则会去掉部分语音信号，过少减去则会残留噪声，将产生令人反感的音乐噪声；像维纳滤波方法是对信号平稳条件下的最小均方误差估计，因此对于非平稳噪声抑制效果不佳，而且容易造成语音失真。

3、因此，如何提高语音信号的降噪质量，是本领域技术人员亟待解决的技术问题。

技术实现思路

1、为了克服上述缺陷，提出了本发明，以提供解决或至少部分地解决现有技术中语音信号的降噪质量较差的技术问题的语音降噪方法和装置、语音交互方法、电子设备和介质。

2、在第一方面，本发明提供一种语音降噪方法，包括：

3、将获取的带噪音频进行时频域转换，得到频域下的音频；

4、基于预先训练好的降噪模型的特征向量提取网络的多卷积层分支网络对所述频域下的音频进行特征向量提取，得到频域下的音频的第一特征向量，以及，基于所述特征向量提取网络的单卷积层分支网络对所述频域下的音频进行特征向量提取，得到频域下的音频的第二特征向量；

5、基于预先训练好的降噪模型的特征向量提取网络的融合网络，对所述第一特征向量和所述第二特征向量进行融合，得到频域下的音频的融合特征向量；

6、基于所述降噪模型的降噪识别网络，对所述频域下的音频的融合特征向量进行降噪，得到降噪音频。

7、进一步地，上述所述的语音降噪方法中，所述降噪识别网络至少包括循环神经网络rnn层、全连接fc层和规范化ln层；

8、基于所述降噪模型的降噪识别网络，对所述频域下的音频的融合特征向量进行降噪，得到降噪音频，包括：

9、基于所述rnn层、所述fc层和所述ln层，对所述融合特征向量进行降噪得到降噪音频的特征向量；

10、将所述第一降噪音频的特征向量与所述融合特征向量进行残差处理，得到降噪音频的残差特征向量；

11、基于所述降噪音频的残差特征向量，进行时频域变化，得到时域下的降噪音频。

12、进一步地，上述所述的语音降噪方法中，所述全连接fc层与所述规范化ln层之间的激活函数为mish函数。

13、进一步地，上述所述的语音降噪方法中，所述多卷积层分支网络中各个卷积层之间的激活函数为mish函数。

14、在第二方面，本发明提供一种语音交互方法，包括：

15、获取用户的输入语音；

16、基于上述任一项所述的语音降噪方法，对所述输入语音进行降噪，得到所述输入语音对应的降噪音频；

17、基于所述降噪音频，生成所述输入语音对应的响应信息。

18、在第三方面，提供一种语音降噪装置，其特征在于，包括：

19、转换模块，用于将获取的带噪音频进行时频域转换，得到频域下的音频；

20、提取模块，用于基于预先训练好的降噪模型的特征向量提取网络的多卷积层分支网络对所述频域下的音频进行特征向量提取，得到频域下的音频的第一特征向量，以及，基于所述特征向量提取网络的单卷积层分支网络对所述频域下的音频进行特征向量提取，得到频域下的音频的第二特征向量；

21、融合模块，用于基于预先训练好的降噪模型的特征向量提取网络的融合网络，对所述第一特征向量和所述第二特征向量进行融合，得到频域下的音频的融合特征向量；

22、降噪模块，用于基于所述降噪模型的降噪识别网络，对所述频域下的音频的融合特征向量进行降噪，得到降噪音频。

23、进一步地，上述所述的语音降噪装置中，所述降噪识别网络至少包括循环神经网络rnn层、全连接fc层和规范化ln层；

24、所述降噪模块，具体用于：

25、基于所述rnn层、所述fc层和所述ln层，对所述融合特征向量进行降噪得到降噪音频的特征向量；

26、将所述第一降噪音频的特征向量与所述融合特征向量进行残差处理，得到降噪音频的残差特征向量；

27、基于所述降噪音频的残差特征向量，进行时频域变化，得到时域下的降噪音频。

28、在第四方面，提供一种电子设备，包括处理器和存储装置，所述存储装置适于存储多条程序代码，其特征在于，所述程序代码适于由所述处理器加载并运行以执行上述任一项所述的语音降噪方法，或，执行上述所述的语音交互方法。

29、在第五方面，提供一种计算机可读存储介质，该计算机可读存储介质其中存储有多条程序代码，所述程序代码适于由处理器加载并运行以执行上述任一项所述的语音降噪方法，或，执行上述所述的语音交互方法。

30、本发明上述一个或多个技术方案，至少具有如下一种或多种有益效果：

31、在实施本发明的技术方案中，通过将获取的带噪音频进行时频域转换，得到频域下的音频后，基于预先训练好的降噪模型的特征向量提取网络的多卷积层分支网络对所述频域下的音频进行特征向量提取，得到频域下的音频的第一特征向量，以及，基于所述特征向量提取网络的单卷积层分支网络对所述频域下的音频进行特征向量提取，得到频域下的音频的第二特征向量；并基于预先训练好的降噪模型的特征向量提取网络的融合网络，对所述第一特征向量和所述第二特征向量进行融合，得到频域下的音频的融合特征向量，从而得到更加丰富的全局特征向量，并基于所述降噪模型的降噪识别网络，对所述频域下的音频的融合特征向量进行降噪，得到降噪音频。这样，在做语音降噪时，提取了更加丰富的全局特征向量，且利用降噪识别网络进行降噪，相比于传统降噪方法，能够降低噪声残留现象，降低语音失真现象，进而提高语音信号的降噪质量。

技术特征：

1.一种语音降噪方法，其特征在于，包括：

2.根据权利要求1所述的语音降噪方法，其特征在于，所述降噪识别网络至少包括循环神经网络rnn层、全连接fc层和规范化ln层；

3.根据权利要求2所述的语音降噪方法，其特征在于，所述全连接fc层与所述规范化ln层之间的激活函数为mish函数。

4.根据权利要求1所述的语音降噪方法，其特征在于，所述多卷积层分支网络中各个卷积层之间的激活函数为mish函数。

5.一种语音交互方法，其特征在于，包括：

6.一种语音降噪装置，其特征在于，包括：

7.根据权利要求6所述的语音降噪装置，其特征在于，所述降噪识别网络至少包括循环神经网络rnn层、全连接fc层和规范化ln层；

8.一种电子设备，包括处理器和存储装置，所述存储装置适于存储多条程序代码，其特征在于，所述程序代码适于由所述处理器加载并运行以执行权利要求1至4中任一项所述的语音降噪方法，或，执行权利要求5所述的语音交互方法。

9.一种语音交互系统，其特征在于，包括语音交互设备和如权利要求8所述的电子设备；

10.一种计算机可读存储介质，其中存储有多条程序代码，其特征在于，所述程序代码适于由处理器加载并运行以执行权利要求1至4中任一项所述的语音降噪方法，或，执行权利要求5所述的语音交互方法。

技术总结本发明提供了一种语音降噪方法和装置、语音交互方法、电子设备和介质，包括得到带噪音频在频域下的音频；基于预先训练好的降噪模型的特征向量提取网络的多卷积层分支网络对频域下的音频进行特征向量提取，得到第一特征向量，基于特征向量提取网络的单卷积层分支网络对频域下的音频进行特征向量提取，得到第二特征向量；基于特征向量提取网络的融合网络，对第一特征向量和第二特征向量进行融合，得到频域下的音频的融合特征向量；基于降噪模型的降噪识别网络，对频域下的音频的融合特征向量进行降噪，得到降噪音频。这样，能够提取更加丰富的全局特征向量，降低噪声残留现象，降低语音失真现象，进而提高语音信号的降噪质量。技术研发人员：王增超,高鑫,张先旦,高秋英受保护的技术使用者：重庆海尔洗衣机有限公司技术研发日：技术公布日：2024/1/15