技术新讯 > 乐器声学设备的制造及制作,分析技术 > 语音增强方法、装置、电子设备及介质 > 正文

语音增强方法、装置、电子设备及介质

国知局
2024-09-14 14:55:57

本发明涉及语音处理，尤其涉及一种语音增强方法、装置、电子设备及介质。

背景技术：

1、语音作为信息载体，在信息传递中有着不可代替的作用。通过获取、处理、分析语音信号，可以得到所需的信息要素。因此，语音信号获取与处理在安全防范、监控和军事等领域用着广泛的应用。由于声源周围环境的复杂性，非主动情况下或随机状态下获取的语音通常会包含大量噪声。噪声的存在会引起人的听觉疲劳，也可能会使得语音出现失真和语音可懂度降低的问题，严重影响了语音的质量，找到有效的方法对含噪语音进行去噪显得格外重要。

2、目前，现有技术中出现了采用神经网络的生成模型进行语音降噪，然而模型训练时不仅需要对大量的语音进行标记，而且标记的准确性也会模型的精度造成影响，可见传统的采用神经网络的去噪方式过度依赖人工标记，造成人工工作量大且无法保证模型的降噪效果，因而亟需改进。

技术实现思路

1、本发明提供一种语音增强方法、装置、电子设备及介质，用以解决现有技术中缺少配对数据集无法训练深度语音增强网络的问题，借助循环生成对抗网络在不依赖成对有标签的数据集作为输入即可实现带噪语音向纯净语音的学习。

2、根据本发明的第一方面，本发明提供了一种语音增强方法，所述方法包括：

3、对含有噪声的待处理语音进行语音分解处理得到谱域特征、相位特征、基频和非周期性参数；

4、将所述谱域特征和所述相位特征输入到预先训练的循环生成对抗网络，其中，预先训练的循环生成对抗网络利用未配准的含噪语音和纯净语音训练得到，用于预测并输出增强谱域特征；

5、利用所述增强谱域特征、所述基频、所述非周期性参数进行语音合成，将合成语音作为与所述待处理语音对应的增强语音。

6、在一些可能的实现方式中，对含有噪声的待处理语音进行语音分解处理得到谱域特征、相位特征、基频和非周期性参数，包括：

7、利用world音频处理工具从所述待处理语音中提取谱域特征、相位特征、基频和非周期性参数。

8、在一些可能的实现方式中，所述预先训练的循环生成对抗网络通过以下步骤训练得到：

9、构建循环生成对抗网络，并为所述循环生成对抗网络定义损失函数；

10、利用预设纯净语音库和预设噪声库构造语音对得到训练样本和测试样本，其中，每对语音对均包括一个含噪语音和一个纯净语音，且含噪语音对应的纯净语音与相同语音对中的纯净语音属于不同的纯净语音；

11、利用所述损失函数和所述训练样本对所述循环生成对抗网络进行训练，得到训练后的循环生成对抗网络；

12、利用所述测试样本对训练后的循环生成对抗网络进行测试，得到预先训练的循环生成对抗网络。

13、在一些可能的实现方式中，构建循环生成对抗网络，并为所述循环生成对抗网络定义损失函数，包括：

14、构建包括两个生成器以及与每个生成器对应的判别器的循环生成对抗网络模型，其中，一个生成器用于含噪语音的谱域特征向纯净语音的谱域特征转化，另一个生成器用于含噪语音的相位特征向纯净语音的相位特征转化，判别器用于判断对应生成器生成的特征是否为目标域真实数据；

15、基于最小二乘损失分别为每个生成器与对应判别器定义对抗损失函数；

16、为两个生成器定义循环一致性损失函数，并在所述循环一致性损失函数的基础上为两个生成器定义身份映射损失函数。

17、在一些可能的实现方式中，所述对抗损失函数表示为：

18、

19、式中，g表示谱域特征的生成器，f表示相位特征的生成器，dx表示与生成器f对应的判别器，dy表示与生成器g对应的判别器，lgan(g,dy)表示生成器g与判别器dy的对抗损失函数，lgan(f,dx)表示生成器f与判别器dx的对抗损失函数，dy(y)表示判断数据来自数据域y的可能性，表示数据域y中数据的数学期望，表示数据域x中数据的数学期望，dy(y)表示判断数据来自数据域y的可能性，dx(x)表示判断数据来自数据域x的可能性，g(x)表示g生成的函数，f(y)表示f生成的函数；

20、所述循环一致性损失函数表示为：

21、

22、式中，g表示谱域特征的生成器，f表示相位特征的生成器，lcyc(g,f)表示生成器g与生成器f的循环一致性损失函数，||·||1表示l1准则，表示数据域y中数据的数学期望，表示数据域x中数据的数学期望，x表示x中原始数据，y表示y中原始数据，g(x)表示g生成的函数，f(y)表示f生成的函数；

23、所述身份映射损失函数表示为：

24、

25、式中，lid(g,f)表示生成器g与生成器f的身份映射损失函数，||·||1表示l1准则，表示数据域y中数据的数学期望，表示数据域x中数据的数学期望，x表示x中原始数据，y表示y中原始数据，g(y)表示g生成的函数，f(x)表示f生成的函数。

26、在一些可能的实现方式中，两个生成器具有相同结构，每个生成器均由编码器、转换器和解码器组成带有中间通道的u型结构；

27、所述编码器用于对频谱特征下采样并拓展其特征空间，其中，所述编码器包括一个卷积层和两个下采样层；

28、所述解码器与所述编码器相反，用于对缩小维度后的数据进行上采样完成从特征向量中还原出低级特征，其中，包含两个上采样层和一个卷积层；

29、所述转换器设置在所述编码器和所述解码器中间，转换器采用残差网络，所述残差网络通过组合信号的不相近特征，将语音在含噪域中的频谱特征向量转换为无噪域中的频谱特征向量，中间的u型通道把编码器的特征与解码器的特征融合。

30、在一些可能的实现方式中，两个判别器具有相同的结构，每个判断器均包括两个卷积层、三个下采样层和分类层，每个卷积层后加入归一化层，并使用门控线性单元(glu)用作激活函数，所述分类层利用全卷积和最小二乘编码进行分类。

31、根据本发明的第二方面，本发明还提供了一种语音增强装置，所述装置包括:

32、分解模块，所述分解模块用于对含有噪声的待处理语音进行语音分解处理得到谱域特征、相位特征、基频和非周期性参数；

33、预测模块，所述预测模块用于将所述谱域特征和所述相位特征输入到预先训练的循环生成对抗网络，其中，预先训练的循环生成对抗网络利用未配准的含噪语音和纯净语音训练得到，预先训练的循环生成对抗网络用于预测并输出增强谱域特征；

34、合成模块，所述合成模块用于利用所述增强谱域特征、所述基频、所述非周期性参数进行语音合成，将合成语音作为与所述待处理语音对应的增强语音。

35、根据本发明的第三方面，本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述语音增强方法。

36、根据本发明的第四方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述语音增强方法。

37、本发明提供的一种语音增强方法，通过先从含噪声的待处理语义中提取谱域特征、相位特征以及用于语音合成的基频和非周期性参数，然后将谱域特征、相位特征输入到使采用未配准的含噪语音和纯净语音训练得到循环生成对抗网络中，最后利用循环生成对抗网络预测输出的增强谱域特征与基频和非周期性参数合成新的语义，从而得到与待处理语音对应的增强语音，实现了联合谱域特征、相位特征预测增强谱域特征，而且所使用的循环生成对抗网络无需进行人工标记，显著减少人工标记量，使得待处理语义能够被更好的去噪实现语音增强，具有较好的去噪效果，丰富了语音增强方式。

38、此外，本发明提供的一种语音增强装置、一种电子设备和一种非暂态计算机可读存储介质，同样能实现上述技术效果，这里不再赘述。