技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种音频的解耦方法及装置、存储介质、计算机设备与流程 > 正文

一种音频的解耦方法及装置、存储介质、计算机设备与流程

国知局
2024-06-21 11:54:13

本发明涉及金融语音信息处理，特别是涉及一种音频的解耦方法及装置、存储介质、计算机设备。

背景技术：

1、基于语音特征的人工智能技术已应用于各行各业，例如在银行、保险等金融行业中被广泛应用的虚拟客服。通过虚拟客服可以辅助员工对顾客进行操作指引，还可以将常用的对话语音内容进行提前录制，作为虚拟客服的驱动源，实现虚拟客服与顾客之间的沟通对话。

2、但是，音频内容中不可避免的包含一些与发音无关的信息，例如情绪和强度，这些与发音无关的信息可以体现为不同说话人的风格，然而采用风格与内容相互耦合在一起的音频对虚拟客服进行人脸唇部动作的驱动，可能会在一定程度上造成偏差，使得虚拟客服的人脸唇部动作与音频内容不匹配。因此，需要对音频信息进行解耦处理，获取音频中的内容，舍弃说话人的风格。

3、现有技术中，在银行、保险等金融行业中采用人工经验设置神经网络模型的网络参数对音频进行解耦处理，从而获取音频的内容特征和风格特征。但是，人工经验设置的网络参数受人为因素影响较大，从而影响音频解耦的效果及稳定性。

技术实现思路

1、有鉴于此，本发明提供一种音频的解耦方法及装置、存储介质、计算机设备，主要目的在于解决现有技术中金融行业内的虚拟客服由于用于解耦的神经网络模型性能不稳定导致的音频解耦效果不理想的问题。

2、依据本发明一个方面，提供了一种音频的解耦方法，包括：

3、获取待解耦金融服务音频，并提取所述待解耦金融服务音频的目标梅尔倒谱特征；

4、基于风格编码器和内容编码器分别对所述目标梅尔倒谱特征进行编码处理，得到与所述待解耦金融服务音频对应的目标风格特征和目标内容特征，并将所述目标风格特征和所述目标内容特征作为对所述待解耦金融服务音频的解耦结果；其中，所述风格编码器和所述内容编码器均为基于生成对抗网络预先训练神经网络模型的网络参数得到的。

5、进一步的，所述基于生成对抗网络预先训练神经网络模型的网络参数包括：

6、从金融服务音频数据集中随机获取包含相同语音内容的第一金融服务音频和第二金融服务音频；所述第一金融服务音频与所述第二金融服务音频具有不同的风格特征；

7、提取所述第一金融服务音频的第一梅尔倒谱特征，并提取所述第二金融服务音频的第二梅尔倒谱特征；

8、基于所述第一梅尔倒谱特征、所述第二梅尔倒谱特征和所述生成对抗网络，对所述神经网络模型的网络参数进行训练操作。

9、进一步的，所述基于所述第一梅尔倒谱特征、所述第二梅尔倒谱特征和所述生成对抗网络，对所述神经网络模型的网络参数进行训练操作，得到训练后的网络参数包括：

10、初始化所述风格编码器和所述内容编码器对应的所述神经网络模型的网络参数；

11、基于所述第一梅尔倒谱特征、所述第二梅尔倒谱特征和所述生成对抗网络确定目标损失函数；

12、基于所述目标损失函数对所述网络参数进行训练操作，分别得到与所述风格编码器和所述内容编码器相对应的训练后的网络参数。

13、进一步的，所述目标损失函数包含平均绝对误差损失，所述基于所述第一梅尔倒谱特征、所述第二梅尔倒谱特征和所述生成对抗网络确定目标损失函数之前，还包括：

14、基于所述内容编码器分别对所述第一梅尔倒谱特征和所述第二梅尔倒谱特征进行编码处理，得到与所述第一梅尔倒谱特征相对应的第一内容特征，以及与所述第二梅尔倒谱特征相对应的第二内容特征；

15、通过计算第一内容特征与第二内容特征之间的平均绝对误差，确定所述平均绝对误差损失。

16、进一步的，所述目标损失函数包含总对抗损失，所述基于所述第一梅尔倒谱特征、所述第二梅尔倒谱特征和所述生成对抗网络确定目标损失函数之前，还包括：

17、基于所述风格编码器分别对所述第一梅尔倒谱特征和所述第二梅尔倒谱特征进行编码处理，得到与所述第一梅尔倒谱特征相对应的第一风格特征，以及与所述第二梅尔倒谱特征相对应的第二风格特征；

18、基于所述第一风格特征和所述第二内容特征，采用所述生成对抗网络的生成器生成第一伪梅尔倒谱特征；并基于所述第二风格特征和所述第一内容特征，采用所述生成器生成第二伪梅尔倒谱特征；

19、采用所述生成对抗网络的判别器计算所述第一梅尔倒谱特征与所述第一伪梅尔倒谱特征之间的第一对抗损失，以及计算所述第二梅尔倒谱特征与所述第二伪梅尔倒谱特征之间的第二对抗损失；

20、将所述第一对抗损失与所述第二对抗损失进行求和处理，确定所述总对抗损失。

21、进一步的，所述目标损失函数包含总均方误差损失，所述基于所述第一梅尔倒谱特征、所述第二梅尔倒谱特征和所述生成对抗网络确定目标损失函数之前，还包括：

22、计算所述第一梅尔倒谱特征与所述第一伪梅尔倒谱特征之间的第一均方误差，以及所述第二梅尔倒谱特征与所述第二伪梅尔倒谱特征之间的第二均方误差；

23、将所述第一均方误差与所述第二均方误差进行求和处理，确定所述总均方误差损失。

24、进一步的，所述方法还包括：

25、当所述解耦结果未达标时，从所述金融服务音频数据集中随机获取包含相同语音内容的第三金融服务音频和第四金融服务音频；所述第三金融服务音频与所述第四金融服务音频具有不同的风格特征；

26、提取所述第三金融服务音频的第三梅尔倒谱特征，并提取所述第四金融服务音频的第四梅尔倒谱特征；

27、基于所述第三梅尔倒谱特征、所述第四梅尔倒谱特征和所述生成对抗网络，对所述风格编码器和所述内容编码器进行更新操作，得到更新后的风格编码器和内容编码器。

28、依据本发明另一个方面，提供了一种音频的解耦装置，包括：

29、特征提取模块，用于获取待解耦金融服务音频，并提取所述待解耦金融服务音频的目标梅尔倒谱特征；

30、特征解耦模块，用于基于风格编码器和内容编码器分别对所述目标梅尔倒谱特征进行编码处理，得到与所述待解耦金融服务音频对应的目标风格特征和目标内容特征，并将所述目标风格特征和所述目标内容特征作为对所述待解耦金融服务音频的解耦；其中，所述风格编码器和所述内容编码器均为基于生成对抗网络预先训练神经网络模型的网络参数得到的。

31、进一步的，所述装置还包括训练模块，用于：

32、从金融服务音频数据集中随机获取包含相同语音内容的第一金融服务音频和第二金融服务音频；所述第一金融服务音频与所述第二金融服务音频具有不同的风格特征；

33、提取所述第一金融服务音频的第一梅尔倒谱特征，并提取所述第二金融服务音频的第二梅尔倒谱特征；

34、基于所述第一梅尔倒谱特征、所述第二梅尔倒谱特征和所述生成对抗网络，对所述神经网络模型的网络参数进行训练操作，得到训练后的网络参数。

35、进一步的，所述训练模块包括：

36、初始化单元，用于初始化所述风格编码器和所述内容编码器对应的所述神经网络模型的网络参数；

37、损失函数确定单元，用于基于所述第一梅尔倒谱特征、所述第二梅尔倒谱特征和所述生成对抗网络确定目标损失函数；

38、训练单元，用于基于所述目标损失函数对所述网络参数进行训练操作，分别得到与所述风格编码器和所述内容编码器相对应的训练后的网络参数。

39、进一步的，所述损失函数确定单元还用于确定所述平均绝对误差损失，包括：

40、基于所述内容编码器分别对所述第一梅尔倒谱特征和所述第二梅尔倒谱特征进行编码处理，得到与所述第一梅尔倒谱特征相对应的第一内容特征，以及与所述第二梅尔倒谱特征相对应的第二内容特征；

41、通过计算第一内容特征与第二内容特征之间的平均绝对误差，确定所述平均绝对误差损失。

42、进一步的，所述损失函数确定单元还用于确定所述总对抗损失，包括：

43、基于所述风格编码器分别对所述第一梅尔倒谱特征和所述第二梅尔倒谱特征进行编码处理，得到与所述第一梅尔倒谱特征相对应的第一风格特征，以及与所述第二梅尔倒谱特征相对应的第二风格特征；

44、基于所述第一风格特征和所述第二内容特征，采用所述生成对抗网络的生成器生成第一伪梅尔倒谱特征；并基于所述第二风格特征和所述第一内容特征，采用所述生成器生成第二伪梅尔倒谱特征；

45、采用所述生成对抗网络的判别器计算所述第一梅尔倒谱特征与所述第一伪梅尔倒谱特征之间的第一对抗损失，以及计算所述第二梅尔倒谱特征与所述第二伪梅尔倒谱特征之间的第二对抗损失；

46、将所述第一对抗损失与所述第二对抗损失进行求和处理，确定所述总对抗损失。

47、进一步的，所述损失函数确定单元还用于确定所述总均方误差损失，包括：

48、计算所述第一梅尔倒谱特征与所述第一伪梅尔倒谱特征之间的第一均方误差，以及所述第二梅尔倒谱特征与所述第二伪梅尔倒谱特征之间的第二均方误差；

49、将所述第一均方误差与所述第二均方误差进行求和处理，确定所述总均方误差损失。

50、进一步的，所述装置还包括更新模块，用于：

51、当所述解耦结果未达标时，从所述金融服务音频数据集中随机获取包含相同语音内容的第三金融服务音频和第四金融服务音频；所述第三金融服务音频与所述第四金融服务音频具有不同的风格特征；

52、提取所述第三金融服务音频的第三梅尔倒谱特征，并提取所述第四金融服务音频的第四梅尔倒谱特征；

53、基于所述第三梅尔倒谱特征、所述第四梅尔倒谱特征和所述生成对抗网络，对所述风格编码器和所述内容编码器进行更新操作，得到更新后的风格编码器和内容编码器。

54、根据本发明的又一方面，提供了一种存储介质，所述存储介质中存储有至少一可执行指令，所述可执行指令使处理器执行如上述音频的解耦方法对应的操作。

55、依据本发明的再一个方面，提供了一种计算机设备，包括处理器、存储器、通信接口和通信总线，所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信；

56、所述存储器用于存放至少一可执行指令，所述可执行指令使所述处理器执行如上述音频的解耦方法对应的操作。

57、借由上述技术方案，本发明实施例提供的技术方案至少具有下列优点：

58、本发明提供了一种音频的解耦方法及装置、存储介质、计算机设备，与现有金融领域中采用人工经验设置神经网络模型的网络参数对音频进行解耦处理相比，本发明通过获取待解耦金融服务音频，并提取待解耦金融服务音频的目标梅尔倒谱特征；基于风格编码器和内容编码器分别对目标梅尔倒谱特征进行编码处理，得到与待解耦金融服务音频对应的目标风格特征和目标内容特征，并将所述目标风格特征和所述目标内容特征作为对待解耦金融服务音频的解耦结果。其中，风格编码器和内容编码器均为基于生成对抗网络预先训练神经网络模型的网络参数得到的，由于生成对抗网络对风格编码器和内容编码器的网络参数进行了优化训练，提升了风格编码器和内容编码器的解耦效果。此外，由于规避了人为因素的影响，使得风格编码器和内容编码器的解耦性能更加稳定。

59、上述说明仅是本发明技术方案的概述，为了能够更清楚了解本发明的技术手段，而可依照说明书的内容予以实施，并且为了让本发明的上述和其它目的、特征和优点能够更明显易懂，以下特举本发明的具体实施方式。