技术新讯 > 乐器声学设备的制造及制作,分析技术 > 音色转换方法、系统、存储介质及电子设备与流程 > 正文

音色转换方法、系统、存储介质及电子设备与流程

国知局
2024-06-21 10:38:21

本发明属于语音处理的，特别是涉及一种音色转换方法、系统、存储介质及电子设备。

背景技术：

1、现有技术中，音色转换通常包括以下步骤：

2、1)接收两个输入，其中一个输入是待转换音色的语音，其中保持说话的内容；另一个输入是音色的语音，其中保持说话的特色，如男声、女生或者生气等；

3、2)输出完成音色转换的语音。

4、然而，上述音色转换方法通常存在以下问题：

5、1)转换效果往往不够真实，要么音色损失，要么内容不清楚；

6、2)只能接收有限种类的音色语音，如训练时用的男声作为语音音色，那么推理时输出的语音就只可能是含有男声的语音。

7、为了解决这些问题，本文提出一种，利用多个encoder模块、打补丁和计算均值方差等方法，提高语音的保证度的同时，可以接收不同音色特点的语音来进行转化。

技术实现思路

1、鉴于以上所述现有技术的缺点，本发明的目的在于提供一种音色转换方法、系统、存储介质及电子设备，能够实现不同音色特点的语音转换，且有效提高了语音的保真度。

2、第一方面，本发明提供一种音色转换方法，所述方法包括以下步骤：获取内容语音和音色语音；抽取所述内容语音的语音识别特征和文本特征；抽取所述内容语音的归一化内容特征；抽取所述音色语音的第一音色特征和第二音色特征；基于所述语音识别特征、所述文本特征、所述归一化内容特征、所述第一音色特征和所述第二音色特征获取融合特征；对所述融合特征进行逆归一化，获取逆归一化融合特征；对所述逆归一化融合特征进行解码，获取重建语音；对所述融合特征进行解码，获取补充语音；基于所述重建语音和所述补充语音获取包含内容和音色的转换语音。

3、在第一方面的一种实现方式中，抽取所述内容语音的语音识别特征和文本特征包括以下步骤：

4、基于conformer模型的编码器获取所述内容语音的语音识别特征；

5、基于ctc模型的解码器对所述语音识别特征进行解码，获取语音识别文本；

6、基于bert模型获取所述语音识别文本的文本特征。

7、在第一方面的一种实现方式中，抽取所述内容语音的归一化内容特征包括以下步骤：

8、基于vq-vae模型的编码器获取所述内容语音的内容特征；

9、计算所述内容特征的均值和方差；

10、基于所述均值和所述方差对所述内容特征进行归一化，获取所述归一化内容特征。

11、在第一方面的一种实现方式中，抽取所述音色语音的第一音色特征和第二音色特征包括以下步骤：

12、基于ae模型的编码器获取所述音色语音的第一音色特征；

13、基于resnet模型的编码器获取所述音色语音的第二音色特征。

14、在第一方面的一种实现方式中，基于所述语音识别特征、所述文本特征、所述归一化内容特征、所述第一音色特征和所述第二音色特征获取融合特征包括以下步骤：

15、计算所述语音识别特征、所述文本特征、所述归一化内容特征、所述第一音色特征和所述第二音色特征获取融合特征的加权和；

16、对所述加权和进行自注意力机制处理，获取所述融合特征。

17、在第一方面的一种实现方式中，对所述融合特征进行逆归一化，获取逆归一化融合特征包括以下步骤：

18、获取所述内容特征的均值和方差；

19、基于所述均值和所述方差对所述融合特征进行逆归一化，获取所述逆归一化融合特征。

20、在第一方面的一种实现方式中，对所述逆归一化融合特征进行解码，获取重建语音；对所述融合特征进行解码，获取补充语音包括以下步骤：

21、基于ae模型的解码器对所述逆归一化融合特征进行解码；

22、基于vq-vae模型的解码器对所述融合特征进行解码。

23、第二方面，本发明提供一种音色转换系统，所述系统包括获取模块、第一抽取模块、第二抽取模块、第三抽取模块、融合模块、逆归一化模块、解码模块和转换模块；

24、所述获取模块用于获取内容语音和音色语音；

25、所述第一抽取模块用于抽取所述内容语音的语音识别特征和文本特征；

26、所述第二抽取模块用于抽取所述内容语音的归一化内容特征；

27、所述第三抽取模块用于抽取所述音色语音的第一音色特征和第二音色特征；

28、所述融合模块用于基于所述语音识别特征、所述文本特征、所述归一化内容特征、所述第一音色特征和所述第二音色特征获取融合特征；

29、所述逆归一化模块用于对所述融合特征进行逆归一化，获取逆归一化融合特征；

30、所述解码模块用于对所述逆归一化融合特征进行解码，获取重建语音；对所述融合特征进行解码，获取补充语音；

31、所述转换模块用于基于所述重建语音和所述补充语音获取包含内容和音色的转换语音。

32、第三方面，本发明提供一种电子设备，所述电子设备包括：处理器和存储器；

33、所述存储器用于存储计算机程序；

34、所述处理器用于执行所述存储器存储的计算机程序，以使所述电子设备执行上述的音色转换方法。

35、第四方面，本发明提供一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被电子设备执行时实现上述的音色转换方法。

36、如上所述，本发明所述的音色转换方法、系统、存储介质及电子设备，具有以下有益效果：

37、(1)能够实现不同音色特点的语音转换，扩大了音色转换的范围；

38、(2)基于语音识别的语音特征和文本特征来增强，有效提高了语音的保真度；

39、(3)智能化程度高，极具实用性。

技术特征：

1.一种音色转换方法，其特征在于，所述方法包括以下步骤：

2.根据权利要求1所述的音色转换方法，其特征在于：抽取所述内容语音的语音识别特征和文本特征包括以下步骤：

3.根据权利要求1所述的音色转换方法，其特征在于：抽取所述内容语音的归一化内容特征包括以下步骤：

4.根据权利要求1所述的音色转换方法，其特征在于：抽取所述音色语音的第一音色特征和第二音色特征包括以下步骤：

5.根据权利要求1所述的音色转换方法，其特征在于：基于所述语音识别特征、所述文本特征、所述归一化内容特征、所述第一音色特征和所述第二音色特征获取融合特征包括以下步骤：

6.根据权利要求1所述的音色转换方法，其特征在于：对所述融合特征进行逆归一化，获取逆归一化融合特征包括以下步骤：

7.根据权利要求1所述的音色转换方法，其特征在于：对所述逆归一化融合特征进行解码，获取重建语音；对所述融合特征进行解码，获取补充语音包括以下步骤：

8.一种音色转换系统，其特征在于，所述系统包括获取模块、第一抽取模块、第二抽取模块、第三抽取模块、融合模块、逆归一化模块、解码模块和转换模块；

9.一种电子设备，其特征在于，所述电子设备包括：处理器和存储器；

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被电子设备执行时实现权利要求1至7中任一项所述的音色转换方法。

技术总结本发明提供一种音色转换方法、系统、存储介质及电子设备，包括：获取内容语音和音色语音；抽取所述内容语音的语音识别特征和文本特征；抽取所述内容语音的归一化内容特征；抽取所述音色语音的第一音色特征和第二音色特征；基于所述语音识别特征、所述文本特征、所述归一化内容特征、所述第一音色特征和所述第二音色特征获取融合特征；对所述融合特征进行逆归一化，获取逆归一化融合特征；对所述逆归一化融合特征进行解码，获取重建语音；对所述融合特征进行解码，获取补充语音；基于所述重建语音和所述补充语音获取转换语音。本发明的音色转换方法、系统、存储介质及电子设备能够实现不同音色特点的语音转换，有效提高语音的保真度。技术研发人员：请求不公布姓名受保护的技术使用者：上海蜜度信息技术有限公司技术研发日：技术公布日：2024/1/15