技术新讯 > 乐器声学设备的制造及制作,分析技术 > 语音转换模型训练方法、语音转换方法、电子设备和介质与流程 > 正文

语音转换模型训练方法、语音转换方法、电子设备和介质与流程

国知局
2024-06-21 11:44:33

本申请涉及计算机，具体而言，涉及一种语音转换模型训练方法、语音转换方法、电子设备和介质。

背景技术：

1、随着语音转换技术的快速发展，在娱乐、游戏等领域，为了增强趣味性，对语音的处理编辑显得尤为重要。

2、现阶段，往往采用语音转换技术将一段语音的音色转换为指定的目标音色，其中，在语音转换过程中存在跨语言挑战和音调跨度挑战，跨语言挑战指的是由于不同语言具有不同发音特点，在转换过程中需要适应不同语言的语音特征，音调跨度挑战指的是转换前后的语音具有跨度较大的音调，在转换过程中需要调整音调。

3、然而，采用上述方法进行语音转换时，转换后语音不够自然，且质量较差。

技术实现思路

1、有鉴于此，本申请实施例提供了一种语音转换模型训练方法、语音转换方法、电子设备和介质，以适应不同语言和音调差异，使得转换后语音自然、质量高。

2、第一方面，本申请实施例提供了一种语音转换模型训练方法，包括：

3、获取样本源语音；

4、对所述样本源语音进行预设声学维度的变换，生成所述样本源语音的中间语音；

5、获取所述中间语音的样本声学特征；

6、采用初始编码网络，对所述样本声学特征进行特征编码，得到样本编码特征；

7、获取所述样本源语音对应样本说话人的语音特征；

8、采用初始解码网络，根据所述样本编码特征和所述样本说话人的语音特征，生成样本转换语音；

9、根据所述样本源语音和所述样本转换语音，调整所述初始编码网络的参数和所述初始解码网络的参数，得到包括目标编码网络和目标解码网络的语音转换模型。

10、在一可选的实施方式中，所述获取所述中间语音的样本声学特征，包括：

11、采用初始语音识别网络，对所述中间语音进行处理，得到样本内容特征；

12、获取所述中间语音的音高信息和音强信息，所述样本声学特征包括：所述样本内容特征、所述中间语音的音高信息和音强信息；

13、所述方法还包括：

14、根据所述样本源语音和所述样本转换语音，调整所述初始语音识别网络的参数，得到目标语音识别网络，所述语音转换模型还包括：所述目标语音识别网络。

15、在一可选的实施方式中，所述获取所述样本源语音对应样本说话人的语音特征，包括：

16、从所述样本源语音中分别提取样本音色信息、样本音高信息以及样本音强信息，所述样本说话人的语音特征包括：所述样本音色信息、所述样本音高信息以及所述样本音强信息。

17、第二方面，本申请实施例还提供了一种语音转换方法，包括：

18、获取待转换源语音和目标语音；

19、获取所述待转换源语音的源声学特征；

20、采用语音转换模型中的目标编码网络，对所述源声学特征进行特征编码，得到所述待转换源语音的源编码特征，所述语音转换模型为采用第一方面任一项所述的方法训练得到的；

21、获取所述目标语音对应目标说话人的语音特征；

22、采用所述语音转换模型中的目标解码网络，根据所述源编码特征和所述目标说话人的语音特征，生成转换后语音。

23、在一可选的实施方式中，所述获取所述目标语音对应目标说话人的语音特征，包括：

24、从所述目标语音中分别提取所述目标说话人的音色信息、目标音高信息以及目标音强信息；

25、根据所述目标音高信息以及所述目标音强信息，得到所述目标说话人的说话风格分布信息，所述目标说话人的语音特征包括：所述目标说话人的音色信息和所述目标说话人的说话风格分布信息。

26、在一可选的实施方式中，所述源声学特征包括：源音高信息以及源音强信息；

27、所述根据所述目标音高信息以及所述目标音强信息，得到所述目标说话人的说话风格分布信息，包括：

28、对所述源音高信息以及所述源音强信息分别进行归一化，得到源归一化音高信息以及源归一化音强信息；

29、根据所述目标音高信息、所述目标音强信息、所述源归一化音高信息以及所述源归一化音强信息，得到所述目标说话人的说话风格分布信息。

30、在一可选的实施方式中，所述根据所述目标音高信息、所述目标音强信息、所述源归一化音高信息以及所述源归一化音强信息，得到所述目标说话人的说话风格分布信息，包括：

31、根据所述目标音高信息，计算目标音高均值和目标音高方差；

32、根据所述目标音强信息，计算目标音强均值和目标音高方差；

33、根据所述源归一化音高信息、所述目标音高均值以及所述目标音高方差，获取所述目标说话人的说话音高分布信息；

34、根据所述源归一化音强信息、所述目标音强均值以及所述目标音高方差，获取所述目标说话人的说话音强分布信息。

35、在一可选的实施方式中，所述获取所述待转换源语音的源声学特征，包括：

36、采用所述语音转换模型中的目标语音识别网络，对所述待转换源语音进行处理，得到源内容特征；

37、获取所述待转换源语音的源音高信息和源音强信息，所述源声学特征包括：所述源内容特征、所述源音高信息和源音强信息。

38、第三方面，本申请实施例还提供了一种电子设备，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述处理器执行所述机器可读指令，以执行第一方面和第二方面任一项所述的方法。

39、第四方面，本申请实施例还提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行第一方面和第二方面任一项所述的方法。

40、本申请提供了一种语音转换模型训练方法、语音转换方法、电子设备和介质，语音转换模型训练方法包括：获取样本源语音，对样本源语音进行预设声学维度的变换，生成样本源语音的中间语音，获取中间语音的样本声学特征，采用初始编码网络，对样本声学特征进行特征编码，得到样本编码特征，获取样本源语音对应样本说话人的语音特征，采用初始解码网络，根据样本编码特征和样本说话人的语音特征，生成样本转换语音，根据样本源语音和样本转换语音，调整初始编码网络的参数和初始解码网络的参数，得到包括目标编码网络和目标解码网络的语音转换模型。本方案语音转换模型，能够实现跨语言和音调跨度大的语音转换，转换后语音在质量和自然度上的效果更佳。

技术特征：

1.一种语音转换模型训练方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述获取所述中间语音的样本声学特征，包括：

3.根据权利要求1所述的方法，其特征在于，所述获取所述样本源语音对应样本说话人的语音特征，包括：

4.一种语音转换方法，其特征在于，包括：

5.根据权利要求4所述的方法，其特征在于，所述获取所述目标语音对应目标说话人的语音特征，包括：

6.根据权利要求5所述的方法，其特征在于，所述源声学特征包括：源音高信息以及源音强信息；

7.根据权利要求6所述的方法，其特征在于，所述根据所述目标音高信息、所述目标音强信息、所述源归一化音高信息以及所述源归一化音强信息，得到所述目标说话人的说话风格分布信息，包括：

8.根据权利要求4所述的方法，其特征在于，所述获取所述待转换源语音的源声学特征，包括：

9.一种电子设备，其特征在于，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述处理器执行所述机器可读指令，以执行权利要求1-8任一项所述的方法。

10.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行权利要求1至8任一项所述的方法。

技术总结本申请提供了一种语音转换模型训练方法、语音转换方法、电子设备和介质，语音转换模型训练方法包括：获取样本源语音，对样本源语音进行预设声学维度的变换，生成样本源语音的中间语音，获取中间语音的样本声学特征，采用初始编码网络，对样本声学特征进行特征编码，得到样本编码特征，获取样本源语音对应样本说话人的语音特征，采用初始解码网络，根据样本编码特征和样本说话人的语音特征，生成样本转换语音，根据样本源语音和样本转换语音，调整初始编码网络的参数和初始解码网络的参数，得到包括目标编码网络和目标解码网络的语音转换模型。本方案语音转换模型，能够实现跨语言和音调跨度大的语音转换，转换后语音在质量和自然度上的效果更佳。技术研发人员：盛乐园受保护的技术使用者：杭州小影创新科技股份有限公司技术研发日：技术公布日：2024/4/17