技术新讯 > 乐器声学设备的制造及制作,分析技术 > 语音合成模型的训练方法、语音合成方法及设备与流程 > 正文

语音合成模型的训练方法、语音合成方法及设备与流程

国知局
2024-06-21 11:48:49

本技术涉及语音合成，特别涉及一种语音合成模型的训练方法、语音合成方法及设备。

背景技术：

1、随着文本转语音(text to speech，tts)技术的发展，越来越多的领域采用该种技术，以提高用户的体验。比如，通过预先设置智能设备上语音助手对某一问题的回答内容，以使后续用户在请求语音助手回答该问题时，即可输出语音形式的回答内容。现有技术中，为了提高合成语音的语音质量，普遍是采用高质量第一训练语音来完成语音合成模型训练，以便于基于训练得到的语音合成模型来得到文本信息对应的语音信息。然而，高质量第一训练语音需要花费高昂成本，这就会增加语音合成模型的训练成本，从而增加语音合成的合成成本。

2、因而现有技术还有待改进和提高。

技术实现思路

1、本技术要解决的技术问题在于，针对现有技术的不足，提供一种语音合成模型的训练方法、语音合成方法及设备。

2、为了解决上述技术问题，本技术第一方面提供了一种语音合成模型的训练方法，其中，所述的语音合成模型的训练方法具体包括：

3、基于第一训练语音数据集中的各第一训练语音对初始语音转换模型进行训练，以得到目标语音转换模型，其中，所述第一训练语音包括说话人声音和说话内容；

4、基于所述目标语音转换模型确定第二训练语音数据集中的各第二训练语音对应的第一转换语音，并基于各第二训练语音及其对应的第一转换语音构建训练语音组以得到第三训练语音数据集，其中，第二训练语音的语音质量高于第一训练语音的语音质量；

5、基于所述第三训练语音数据集中的各训练语音组训练初始语音重建模型，以得到目标语音重建模型；

6、基于所述目标语音转换模型和所述目标语音重建模型，确定语音合成模型。

7、所述的语音合成模型的训练方法，其中，所述基于第一训练语音数据集中的各第一训练语音对初始语音转换模型进行训练，以得到目标语音转换模型，具体包括：

8、基于所述初始语音转换模型中的第一编解码模块确定所述第一训练语音数据集中的训练数据的第一预测梅尔频谱，并基于所述第一预测梅尔频谱和所述说话人声音的原始梅尔频谱对所述第一编解码模块的模型参数进行优化；

9、当所述第一编解码模块训练完成时，基于所述第一训练语音数据集中的第一训练语音对所述初始语音转换模型中的第一声码器的模型参数进行优化，以得到目标语音转换模型。

10、所述的语音合成模型的训练方法，其中，所述基于第一训练语音数据集中的各第一训练语音对初始语音转换模型进行训练，以得到目标语音转换模型具体包括：

11、基于所述初始语音转换模型中的第一编解码模块确定所述第一训练语音数据集中的第一训练语音的第一预测梅尔频谱；

12、将所述第一预测梅尔频谱输入所述初始语音转换模型中的第一声码器得到第二转换语音；

13、基于第一预测梅尔频谱和所述说话人声音的原始梅尔频谱确定第一损失函数项，并基于第二转换语音和第一训练语音确定第二损失函数项；

14、根据所述第一损失函数项和所述第二损失函数项确定第三损失函数项，并采用所述第三损失函数项来对初始语音转换模型进行训练，以得到目标语音转换模型。

15、所述的语音合成模型的训练方法，其中，所述基于所述初始语音转换模型中的第一编解码模块确定所述第一训练语音数据集中的第一训练语音的第一预测梅尔频谱具体包括：

16、通过所述第一编解码模块中的说话人编码器对说话人声音进行编码，以得到说话人特征向量；

17、通过所述第一编解码模块中的内容编码器对说话内容进行编码，以得到内容特征向量；

18、将所述说话人特征向量和所述内容特征向量进行拼接，得到拼接向量；

19、通过所述第一编解码模块中的解码器对所述拼接向量进行解码，以得到第一预测梅尔频谱。

20、所述的语音合成模型的训练方法，其中，所述基于所述第一预测梅尔频谱和所述说话人声音的原始梅尔频谱对所述第一编解码模块的模型参数进行优化具体包括：

21、根据所述第一预测梅尔频谱和所述说话人声音的原始梅尔频谱，确定第一损失函数项；

22、基于第一损失函数项对第一编解码模块的模型参数进行优化，直至达到训练结束条件，以完成所述第一编解码模块的训练。

23、所述的语音合成模型的训练方法，其中，所述基于所述第一训练语音数据集中的第一训练语音对所述第一声码器的模型参数进行优化，以得到目标语音转换模型具体包括：

24、将所述第一训练语音数据集中的训练数据输入所述第一编解码模块，通过所述第一编解码模块输出第一预测梅尔频谱；

25、将所述第一预测梅尔频谱输入所述第一声码器，通过所述第一声码器输出第二转换语音，基于第二转换语音和第一训练语音确定第二损失函数项；

26、基于所述第二损失函数项对所述第一声码器进行训练，以得到目标语音转换模型。

27、所述的语音合成模型的训练方法，其中，所述的基于所述目标语音转换模型确定第二训练语音数据集中的各第二训练语音对应的第一转换语音具体包括：

28、对第二训练语音数据集中的各第二训练语音进行降采样以得到各第二训练语音对应的降采样语音，其中，所述降采样语音的采样率与所述第一训练语音数据集中的第一训练语音的采样率相同；

29、将各降采样语音输入所述目标语音转换模型，通过所述目标语音转换模型输出各降采样语音对应的第一转换语音。

30、所述的语音合成模型的训练方法，其中，所述基于所述第三训练语音数据集中的各训练语音组训练初始语音重建模型，以得到目标语音重建模型具体包括：

31、基于初始语音重建模型提取训练语音组中的第一转换语音的第二预测梅尔频谱，并基于所述第二预测梅尔频谱确定预测重建语音；

32、基于所述预测重建语音和训练语音组中的第二训练语音对所述初始语音重建模型进行训练，以得到目标语音重建模型。

33、本技术第二方面提供了一种语音合成方法，使用如上所述的语音合成模型的训练方法所得到的语音合成模型，所述语音合成方法具体包括：

34、将待合成的说话内容和说话内容对应的目标说话人声音输入所述语音合成模型中的目标语音转换模型，通过目标语音转换模型得到待合成的说话内容对应的第三转换语音；

35、将所述第三转换语音输入所述语音合成模型中的目标语音重建模型，通过所述目标语音重建模型输出所述待合成的说话内容对应的目标合成语音。

36、本技术第三方面提供了一种语音合成模型得到训练装置，其中，所述的语音合成模型得到训练装置具体包括：

37、第一训练模块，用于基于第一训练语音数据集中的各第一训练语音对初始语音转换模型进行训练，以得到目标语音转换模型，其中，所述第一训练语音包括说话人声音和说话内容；

38、构建模块，用于基于所述目标语音转换模型确定第二训练语音数据集中的各第二训练语音对应的第一转换语音，并基于各第二训练语音及其对应的第一转换语音构建训练语音组以得到第三训练语音数据集，其中，第二训练语音的语音质量高于第一训练语音的语音质量；

39、第二训练模块，用于基于所述第三训练语音数据集中的各训练语音组训练初始语音重建模型，以得到目标语音重建模型；

40、确定模块，用于基于所述目标语音转换模型和所述目标语音重建模型，确定语音合成模型。

41、本技术第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质存储有一个或者多个程序，所述一个或者多个程序可被一个或者多个处理器执行，以实现如上所述的语音合成模型的训练方法中的步骤，和/或以实现如上所述的语音合成方法中的步骤。

42、本技术第五方面提供了一种终端设备，其包括：处理器和存储器；

43、所述存储器上存储有可被所述处理器执行的计算机可读程序；

44、所述处理器执行所述计算机可读程序时实现如上所述的语音合成模型的训练方法中的步骤，和/或实现如上所述的语音合成方法中的步骤。

45、有益效果：与现有技术相比，本技术提供了一种语音合成模型的训练方法、语音合成方法及设备，所述语音合成模型的训练方法包括基于第一训练语音数据集中的各第一训练语音对初始语音转换模型进行训练，以得到目标语音转换模型；基于所述目标语音转换模型确定第二训练语音数据集中的各第二训练语音对应的第一转换语音，并基于各第二训练语音及其对应的第一转换语音构建训练语音组以得到第三训练语音数据集；基于所述第三训练语音数据集中的各训练语音组训练初始语音重建模型，以得到目标语音重建模型；基于所述目标语音转换模型和所述目标语音重建模型，确定语音合成模型。本技术实施例先通过低质量的第一训练样本集第二训练目标语音转换模型，再通过目标语音转换模型和高质量的第二训练样本集来训练目标语音重建模型，基于目标语音转换模型和目标语音重建模型来得到语音合成模型，这样先用低质量语音加强泛化性，再用高质量语音进行重建，可以减少高质量语音的需求量，从而可以降低高质量零样本的语音合成模型的训练成本，进而可以降低零样本语音合成的合成成本。