技术新讯 > 乐器声学设备的制造及制作,分析技术 > 语音合成模型训练方法与语音合成方法、设备、介质及程序产品与流程  >  正文

语音合成模型训练方法与语音合成方法、设备、介质及程序产品与流程

  • 国知局
  • 2024-06-21 11:56:58

本申请涉及多媒体内容处理的,具体地涉及一种语音合成模型训练方法与语音合成方法。另外,本申请还涉及相关的电子设备、可读存储介质和计算机程序产品。

背景技术:

1、语音合成技术已经广泛应用于有声书、解说配音等领域。当用户录制少量语音片段后,就可以依据这些少量的语音片段,将有声书、解说配音的文本数据自动生成与用户音色对应的语音数据。

2、然而,由于用户在录制语音时一般不会在专业录音棚,因此录制的少量语音片段中通常带有较明显的噪声或混响;加之语音片段的语音数据量较少,可能会导致合成出的语音数据也带有噪声或混响,严重影响最终合成语音的听觉质量。

3、本背景技术描述的内容仅为了便于了解本领域的相关技术,不视作对现有技术的承认。

技术实现思路

1、因此,本申请实施例意图提供一种语音合成模型训练方法、一种语音合成方法以及相关电子设备和计算机存储介质。通过本申请实施例的音频识别方案,可以使基于声学模型实现个性化语音合成的语音合成模型对于输入的语音数据具有更好的抗噪性,输入带噪语音仍能够输出干净的个性化语音。

2、在第一方面,本申请实施例提供了一种语音合成模型训练方法,包括:

3、获得由至少一条通用语音数据生成的第一梅尔频谱和由所述通用语音数据对应的第一文本数据生成的第一音素串,其中所述至少一条通用语音数据中的部分条通用语音数据为加噪语音数据;

4、在第一阶段训练中,将所述第一梅尔频谱和所述第一音素串输入待训练的初始语音合成模型,以训练所述初始语音合成模型的梅尔频谱合成单元、噪声提取模块和降噪器,获得预训练语音合成模型;

5、获得由目标用户语音数据生成的第二梅尔频谱和由所述目标用户语音数据对应的文本数据生成的第二音素串;

6、在第二阶段训练中,将所述第二梅尔频谱和所述第二音素串输入所述预训练语音合成模型,以训练所述预训练语音合成模型的梅尔频谱合成单元,获得训练好的语音合成模型;

7、其中,所述训练好的语音合成模型包括第二阶段训练得到的所述梅尔频谱合成单元和第一阶段训练得到的所述噪声提取模块和所述降噪器;其中,所述梅尔频谱合成单元用于根据输入的梅尔频谱和音素串生成合成梅尔频谱,所述噪声提取模块用于提取输入的梅尔频谱的噪声信息,所述降噪器基于所述噪声信息对所述合成梅尔频谱进行降噪,降噪后的所述合成梅尔频谱用于生成合成语音。

8、在第二方面,本申请实施例提供了一种语音合成方法,包括:

9、获取由目标用户的语音数据生成的用户梅尔频谱,获取由预设的干净语音数据生成的干净梅尔频谱,以及获取用于合成语音的文本数据的音素串;

10、将所述用户梅尔频谱、所述干净梅尔频谱和所述音素串输入训练好的语音合成模型,得到合成梅尔频谱所述训练好的语音合成模型由根据本申请实施例中任一项所述的方法训练得到;

11、由所述合成梅尔频谱生成具有所述目标用户语音特征的合成语音。

12、第三方面,本申请实施例提供一种计算机可读存储介质,其上存储有计算机程序,其中,所述程序被处理器执行时,实现任一本申请实施例的语音合成模型训练方法、任一本申请实施例的语音合成方法。

13、第四方面,本申请实施例提供一种电子设备,包括:处理器和存储有计算机程序的存储器,所述处理器被配置为在运行计算机程序时执行任一本申请实施例的语音合成模型训练方法、任一本申请实施例的语音合成方法。

14、在现有的多人语音合成模型中,已经提出了利用残差编码器来提取输入模型的语音数据中除人声外的例如噪音、背景声等其他信息的方案。其中,所述残差编码器将会输出的残差编码将与输入模型的文本编码、人声编码合并后一同送入解码器,从而直接控制模型预测出的语音梅尔频谱是否带有噪音、背景声等其他信息。但在该方案中,残差编码器被设置在解码器前,这导致该方案无法结合降噪器进行部分训练,而在语音模型的训练阶段,当利用微调样本对语音微调时,所述训练残差模块同样会被训练,从而模型将强烈倾向于预测出与训练数据噪声情况一致的梅尔频谱,难以生成干净的目标用户个性化语音。

15、本申请实施例提供了语音合成模型训练方法,通过将噪声相关的噪声提取模块独立于梅尔频谱合成单元设置,例如与梅尔频谱合成单元的梅尔频谱生成模块(如解码器)并行设置,并且加入降噪器;首先使用部分加噪的多人语音数据进行第一阶段模型训练,分别预测带噪和干净两种梅尔频谱,使得整个模型有控制噪声的能力;进而使用目标用户语音数据进行第二阶段模型训练,此时将在不更新降噪相关模块,即在不更新噪声提取模块和降噪器的参数的情况下微调模型参数,使得该语音合成模型个性化合成的语音数据具有更好的抗噪性。相应地,本申请实施例提供的语音合成方法,通过使用上述训练好的语音合成模型使得合成的目标用户个性化语音数据具有更好的抗噪性。

16、本申请实施例的其他可选特征和技术效果一部分在下文描述,一部分可通过阅读本文而明白。

技术特征:

1.一种语音合成模型训练方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述梅尔频谱合成单元包括:语音特征提取模块、文本编码器以及分别与所述语音特征提取模块和所述文本编码器连接的梅尔频谱生成模块;

3.根据权利要求2所述的方法,其特征在于,还包括:

4.根据权利要求2所述的方法,其特征在于,所述通用语音数据具有多种不同的音色;在所述将所述通用语音数据的第一梅尔频谱输入所述语音特征提取模块得到第一音色特征序列之后,所述方法还包括:

5.根据权利要求1所述的方法,其特征在于,所述梅尔频谱合成单元包括:语音特征提取模块、文本编码器以及分别与所述语音特征提取模块和所述文本编码器连接的梅尔频谱生成模块;

6.一种语音合成方法,其特征在于,包括:

7.根据权利要求6所述的方法,其特征在于,所述梅尔频谱合成单元包括语音特征提取模块、文本编码器和梅尔频谱生成模块;

8.一种电子设备,其特征在于,包括处理器和存储有计算机程序的存储器,所述处理器被配置为在运行计算机程序时实现权利要求1至5中任一项所述的语音合成模型训练方法,或权利要求6至7中任一项所述的语音合成方法。

9.一种可读存储介质,其特征在于,所述可读存储介质存储有计算机程序,所述计算机程序被处理器运行时实现权利要求1至5中任一项所述的语音合成模型训练方法,或权利要求6至7中任一项所述的语音合成方法。

10.一种计算机程序产品,其特征在于,所述计算机程序产品包括计算机程序,所述计算机程序被处理器运行时实现权利要求1至5中任一项所述的语音合成模型训练方法,或权利要求6至7中任一项所述的语音合成方法。

技术总结本申请公开一种语音合成模型训练方法,包括获得由至少一条通用语音数据生成的第一梅尔频谱和由通用语音数据对应的文本数据生成的第一音素串;将第一梅尔频谱和第一音素串输入初始语音合成模型,以训练初始语音合成模型的梅尔频谱合成单元、噪声提取模块和降噪器,获得预训练语音合成模型;获得由目标用户语音数据生成的第二梅尔频谱和由目标用户语音数据对应的文本数据生成的第二音素串;将第二梅尔频谱和第二音素串输入预训练语音合成模型,以训练预训练语音合成模型的梅尔频谱合成单元,获得训练好的语音合成模型。本申请利用基础声学模型优化语音合成模型,提升了语音合成模型的抗噪性,在输入个性化带噪语音数据时仍能输出干净的语音。技术研发人员:刘若澜,陈梦受保护的技术使用者:腾讯音乐娱乐科技(深圳)有限公司技术研发日:技术公布日:2024/6/5

本文地址:https://www.jishuxx.com/zhuanli/20240618/24664.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。