技术新讯 > 乐器声学设备的制造及制作,分析技术 > 语音合成模型的训练方法、语音合成方法及相关装置与流程  >  正文

语音合成模型的训练方法、语音合成方法及相关装置与流程

  • 国知局
  • 2024-06-21 11:26:03

本申请涉及语音数据处理,尤其涉及一种语音合成模型的训练方法、语音合成方法及相关装置。

背景技术:

1、随着人工智能技术的飞速发展,从文本到语音(text to speech,tts)的语音合成技术得到了广泛的应用,在基于tts技术进行语音合成时,为了得到表达自然和有停顿感的高质量合成语音,其中语音的韵律感是非常重要的。因此,如何获得语音韵律感比较好的语音合成模型成为目前关注的重点。

技术实现思路

1、第一方面,本申请实施例提供了一种语音合成模型的训练方法,包括:

2、获取语音合成模型的训练数据;所述训练数据包括待合成文本的音素序列、所述待合成文本的语音波形和所述待合成文本的频谱标签;所述语音合成模型包括编码模块、与所述编码模块连接的韵律预测模块和与所述韵律预测模块连接的语音合成模块;

3、通过所述编码模块基于所述音素序列进行编码得到音素表示序列;

4、通过所述韵律预测模块基于所述音素表示序列进行韵律预测得到预测韵律序列,将所述音素表示序列与所述预测韵律序列进行合并得到合并序列;

5、通过所述语音合成模块基于所述合并序列进行语音合成得到合成语音特征,并基于所述合成语音特征进行频谱解码得到样本频谱特征;

6、根据所述预测韵律序列和韵律序列标签计算第一损失,根据所述样本频谱特征和所述频谱标签计算第二损失,以及根据所述第一损失和所述第二损失对所述语音合成模型进行参数调整;所述韵律序列标签通过韵律编码器基于所述待合成文本、所述语音波形和所述音素表示序列进行韵律编码得到。

7、可以看出,在本申请实施例中,在语音合成模型的训练过程中,通过语音合成模型中编码模块基于训练数据中音素序列进行编码得到音素表示序列,然后通过语音合成模型的韵律预测模块基于音素表示序列进行韵律预测得到预测韵律序列,并将得到的预测韵律序列合并至音素表示序列,以此来提升音素表示序列的韵律感,进一步的通过语音合成模块基于合并后得到的合并序列进行语音合成得到合成语音特征,并基于合成语音特征进行频谱解码得到样本频谱特征。在进行损失计算的过程中,根据预测韵律序列和韵律编码器对待合成文本、语音波形和音素表示序列进行韵律编码得到的韵律序列标签计算第一损失,并根据样本频谱特征和频谱标签计算第二损失,最后根据第一损失和第二损失对语音合成模型进行参数调整,以此通过第一损失的约束来提升语音合成模型训练过程中对语音的韵律感的关注,并通过第二损失的约束来提升语音合成模型的训练效率和语音合成准确度,从而使训练得到的语音合成模型能够在关注语音的韵律感的基础上进行更加准确的语音合成。

8、第二方面,本申请实施例提供了一种语音合成处理方法,包括:

9、获取待合成文本的音素序列;

10、将所述音素序列输入语音合成模型进行语音合成得到频谱特征;

11、将所述频谱特征输入声码器进行音频合成得到合成语音;

12、其中,所述语音合成模型包括编码模块、与所述编码模块连接的韵律预测模块和与所述韵律预测模块连接的语音合成模块;所述编码模块用于基于所述音素序列进行编码得到音素表示序列;所述韵律预测模块用于基于所述音素表示序列进行韵律预测得到预测韵律序列;所述语音合成模块用于基于所述音素表示序列与所述预测韵律序列进行合并得到的合并序列进行语音合成处理得到合成语音特征,并基于所述合成语音特征进行频谱解码得到所述频谱特征。

13、第三方面,本申请实施例提供了一种语音合成模型的训练装置,包括:

14、获取模块,被配置为获取语音合成模型的训练数据;所述训练数据包括待合成文本的音素序列、所述待合成文本的语音波形和所述待合成文本的频谱标签;所述语音合成模型包括编码模块、与所述编码模块连接的韵律预测模块和与所述韵律预测模块连接的语音合成模块;

15、处理模块,被配置为通过所述编码模块基于所述音素序列进行编码得到音素表示序列;

16、所述处理模块,还被配置为通过所述韵律预测模块基于所述音素表示序列进行韵律预测得到预测韵律序列,将所述音素表示序列与所述预测韵律序列进行合并得到合并序列;

17、所述处理模块,还被配置为通过所述语音合成模块基于所述合并序列进行语音合成得到合成语音特征,并基于所述合成语音特征进行频谱解码得到样本频谱特征;

18、调整模块,被配置为根据所述预测韵律序列和韵律序列标签计算第一损失,根据所述样本频谱特征和所述频谱标签计算第二损失,以及根据所述第一损失和所述第二损失对所述语音合成模型进行参数调整;所述韵律序列标签通过韵律编码器基于所述待合成文本、所述语音波形和所述音素表示序列进行韵律编码得到。

19、第四方面,本申请实施例提供了一种语音合成处理装置,包括:

20、获取模块,被配置为获取待合成文本的音素序列;

21、合成模块,被配置为将所述音素序列输入语音合成模型进行语音合成得到频谱特征;

22、所述合成模块,还被配置为将所述频谱特征输入声码器进行音频合成得到合成语音;

23、其中,所述语音合成模型包括编码模块、与所述编码模块连接的韵律预测模块和与所述韵律预测模块连接的语音合成模块;所述编码模块用于基于所述音素序列进行编码得到音素表示序列;所述韵律预测模块用于基于所述音素表示序列进行韵律预测得到预测韵律序列;所述语音合成模块用于基于所述音素表示序列与所述预测韵律序列进行合并得到的合并序列进行语音合成处理得到合成语音特征,并基于所述合成语音特征进行频谱解码得到所述频谱特征。

24、第五方面,本申请实施例提供了一种计算机设备,包括:处理器;以及,被配置为存储计算机可执行指令的存储器,所述计算机可执行指令在被执行时使所述处理器执行语音合成模型的训练方法或语音合成方法。

25、第六方面,本申请实施例提供了一种计算机可读存储介质,用于存储计算机可执行指令,所述计算机可执行指令在被处理器执行时实现语音合成模型的训练方法或语音合成方法。

技术特征:

1.一种语音合成模型的训练方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述韵律预测模块包括全局特征提取子模块、局部特征提取子模块和特征映射子模块;

3.根据权利要求1所述的方法,其特征在于,所述韵律编码器包括韵律编码模块和注意力计算模块;

4.根据权利要求3所述的方法,其特征在于,所述韵律编码模块包括文本特征提取子模块、文本编码子模块、语音特征提取子模块、语音编码子模块和注意力计算子模块;

5.根据权利要求4所述的方法,其特征在于,所述文本编码子模块包括特征降维层、卷积层和特征映射层;

6.根据权利要求4所述的方法,其特征在于,所述语音编码子模块包括语音降维层、第一卷积层、特征提取层和第二卷积层;

7.根据权利要求1所述的方法,其特征在于,所述根据所述第一损失和所述第二损失对所述语音合成模型进行参数调整,包括:

8.一种语音合成处理方法,其特征在于,所述方法包括:

9.一种语音合成模型的训练装置,其特征在于,所述装置包括:

10.一种语音合成处理装置,其特征在于,所述装置包括:

11.一种计算机设备,其特征在于,所述设备包括:

12.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储计算机可执行指令,所述计算机可执行指令在被处理器执行时实现如权利要求1至7任一项所述的语音合成模型的训练方法;或者执行如权利要求8所述的语音合成处理方法。

技术总结本说明书实施例提供了语音合成模型的训练方法、语音合成方法及相关装置,其中,一种语音合成模型的训练方法包括:获取语音合成模型的训练数据,通过编码模块基于训练数据中包含的音素序列进行编码得到音素表示序列,通过韵律预测模块基于音素表示序列进行韵律预测得到预测韵律序列,通过语音合成模块基于音素表示序列与预测韵律序列进行合并得到的合并序列进行语音合成得到合成语音特征,并基于合成语音特征进行频谱解码得到样本频谱特征,根据预测韵律序列和韵律编码器进行韵律编码获得的韵律序列标签计算得到第一损失,根据样本频谱特征和频谱标签计算得到第二损失,根据第一损失和第二损失对语音合成模型进行参数调整。技术研发人员:刘鹏飞,蒋宁,吴海英,陆全,刘敏受保护的技术使用者:马上消费金融股份有限公司技术研发日:技术公布日:2024/2/6

本文地址:https://www.jishuxx.com/zhuanli/20240618/21498.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。