技术新讯 > 乐器声学设备的制造及制作,分析技术 > 基于潜在扩散模型的语音合成方法、装置、服务器及介质与流程  >  正文

基于潜在扩散模型的语音合成方法、装置、服务器及介质与流程

  • 国知局
  • 2024-09-14 15:10:08

本申请涉及语音合成的,尤其涉及一种基于潜在扩散模型的语音合成方法、装置、服务器及存储介质。

背景技术:

1、语音合成(text to speech,tts)技术被广泛应用于各大领域,例如,在金融或保险领域下,可以将文本转换为适用于金融客服或保险客服场景的语音,从而帮助金融机构或保险机构提供智能外呼、智能应答、智能催收等服务,提高客户满意度和运营效率。然而,目前的语音合成方法还存在合成的语音的不够自然,质量较差的问题,用户体验不好。

技术实现思路

1、本申请实施例提供一种基于潜在扩散模型的语音合成方法、装置、服务器及存储介质,旨在提高合成语音的自然度和质量。

2、第一方面,本申请实施例提供一种基于潜在扩散模型的语音合成方法,包括:

3、获取待合成的目标文本;

4、根据所述目标文本,确定合成语音的语音情感特征和目标时长信息;

5、通过预设的目标语音合成模型中的神经网络音频编码器,对所述目标文本进行编码处理,得到第一隐向量;

6、通过所述目标语音合成模型中的残差向量量化器,对所述第一隐向量进行量化压缩处理,得到第二隐向量;

7、对所述语音情感特征的向量表示、所述目标时长信息的向量表示和所述第二隐向量进行融合处理,得到融合隐向量;

8、通过所述目标语音合成模型中的潜在扩散模型,对所述融合隐向量进行逆向扩散处理,得到目标隐向量;

9、通过所述目标语音合成模型中的神经网络音频解码器,对所述目标隐向量进行解码处理,得到所述目标文本对应的合成语音。

10、第二方面,本申请实施例还提供一种基于潜在扩散模型的语音合成装置,所述语音合成装置包括:

11、获取模块,用于获取待合成的目标文本;

12、确定模块,用于根据所述目标文本,确定合成语音的语音情感特征和目标时长信息;

13、编码模块,用于通过预设的目标语音合成模型中的神经网络音频编码器,对所述目标文本进行编码处理,得到第一隐向量;

14、压缩模块,用于通过所述目标语音合成模型中的残差向量量化器,对所述第一隐向量进行量化压缩处理,得到第二隐向量;

15、融合模块,用于对所述语音情感特征的向量表示、所述目标时长信息的向量表示和所述第二隐向量进行融合处理,得到融合隐向量;

16、扩散模块,用于通过所述目标语音合成模型中的潜在扩散模型,对所述融合隐向量进行逆向扩散处理,得到目标隐向量;

17、解码模块,用于通过所述目标语音合成模型中的神经网络音频解码器,对所述目标隐向量进行解码处理,得到所述目标文本对应的合成语音。

18、第三方面,本申请实施例还提供一种服务器,所述服务器包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的计算机程序,其中所述计算机程序被所述处理器执行时,实现如第一方面所述的基于潜在扩散模型的语音合成方法。

19、第四方面,本申请实施例还提供一种存储介质,所述存储介质上存储有计算机程序,其中所述计算机程序被处理器执行时,实现如第一方面所述的基于潜在扩散模型的语音合成方法。

20、本申请实施例提供一种基于潜在扩散模型的语音合成方法、装置、服务器及存储介质,该语音合成方法通过待合成的目标文本,能够预测合成语音的语音情感特征和目标时长信息,并且将语音情感特征的向量表示、目标时长信息的向量表示以及经残差向量量化器量化压缩处理得到的目标文本的隐向量进行融合,使得融合得到的隐向量不仅能够描述合成语音的语义,还能够描述合成语音的情感特征和时长,这样通过神经网络音频解码器,对融合得到的隐向量进行解码处理,可以得到自然度高,且质量好的合成语音,有效地提高了合成语音的自然度和质量。

技术特征:

1.一种基于潜在扩散模型的语音合成方法,其特征在于,包括:

2.根据权利要求1所述的语音合成方法,其特征在于,所述通过所述目标语音合成模型中的潜在扩散模型,对所述融合隐向量进行逆向扩散处理,得到目标隐向量,包括:

3.根据权利要求1所述的语音合成方法,其特征在于,所述对所述语音情感特征的向量表示、所述目标时长信息的向量表示和所述第二隐向量进行融合处理,得到融合隐向量,包括:

4.根据权利要求1所述的语音合成方法,其特征在于,所述根据所述目标文本,确定合成语音的语音情感特征和目标时长信息,包括:

5.根据权利要求1-4中任一项所述的语音合成方法,其特征在于,所述获取待合成的目标文本之前,还包括:

6.根据权利要求5所述的语音合成方法,其特征在于,所述训练样本还包括所述转录语音的第二训练隐向量,所述第二训练隐向量是对所述转录语音进行编码得到的,所述通过所述语音合成模型中的神经网络音频解码器,对所述第六隐向量进行解码处理,得到所述训练文本对应的合成语音,包括:

7.根据权利要求5所述的语音合成方法,其特征在于,所述根据选取的所述训练样本中的转录语音和所述训练文本对应的合成语音,确定模型损失值,包括:

8.一种基于潜在扩散模型的语音合成装置,其特征在于,所述语音合成装置包括:

9.一种服务器,其特征在于,所述服务器包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的计算机程序,其中所述计算机程序被所述处理器执行时,实现如权利要求1至7中任一项所述的基于潜在扩散模型的语音合成方法。

10.一种存储介质,用于计算机可读存储,其特征在于,所述存储介质上存储有计算机程序,其中所述计算机程序被处理器执行时,实现如权利要求1至7中任一项所述的基于潜在扩散模型的语音合成方法。

技术总结本申请实施例提供一种基于潜在扩散模型的语音合成方法、装置、服务器及存储介质,该方法包括:获取待合成的目标文本;根据目标文本,确定语音情感特征和目标时长信息;通过预设的目标语音合成模型中的神经网络音频编码器,对目标文本进行编码处理,得到第一隐向量;通过残差向量量化器,对第一隐向量进行量化压缩处理,得到第二隐向量;对语音情感特征的向量表示、目标时长信息的向量表示和第二隐向量进行融合处理,得到融合隐向量;通过潜在扩散模型,对融合隐向量进行逆向扩散处理,得到目标隐向量;通过神经网络音频解码器,对目标隐向量进行解码处理,得到合成语音。本申请提高了合成语音的自然度和质量,使得合成语音更加贴近真实的语音。技术研发人员:张旭龙,王健宗受保护的技术使用者:平安科技(深圳)有限公司技术研发日:技术公布日:2024/9/12

本文地址:https://www.jishuxx.com/zhuanli/20240914/297207.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。