技术新讯 > 乐器声学设备的制造及制作,分析技术 > 用于语音合成的方法、装置、设备和可读介质与流程  >  正文

用于语音合成的方法、装置、设备和可读介质与流程

  • 国知局
  • 2024-10-15 09:45:30

本公开的示例实施例总体涉及计算机,并且更具体地,涉及用于语音合成的方法、装置、设备和计算机可读存储介质。

背景技术:

1、随着机器学习技术的进步,语音合成技术也得到了快速发展。语音合成技术是一种基于文语转换(text to speech,tts)模型将任意文字信息转换为语音信息的技术。tts模型能够对连续的声学特征进行声学建模,并基于建立的声学模型确定与文本信息对应的声学特征,以输出声音信息。但目前的语音合成技术仍然存在一些问题,导致输出的语音信息的质量受到影响,降低用户的使用体验。

技术实现思路

1、在本公开的第一方面,提供一种用于语音合成的方法。该方法包括:利用预测器模型对目标文本对应的音素嵌入序列执行音素预测,以获取预测音素序列;基于语音生成任务的类型来确定对参考音频的量化声学特征的遮蔽处理,以获取遮蔽声学特征;利用编码器模型,对遮蔽声学特征执行编码操作,以获取遮蔽特征码;利用解码器模型,基于所述遮蔽特征码和所述预测音素序列执行解码操作,以获取第一预测特征码;以及至少基于所述第一预测特征码生成所述目标文本对应的语音波形。

2、在本公开的第二方面,提供一种用于语音合成的装置。该装置包括获取模块,被配置为利用预测器模型对目标文本对应的音素嵌入序列执行音素预测,以获取预测音素序列;遮蔽模块,被配置为基于语音生成任务的类型来确定对参考音频的量化声学特征的遮蔽处理,以获取遮蔽声学特征;编码模块,被配置为利用编码器模型,对遮蔽声学特征执行编码操作,以获取遮蔽特征码;解码模块,被配置为利用解码器模型,基于所述遮蔽特征码和所述预测音素序列执行解码操作,以获取第一预测特征码;以及生成模块,被配置为至少基于所述第一预测特征码生成所述目标文本对应的语音波形。

3、在本公开的第三方面,提供了一种电子设备。该电子设备包括至少一个处理单元;以及至少一个存储器,至少一个存储器被耦合到至少一个处理单元并且存储用于由至少一个处理单元执行的指令,指令在由至少一个处理单元执行时使电子设备执行本公开第一方面的方法。

4、在本公开的第四方面,提供了一种计算机可读存储介质。该计算机可读存储介质上存储有计算机程序,其可由处理器执行以执行根据本公开的第一方面的方法。

5、应当理解,技术实现要素:部分中所描述的内容并非旨在限定本公开的实施例的关键特征或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的描述而变得容易理解。

技术特征:

1.一种用于语音合成方法,包括:

2.根据权利要求1所述的方法,其中获取所述参考音频的量化声学特征包括:

3.根据权利要求2所述的方法,还包括:利用基于残差向量化的卷积网络对所述参考音频执行量化之后,

4.根据权利要求3所述的方法,其中至少基于所述第一预测特征码生成所述目标文本对应的语音波形包括:

5.根据权利要求1所述的方法,其中获取所述目标文本对应的音素嵌入序列包括:

6.根据权利要求1所述的方法,其中所述语音生成任务的类型指示语音克隆任务或语音编辑任务,并且

7.根据权利要求1所述的方法,还包括:在利用所述预测器模型对所述目标文本对应的所述音素嵌入序列执行音素预测之前,

8.根据权利要求1至7任一项所述的方法,其中利用所述预测器模型对所述目标文本对应的所述音素嵌入序列执行音素预测包括:

9.根据权利要求8所述的方法,其中基于所述预测基频信息、所述预测时长信息和所述预测能量信息,确定帧级别的所述预测音素序列包括:

10.根据权利要求1所述的方法,其中基于所述遮蔽特征码和所述预测音素序列执行解码操作包括:

11.根据权利要求1所述的方法,其中所述语音生成任务的类型指示语音克隆任务或语音编辑任务,并且所述预测器模型、所述编码器模型、所述解码器模型是通过如下方式训练的:

12.一种用于语音合成的装置,包括:

13.一种电子设备,包括:

14.一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序可由处理器执行以实现根据权利要求1至11任一项所述的方法。

技术总结本公开的实施例提供了一种用于语音合成的方法、装置、设备和可读介质。根据本公开的实施例,利用预测器模型对目标文本对应的音素嵌入序列执行音素预测,以获取预测音素序列。基于语音生成任务的类型来确定对参考音频的量化声学特征的遮蔽处理,以获取遮蔽声学特征。利用编码器模型,对遮蔽声学特征执行编码操作,以获取遮蔽特征码。利用解码器模型,基于遮蔽特征码和预测音素序列执行解码操作,以获取第一预测特征码。至少基于第一预测特征码生成目标文本对应的语音波形。以此方式,实现零样本语音合成。同时使模型能够同时实现语音克隆和语音编辑任务。技术研发人员:张雅洁,宋伟,吴友政,何晓冬受保护的技术使用者:京东城市(北京)数字科技有限公司技术研发日:技术公布日:2024/10/10

本文地址:https://www.jishuxx.com/zhuanli/20241015/315226.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。