技术新讯 > 乐器声学设备的制造及制作,分析技术 > 语音的合成方法、装置、电子设备及存储介质与流程  >  正文

语音的合成方法、装置、电子设备及存储介质与流程

  • 国知局
  • 2024-06-21 11:43:55

本公开涉及深度学习,本公开尤其涉及一种语音的合成方法、装置、电子设备及存储介质。

背景技术:

1、随着深度学习技术的发展,基于神经网络的语音合成模型也取得了显著的进展。这些模型通过学习文本到音频的映射关系,能够生成自然、流畅的语音,且具有极高的表现力和逼真度。

2、但是,相关技术中的语音合成模型过于依赖训练数据,语音合成模型需要大量高表现力语音数据及其文本数据作为训练样本,才能输出高表现力合成语音。然而,高表现力语音数据的采集以及文本数据的标注,均需要消耗较高的人力成本,而且对于样本的质量和多样性要求较高,使得构建大规模高质量的训练数据集变得困难,因此也限制了模型的表现能力。另外,相关技术的构建方法不能使已有的一些不具备高表现力的说话人得到充分利用,造成了说话人资源的浪费。

技术实现思路

1、为了解决上述技术问题中的至少一个,本公开提供了一种语音的合成方法、装置、电子设备及存储介质。

2、本公开的一个方面提供了一种语音的合成方法,包括:获取关于原始文本的语气特征数据,构建语气标注文本,其中所述语气特征数据包括多个语气特征及其插入位置;将所述语气标注文本与目标说话人的声音特征进行合并,形成包含语气特征的融合文本;以及调用语音合成模块对所述融合文本进行音频转换,构建具备所述语气特征的目标合成音频。

3、在一些实施方式中,所述将所述语气标注文本与目标说话人的音色特征进行合并,形成包含语气特征的融合文本,包括:对所述语气标注文本进行文本编码,获得文本字符串;对所述目标说话人进行说话人编码,获得声音特征字符串;以及将所述文本字符串和所述声音特征字符串进行整合,构建所述融合文本,其中所述融合文本至少包括文本内容、声音特征进以及所述语气特征。

4、在一些实施方式中,所述调用语音合成模块对所述融合文本进行音频转换,构建具备所述语气特征的目标合成音频,包括:调用所述语音合成模块中的时长预测器对所述融合文本进行时长预测,形成时长对齐文本,其中所述时长对齐文本用于表征所述融合文本各个字符的发音时长与目标语速之间的对应关系;调用所述语音合成模块中的流式单元对所述时长对齐文本进行声学分析,获得音频波形数据;以及调用所述语音合成模块中的音频解码器对所述音频波形数据进行解码,形成包含所述语气特征的所述目标合成音频。

5、在一些实施方式中,在所述获取关于原始文本的语气特征数据,构建语气标注文本之前包括:调用目标数量的语气标注样本对基础合成模型进行训练,形成用于构建所述目标合成音频的目标合成模型,其中所述目标合成模型包括所述语音合成模块。

6、在一些实施方式中,所述调用目标数量的语气标注样本对基础合成模型进行训练,形成用于构建所述目标合成音频的目标合成模型,包括:调用编码融合模块将所述语气标注样本中的文本样本的文本样本编码与任一说话人的说话人编码进行合并,形成融合预测文本;调用所述语音合成模块中的后验编码器和流式单元对语气标注样本中音频样本进行编码处理,以形成波形预测数据;调用所述语音合成模块中的时长预测器对所述融合预测文本和所述波形预测数据进行时长对齐处理,获得对齐预测文本;以及根据所述对齐预测文本与期望对齐结果之间的对齐差异值,对所述语音合成模块和所述编码融合模块分别进行优化,直至所述对齐差异值小于或等于对齐差异阈值。

7、在一些实施方式中,所述调用目标数量的语气标注样本对基础合成模型进行训练,形成用于构建所述目标合成音频的目标合成模型,还包括:调用所述语音合成模块中的后验编码器对语气标注样本中音频样本进行编码处理,以获得声学隐状态;调用所述语音合成模块中的音频解码器对所述声学隐状态进行解码处理,形成预测合成音频;将所述预测合成音频的预测梅尔谱特征与所述音频样本的期望梅尔谱特征进行差异度计算,获得特征差异值;以及响应于所述特征差异值对所述语音合成模块进行优化,直至所述特征差异值小于或等于特征差异阈值。

8、在一些实施方式中,还包括:确定录制文案中任一副语言信息所对应的语气特征,并利用所述语气特征替换所述副语言信息,形成包含所述语气特征的文本样本;基于所述语气特征,对所述录制文案进行音频采集,获取具有所述语气特征的音频样本;以及整合所述文本样本及其相应的所述音频样本,形成语气标注样本。

9、本公开的另一个方面提供了一种语音的合成装置,包括:文本构建模块,用于获取关于原始文本的语气特征数据,构建语气标注文本,其中所述语气特征数据包括多个语气特征及其插入位置;融合模块,用于将所述语气标注文本与目标说话人的声音特征进行合并,形成包含语气特征的融合文本;以及语音合成模块,用于调用语音合成模块对所述融合文本进行音频转换,构建具备所述语气特征的目标合成音频。

10、本公开的又一个方面提供了一种电子设备,包括:存储器,所述存储器存储执行指令;以及处理器,所述处理器执行所述存储器存储的执行指令,使得所述处理器执行如上述任一实施方式所述的语音的合成方法。

11、本公开的再一个方面提供了一种可读存储介质,所述可读存储介质中存储有执行指令,所述执行指令被处理器执行时用于实现如上述任一实施方式所述的语音的合成方法。

技术特征:

1.一种语音的合成方法,其特征在于,包括:

2.根据权利要求1所述的语音的合成方法,其特征在于,所述将所述语气标注文本与目标说话人的音色特征进行合并,形成包含语气特征的融合文本,包括:

3.根据权利要求1所述的语音的合成方法,其特征在于,所述调用语音合成模块对所述融合文本进行音频转换,构建具备所述语气特征的目标合成音频,包括:

4.根据权利要求1所述的语音的合成方法,其特征在于,在所述获取关于原始文本的语气特征数据,构建语气标注文本之前包括:

5.根据权利要求4所述的语音的合成方法,其特征在于,所述调用目标数量的语气标注样本对基础合成模型进行训练,形成用于构建所述目标合成音频的目标合成模型,包括:

6.根据权利要求4或5所述语音的合成方法,其特征在于,所述调用目标数量的语气标注样本对基础合成模型进行训练,形成用于构建所述目标合成音频的目标合成模型,还包括:

7.根据权利要求4所述的语音的合成方法,其特征在于,还包括:

8.一种语音的合成装置,其特征在于,包括:

9.一种电子设备,其特征在于,包括:

10.一种可读存储介质,其特征在于,所述可读存储介质中存储有执行指令,所述执行指令被处理器执行时用于实现权利要求1至7中任一项所述的语音的合成方法。

技术总结本公开提供了一种语音的合成方法,包括:获取关于原始文本的语气特征数据,构建语气标注文本,其中语气特征数据包括多个语气特征及其插入位置;将语气标注文本与目标说话人的声音特征进行合并,形成包含语气特征的融合文本;以及调用语音合成模块对融合文本进行音频转换,构建具备语气特征的目标合成音频。本公开还提供了一种语音的合成装置、电子设备及存储介质。技术研发人员:史文婧,王瑞,江明奇,殷昊,陈云琳受保护的技术使用者:出门问问创新科技有限公司技术研发日:技术公布日:2024/4/17

本文地址:https://www.jishuxx.com/zhuanli/20240618/23187.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。