技术新讯 > 乐器声学设备的制造及制作,分析技术 > 用于语音合成的方法、装置、设备和存储介质与流程 > 正文

用于语音合成的方法、装置、设备和存储介质与流程

国知局
2024-08-05 12:07:50

本公开的示例实施例总体涉及计算机领域，并且更具体地，涉及用于语音合成的方法、装置、设备和计算机可读存储介质。

背景技术：

1、随着人工智能和全球广域网(web)应用发展越来越成熟，语音合成技术在全球广域网中的应用越来越广泛。除了语音合成的清晰度和可懂度以外，人们对语音合成的自然度、节奏感以及音频质量的要求也越来越高。因此，期待使合成语音的表现力更加丰富，以及保留合成语音的细节。

技术实现思路

1、在本公开的第一方面，提供一种用于语音合成的方法。该方法包括：获取至少一个提示音频和待合成的目标文本；基于目标文本以及至少一个提示音频中与目标韵律相匹配的第一提示音频，利用语音合成模型中的第一编码器模块，提取第一提示音频和目标文本的韵律特征序列；基于至少一个提示音频中与目标音色相匹配的第二提示音频，利用语音合成模型中的第二编码器模块，提取第二提示音频的音色特征序列；以及至少基于韵律特征序列和音色特征序列，生成具备目标音色和目标韵律的目标语音。

2、在本公开的第二方面，提供一种用于语音合成的装置。该装置包括：接收模块，被配置为获取至少一个提示音频和待合成的目标文本；韵律特征序列提取模块，被配置为基于目标文本以及至少一个提示音频中与目标韵律相匹配的第一提示音频，利用语音合成模型中的第一编码器模块，提取第一提示音频和目标文本的韵律特征序列；音色特征序列提取模块，被配置为基于至少一个提示音频中与目标音色相匹配的第二提示音频，利用语音合成模型中的第二编码器模块，提取第二提示音频的音色特征序列；以及目标语音生成模块，被配置为至少基于韵律特征序列和音色特征序列，生成具备目标音色和目标韵律的目标语音。

3、在本公开的第三方面，提供了一种电子设备。该电子设备包括至少一个处理单元；以及至少一个存储器，至少一个存储器被耦合到至少一个处理单元并且存储用于由至少一个处理单元执行的指令，指令在由至少一个处理单元执行时使电子设备执行本公开第一方面的方法。

4、在本公开的第四方面，提供了一种计算机可读存储介质。该计算机可读存储介质上存储有计算机程序，其可由处理器执行以执行根据本公开的第一方面的方法。

5、应当理解，本技术实现要素：部分中所描述的内容并非旨在限定本公开的实施例的关键特征或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的描述而变得容易理解。

技术特征：

1.一种语音合成方法，包括：

2.根据权利要求1所述的方法，其中生成具备所述目标音色和所述目标韵律的目标语音包括：

3.根据权利要求1所述的方法，其中提取所述第二提示音频的音色特征序列包括：

4.根据权利要求1所述的方法，其中提取所述第一提示音频和所述目标文本的韵律特征序列包括：

5.根据权利要求4所述的方法，其中提取具备所述目标韵律的所述目标文本对应的音素帧序列包括：

6.根据权利要求1所述的方法，其中生成具备所述目标音色和目标韵律的目标语音包括：

7.根据权利要求1所述的方法，其中所述语音合成模型通过以下方式被训练：

8.根据权利要求7所述的方法，其中生成多个待合成的样本语音包括：

9.根据权利要求7所述的方法，其中获取所述样本提示音频和所述样本文本还包括：

10.一种用于语音合成的装置，包括：

11.一种电子设备，包括：

12.一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现根据权利要求1至9中任一项所述的方法。

技术总结本公开的实施例提供一种用于语音合成的方法、装置、设备和介质。一种方法包括：获取至少一个提示音频和待合成的目标文本；基于目标文本以及至少一个提示音频中与目标韵律相匹配的第一提示音频，利用语音合成模型中的第一编码器模块，提取第一提示音频和目标文本的韵律特征序列；基于至少一个提示音频中与目标音色相匹配的第二提示音频，利用语音合成模型中的第二编码器模块，提取第二提示音频的音色特征序列；以及至少基于韵律特征序列和音色特征序列，生成具备目标音色和目标韵律的目标语音。由此，能够合成具备提示语音的音色和韵律的语音，从而提高语音合成的效果。技术研发人员：张雅洁,宋伟,吴友政受保护的技术使用者：京东城市（北京）数字科技有限公司技术研发日：技术公布日：2024/8/1