技术新讯 > 乐器声学设备的制造及制作,分析技术 > 语音合成方法、装置、电子设备以及存储介质与流程 > 正文

语音合成方法、装置、电子设备以及存储介质与流程

国知局
2024-06-21 11:52:24

本申请涉及语音处理，更具体地，涉及一种语音合成方法、装置、电子设备以及存储介质。

背景技术：

1、语音合成技术是通过机械的、电子的方法产生人造语音的技术，而将文字转换为语音是语音合成技术中最为重要的一个方面。随着科学技术的发展，电子设备的使用越来越广泛，功能越来越多，将语音合成技术应用于电子设备越来越普遍，人们对合成语音的拟人性要求也越来越高。相关技术中，由于合成语音的机械性，语音合成技术合成的语音存在拟人度低下的问题。

技术实现思路

1、鉴于上述问题，本申请提出了一种语音合成方法、装置、电子设备以及存储介质，可以通过获取文本的拼音、韵律以及口语事件类型，对文本进行半监督的口语化合成，降低了合成语音的机械感，提高了合成语音的流程度和拟人度，进而提高了口语化语音合成的效果，也提高了用户的体验感。

2、第一方面，本申请实施例提供了一种语音合成方法，所述方法包括：将目标文本输入第一神经网络，获得所述第一神经网络输出的与所述目标文本对应的拼音和韵律；将所述目标文本输入第二神经网络，获得所述第二神经网络输出的与所述目标文本对应的口语事件类型；将所述拼音、所述韵律以及所述口语事件类型输入第三神经网络，获得所述第三神经网络输出的与所述目标文本对应的语音波形。

3、第二方面，本申请实施例提供了一种语音合成装置，所述装置包括：拼音和韵律获得模块、口语事件类型获得模块以及语音合成模块。其中，拼音和韵律获得模块，用于将目标文本输入第一神经网络，获得所述第一神经网络输出的与所述目标文本对应的拼音和韵律；口语事件类型获得模块，用于将所述目标文本输入第二神经网络，获得所述第二神经网络输出的与所述目标文本对应的口语事件类型；语音合成模块，用于将所述拼音、所述韵律以及所述口语事件类型输入第三神经网络，获得所述第三神经网络输出的与所述目标文本对应的语音波形。

4、第三方面，本申请实施例提供了一种电子设备，包括存储器和处理器，所述存储器耦接到所述处理器，所述存储器存储指令，当所述指令由所述处理器执行时所述处理器执行上述方法。

5、第四方面，本申请实施例提供了一种计算机可读取存储介质，所述计算机可读取存储介质中存储有程序代码，所述程序代码可被处理器调用执行上述方法。

6、本申请实施例提供的语音合成方法、装置、电子设备以及存储介质，通过将目标文本输入第一神经网络，获得第一神经网络输出的与目标文本对应的拼音和韵律；将目标文本输入第二神经网络，获得第二神经网络输出的与目标文本对应的口语事件类型；将拼音、韵律以及口语事件类型输入第三神经网络，获得第三神经网络输出的与目标文本对应的语音波形。从而通过获取文本的拼音、韵律以及口语事件类型，对文本进行半监督的口语化合成，降低了合成语音的机械感，提高了合成语音的流程度和拟人度，进而提高了口语化语音合成的效果，也提高了用户的体验感。

技术特征：

1.一种语音合成方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述将所述目标文本输入第二神经网络，获得所述第二神经网络输出的与所述目标文本对应的口语事件类型，包括：

3.根据权利要求2所述的方法，其特征在于，在所述将所述目标文本输入所述第二神经网络中的文本正则化模型，获得所述文本正则化模型输出的与所述目标文本对应的第一正则化文本之前，还包括：

4.根据权利要求3所述的方法，其特征在于，所述基于所述标准音库对第一口语事件模型进行训练，获得目标口语事件模型，包括：

5.根据权利要求4所述的方法，其特征在于，所述将所述样本文本输入所述目标口语事件模型，获得所述目标口语事件模型输出的与所述样本文本对应的口语标签，包括：

6.根据权利要求1-5任一项所述的方法，其特征在于，所述将目标文本输入第一神经网络，获得所述第一神经网络输出的与所述目标文本对应的拼音和韵律，包括：

7.根据权利要求1-5任一项所述的方法，其特征在于，所述将所述拼音、所述韵律以及所述口语事件类型输入第三神经网络，获得所述第三神经网络输出的与所述目标文本对应的语音波形，包括：

8.一种语音合成装置，其特征在于，所述装置包括：

9.一种电子设备，其特征在于，包括：

10.一种计算机可读取存储介质，其特征在于，所述计算机可读取存储介质中存储有程序代码，所述程序代码可被处理器调用执行如权利要求1-7任一项所述的方法。

技术总结本申请公开了一种语音合成方法、装置、电子设备以及存储介质，涉及语音处理技术领域。该方法包括：将目标文本输入第一神经网络，获得第一神经网络输出的与目标文本对应的拼音和韵律；将目标文本输入第二神经网络，获得第二神经网络输出的与目标文本对应的口语事件类型；将拼音、韵律以及口语事件类型输入第三神经网络，获得第三神经网络输出的与目标文本对应的语音波形。本申请通过获取文本的拼音、韵律以及口语事件类型，对文本进行半监督的口语化合成，提高了口语化语音合成的效果，也提高了用户的体验感。技术研发人员：宋阳,梁敏,徐学欣受保护的技术使用者：OPPO广东移动通信有限公司技术研发日：技术公布日：2024/5/16