技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种语音合成方法、装置、电子设备和存储介质与流程 > 正文

一种语音合成方法、装置、电子设备和存储介质与流程

国知局
2024-06-21 11:36:16

本发明涉及语音合成，具体涉及一种语音合成方法、装置、电子设备和存储介质。

背景技术：

1、目前，合成语音是根据输入文本，使用训练好的模型，合成出对应的语音。但是合成的语音音质和自然度都较高，但是不够拟人，与人正常说话区别较明显。

技术实现思路

1、本发明提供一种语音合成方法、装置、电子设备和存储介质，能够解决上述技术问题。

2、第一方面，本发明实施例提供一种语音合成方法，包括：

3、获取包含语气词的文本语音对；

4、使用包含语气词的文本语音对训练得到时长模型、声学模型和神经网络声码器模型；

5、获取包含语气词的多个句子，根据包含语气词的多个句子、声学模型以及神经网络声码器模型确定每个语气词的n个模板语音；

6、获取待合成语音的文本，解析待合成语音的文本得到音素序列；

7、根据预设的重复规则修改音素序列；

8、根据修改后的音素序列、时长模型、声学模型和神经网络声码器模型得到初步合成语音；

9、在初步合成语音的静音部分插入所述模板语音得到最终合成语音。

10、进一步地，上述一种语音合成方法中，使用包含语气词的文本语音对训练得到时长模型，包括：

11、对文本进行分析，得到每句话对应的音素序列；

12、对音素序列和语音进行force alignment对齐，得到每个音素的时长；

13、以音素序列作为输入、音素的时长作为输出，训练时长模型。

14、进一步地，上述一种语音合成方法中，使用包含语气词的文本语音对训练得到声学模型，包括：

15、对文本进行分析，得到每句话对应的音素序列；

16、对音素序列和语音进行force alignment对齐，得到每个音素的时长，从语言里提取声学参数；

17、以音素序列和音素时长作为输入、声学参数作为输出训练声学模型。

18、进一步地，上述一种语音合成方法中，使用包含语气词的文本语音对训练得到神经网络声码器模型，包括：

19、从语言里提取声学参数和波形；

20、以声学参数作为输入、波形作为输出，训练神经网络声码器模型。

21、进一步地，上述一种语音合成方法中，根据包含语气词的多个句子、声学模型以及神经网络声码器模型确定每个语气词的n个模板语音，包括：

22、使用声学模型得到包含语气词的多个句子的声学参数；

23、通过神经网络声码器得到包含语气词的多个句子的的语音；

24、从包含语气词的多个句子的的语音中截取语气词的语音片段；

25、从所有的语音片段中提取基频序列，并将基频序列采样成2n个点；

26、对每个语气词分别进行k-means聚类得到n个类别；

27、将与每类中心点最近的样本对应的语音保存，作为模板语音从而得到每个语气词的n个模板语音。

28、进一步地，上述一种语音合成方法中，预设的重复规则包括：

29、预设概率的重复；预设概率的修改音调后重复；预设概率的发音过快导致发音不清后的重复。

30、进一步地，上述一种语音合成方法中，根据修改后的音素序列、所述时长模型、所述声学模型和所述神经网络声码器模型得到初步合成语音，包括：

31、将修改后的音素序列送入时长模型，得到音素时长；

32、对预设重复规则内以预设概率的发音过快导致发音不清后的重复对应音素的时长进行处理；

33、将修改后的音素序列以及处理后的音素时长送入声学模型，得到声学参数；

34、将所述声学参数送入神经网络声码器，得到初步合成语音。

35、第二方面，本发明实施例还提供一种语音合成装置，包括：

36、获取模块：用于获取包含语气词的文本语音对；

37、训练模块：用于使用包含语气词的文本语音对训练得到时长模型、声学模型和神经网络声码器模型；

38、确定模块：用于获取包含语气词的多个句子，根据包含语气词的多个句子、声学模型以及神经网络声码器模型确定每个语气词的n个模板语音；

39、解析模块：用于获取待合成语音的文本，解析所述待合成语音的文本得到音素序列；

40、修改模块：用于根据预设的重复规则修改音素序列；

41、第一得到模块：用于根据修改后的音素序列、所述时长模型、所述声学模型和所述神经网络声码器模型得到初步合成语音；

42、第二得到模块：用于初步合成语音的静音部分插入模板语音得到最终合成语音。

43、第三方面，本发明实施例还提供了一种电子设备，包括：处理器和存储器；

44、处理器通过调用存储器存储的程序或指令，用于执行如上任一项一种语音合成方法。

45、第四方面，本发明实施例还提供了一种计算机可读存储介质，计算机可读存储介质存储程序或指令，程序或指令使计算机执行如上任一项一种语音合成方法。

46、本发明的有益效果是：本发明通过获取包含语气词的文本语音对；使用包含语气词的文本语音对训练得到时长模型、声学模型和神经网络声码器模型；获取包含语气词的多个句子，根据包含语气词的多个句子、声学模型以及神经网络声码器模型确定每个语气词的n个模板语音；获取待合成语音的文本，解析待合成语音的文本得到音素序列；根据预设的重复规则修改音素序列；根据修改后的音素序列、时长模型、声学模型和神经网络声码器模型得到初步合成语音；在初步合成语音的静音部分插入模板语音得到最终合成语音。本发明根据人的实际说话语气，对合成语音进行处理，从而得到更加真实的合成语音。

技术特征：

1.一种语音合成方法，其特征在于，包括：

2.根据权利要求1所述的一种语音合成方法，其特征在于，所述使用所述包含语气词的文本语音对训练得到时长模型，包括：

3.根据权利要求1所述的一种语音合成方法，其特征在于，所述使用所述包含语气词的文本语音对训练得到声学模型，包括：

4.根据权利要求1所述的一种语音合成方法，其特征在于，所述使用所述包含语气词的文本语音对训练得到神经网络声码器模型

5.根据权利要求1所述的一种语音合成方法，其特征在于，所述根据所述包含语气词的多个句子、所述声学模型以及所述神经网络声码器模型确定每个语气词的n个模板语音，包括：

6.根据权利要求1所述的一种语音合成方法，其特征在于，所述预设的重复规则包括：

7.根据权利要求1所述的一种语音合成方法，其特征在于，所述根据修改后的音素序列、所述时长模型、所述声学模型和所述神经网络声码器模型得到初步合成语音，包括：

8.一种语音合成装置，其特征在于，包括：

9.一种电子设备，其特征在于，包括：处理器和存储器；

10.一种计算机可读存储介质，其特征在于，所述非暂态计算机可读存储介质存储程序或指令，所述程序或指令使计算机执行如权利要求1至7任一项所述一种语音合成方法。

技术总结本发明涉及一种语音合成方法、装置、电子设备和存储介质，该方法包括：获取包含语气词的文本语音对；使用包含语气词的文本语音对训练得到时长模型、声学模型和神经网络声码器模型；获取包含语气词的多个句子，根据包含语气词的多个句子、声学模型以及神经网络声码器模型确定每个语气词的N个模板语音；获取待合成语音的文本，解析待合成语音的文本得到音素序列；根据预设的重复规则修改音素序列；根据修改后的音素序列、时长模型、声学模型和神经网络声码器模型得到初步合成语音；在初步合成语音的静音部分插入模板语音得到最终合成语音。本发明根据人的实际说话语气，对合成语音进行处理，从而得到更加真实的合成语音。技术研发人员：孙见青,梁家恩受保护的技术使用者：云知声智能科技股份有限公司技术研发日：技术公布日：2024/3/12