技术新讯 > 乐器声学设备的制造及制作,分析技术 > 语音合成方法、装置、计算机设备和存储介质与流程 > 正文

语音合成方法、装置、计算机设备和存储介质与流程

国知局
2024-06-21 11:27:39

本技术涉及语音，特别是涉及一种语音合成方法、装置、计算机设备、存储介质和计算机程序产品。

背景技术：

1、近几年来，随着机器学习尤其是深度学习领域相关技术研究取得突飞猛进的进展，促进了人机交互方式的极大转变。而其中，语音合成是实现人机语音通信，建立一个有听和讲能力的口语系统所必需的关键技术。语音合成系统作为语音交互闭环的核心系统之一，如何让合成语音包含更丰富的情感是个性化语音合成及提高语音合成表现力的重要因素。

2、相关技术中的情感语音合成方式，往往通过录制并制作统一风格的语料库实现统一风格的情感语音合成，或通过录制并制作多种固定风格的语料库实现多种固定风格的情感语音合成。然而这些情感语音合成方案，往往需要花费大量时间和人力成本，导致情感语音合成效率较低。

技术实现思路

1、基于此，有必要针对上述技术问题，提供一种能够提高情感语音合成效率的语音合成方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。

2、第一方面，本技术提供了一种语音合成方法，包括：

3、获取源说话对象朗读语音数据时的朗读情感信息；

4、对所述朗读情感信息和目标说话对象对应的音色信息进行融合，得到音色情感融合向量；

5、获取待合成语音文本对应的音素向量序列，将所述音色情感融合向量和所述音素向量序列输入至情感转移语音合成模型，得到情感迁移语音；

6、其中，所述情感迁移语音包括所述目标说话对象按照所述源说话对象的朗读情感朗读所述待合成语音文本的语音。

7、在其中一个实施例中，所述情感转移语音合成模型包括韵律预测单元和拼接单元；所述将所述音色情感融合向量和所述音素向量序列输入至情感转移语音合成模型，得到情感迁移语音，包括：

8、将所述音素向量序列输入至所述韵律预测单元，通过所述韵律预测单元提取所述音素向量序列对应的韵律信息，得到目标预测韵律信息；所述目标预测韵律信息包括预测韵律特征向量；

9、将所述预测韵律特征向量和所述音色情感融合向量输入至所述拼接单元，通过所述拼接单元对所述预测韵律特征向量和所述音色情感融合向量进行拼接处理，得到所述情感迁移语音。

10、在其中一个实施例中，所述将所述预测韵律特征向量和所述音色情感融合向量输入至所述拼接单元，通过所述拼接单元对所述预测韵律特征向量和所述音色情感融合向量进行拼接处理，得到所述情感迁移语音，包括：

11、获取所述音素向量序列对应的音素时长向量序列；所述音素时长向量序列为基于所述待合成语音文本对应的每个音素的时长信息确定得到的；

12、将所述预测韵律特征向量、所述音色情感融合向量和所述音素时长向量序列输入至所述拼接单元，通过所述拼接单元对所述预测韵律特征向量、所述音色情感融合向量和所述音素时长向量序列进行拼接处理，得到所述情感迁移语音。

13、在其中一个实施例中，所述情感转移语音合成模型还包括语音解码单元；所述通过所述拼接单元对所述预测韵律特征向量、所述音色情感融合向量和所述音素时长向量序列进行拼接处理，得到所述情感迁移语音，包括：

14、通过所述拼接单元对所述预测韵律特征向量、所述音色情感融合向量和所述音素时长向量序列进行拼接处理，得到拼接后结果；

15、将所述拼接后结果输入至所述语音解码单元，通过所述语音解码单元对所述拼接后结果进行解码处理，得到目标梅尔谱图；

16、根据所述目标梅尔谱图，生成所述情感迁移语音。

17、在其中一个实施例中，所述获取源说话对象朗读语音数据时的朗读情感信息，包括：

18、获取音律模型；所述音律模型包括韵律特征提取单元；

19、将所述语音数据输入至所述韵律特征提取单元；

20、通过所述韵律特征提取单元提取所述语音数据的韵律特征，得到所述源说话对象朗读所述语音数据时的朗读情感信息。

21、在其中一个实施例中，所述音律模型还包括韵律编码单元；所述对所述朗读情感信息和目标说话对象对应的音色信息进行融合，得到音色情感融合向量，包括：

22、将所述朗读情感信息和所述目标说话对象对应的对象标识输入至所述韵律编码单元；

23、通过所述韵律编码单元根据所述对象标识，将所述目标说话对象对应的对象音色嵌入向量，添加至所述朗读情感信息对应的韵律向量中，得到所述音色情感融合向量。

24、在其中一个实施例中，所述朗读情感信息包括能量信息、音高信息和梅尔谱图信息，所述方法还包括：

25、通过所述韵律编码单元对所述梅尔谱图信息进行编码，得到梅尔谱图编码结果；

26、通过所述韵律编码单元分别对所述能量信息和所述音高信息进行投影，得到能量投影结果和音高投影结果；

27、通过所述韵律编码单元对所述梅尔谱图编码结果、所述能量投影结果和所述音高投影结果进行相加处理，得到所述朗读情感信息对应的韵律向量。

28、第二方面，本技术还提供了一种语音合成装置，包括：

29、获取模块，用于获取源说话对象朗读语音数据时的朗读情感信息；

30、融合模块，用于对所述朗读情感信息和目标说话对象对应的音色信息进行融合，得到音色情感融合向量；

31、输入模块，用于获取待合成语音文本对应的音素向量序列，将所述音色情感融合向量和所述音素向量序列输入至情感转移语音合成模型，得到情感迁移语音；

32、其中，所述情感迁移语音包括所述目标说话对象按照所述源说话对象的朗读情感朗读所述待合成语音文本的语音。

33、第三方面，本技术还提供了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现以下步骤：

34、获取源说话对象朗读语音数据时的朗读情感信息；

35、对所述朗读情感信息和目标说话对象对应的音色信息进行融合，得到音色情感融合向量；

36、获取待合成语音文本对应的音素向量序列，将所述音色情感融合向量和所述音素向量序列输入至情感转移语音合成模型，得到情感迁移语音；

37、其中，所述情感迁移语音包括所述目标说话对象按照所述源说话对象的朗读情感朗读所述待合成语音文本的语音。

38、第四方面，本技术还提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现以下步骤：

39、获取源说话对象朗读语音数据时的朗读情感信息；

40、对所述朗读情感信息和目标说话对象对应的音色信息进行融合，得到音色情感融合向量；

41、获取待合成语音文本对应的音素向量序列，将所述音色情感融合向量和所述音素向量序列输入至情感转移语音合成模型，得到情感迁移语音；

42、其中，所述情感迁移语音包括所述目标说话对象按照所述源说话对象的朗读情感朗读所述待合成语音文本的语音。

43、第五方面，本技术还提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现以下步骤：

44、获取源说话对象朗读语音数据时的朗读情感信息；

45、对所述朗读情感信息和目标说话对象对应的音色信息进行融合，得到音色情感融合向量；

46、获取待合成语音文本对应的音素向量序列，将所述音色情感融合向量和所述音素向量序列输入至情感转移语音合成模型，得到情感迁移语音；

47、其中，所述情感迁移语音包括所述目标说话对象按照所述源说话对象的朗读情感朗读所述待合成语音文本的语音。

48、上述语音合成方法、装置、计算机设备、存储介质和计算机程序产品，通过获取源说话对象朗读语音数据时的朗读情感信息；对朗读情感信息和目标说话对象对应的音色信息进行融合，得到音色情感融合向量；获取待合成语音文本对应的音素向量序列，将音色情感融合向量和音素向量序列输入至情感转移语音合成模型，得到情感迁移语音；其中，情感迁移语音包括目标说话对象按照源说话对象的朗读情感朗读待合成语音文本的语音。

49、如此，实现了从所拥有的源说话对象的情感语音数据中提取出情感特征，得到朗读情感信息，通过将该朗读情感信息与目标说话对象对应的音色信息融合，得到融合了源说话对象的朗读情感信息和目标说话对象对应的音色信息的音色情感融合向量，再将音色情感融合向量与待合成语音文本对应的音素向量序列结合，可以得到目标说话对象按照源说话对象的朗读情感朗读待合成语音文本的情感迁移语音，实现了将源说话对象的情感特征转移到目标说话对象上；从而可以在没有个人特定音色对应的情感数据的情况下，实现任何人的情感语音合成；无需花费大量人力和时间录制并制作统一风格或多种固定风格的语料库来实现情感语音合成；进而有效提高了情感语音的合成效率。