技术新讯 > 乐器声学设备的制造及制作,分析技术 > 语音合成方法、装置、电子设备和存储介质与流程 > 正文

语音合成方法、装置、电子设备和存储介质与流程

国知局
2024-06-21 11:27:14

本发明涉及人工智能，尤其涉及一种语音合成方法、装置、电子设备和存储介质。

背景技术：

1、随着人工智能技术的发展，用户对于合成语音的音色定制、韵律个性化、跨语言合成、多口音合成等提出了更多的要求。

2、现有的语音合成模型，多是将上述音色、韵律等维度中的单一种作为语音合成的控制维度，例如音色定制模型能够合成各种音色的语音，但是无法控制合成语音的韵律情感。单一维度可控的语音合成模型，其应用场景相对受限，无法解决对于合成语音的多样性、个性化的需求问题。

技术实现思路

1、本发明提供一种语音合成方法、装置、电子设备和存储介质，用以解决现有技术中语音合成的可控维度单一，无法满足多样性、个性化需求的缺陷。

2、本发明提供一种语音合成方法，包括：

3、获取待合成的目标文本，以及描述合成语音风格的风格文本；

4、提取所述风格文本中的风格特征；

5、基于所述风格特征，合成所述目标文本对应的目标语音。

6、根据本发明提供的一种语音合成方法，所述提取所述风格文本中的风格特征，包括：

7、基于文本风格提取模型，提取所述风格文本中的风格特征；

8、所述文本风格提取模型是基于样本语音、样本风格文本，与语音风格提取模型联合训练得到，所述语音风格提取模型用于提取语音中的风格特征。

9、根据本发明提供的一种语音合成方法，所述文本风格提取模型的训练步骤包括：

10、获取初始文本风格提取模型和初始语音风格提取模型；

11、基于所述初始文本风格提取模型，提取所述样本风格文本中的文本风格特征，以及，基于所述初始语音风格提取模型，提取所述样本语音中的语音风格特征；

12、基于所述文本风格特征和所述语音风格特征之间的相似度，对所述初始文本风格提取模型和所述初始语音风格提取模型进行参数迭代，得到所述文本风格提取模型和所述语音风格提取模型。

13、根据本发明提供的一种语音合成方法，所述文本风格提取模型的训练步骤，还包括：

14、获取初始内容提取模型；

15、基于所述初始内容提取模型，提取所述样本语音的内容文本的内容特征；

16、基于所述内容特征与所述语音风格特征之间的相似度，对所述初始语音风格提取模型和所述初始内容提取模型进行参数迭代。

17、根据本发明提供的一种语音合成方法，在不存在所述风格文本的情况下，所述基于所述风格特征，合成所述目标文本对应的目标语音，之前还包括：

18、获取作为合成语音风格参考的参考语音；

19、基于所述语音风格提取模型，提取所述参考语音中的风格特征。

20、根据本发明提供的一种语音合成方法，所述基于所述风格特征，合成所述目标文本对应的目标语音，包括：

21、基于语音合成器，在所述风格特征的控制下，合成所述目标文本对应的目标语音；

22、所述语音合成器应用样本语音、所述样本语音的内容文本以及所述样本语音的风格特征，在大型语言模型的基础上训练得到。

23、根据本发明提供的一种语音合成方法，所述样本语音的风格特征是从所述样本语音中提取得到，和/或，

24、所述样本语音的风格特征是从描述所述样本语音风格的样本风格文本中提取得到。

25、根据本发明提供的一种语音合成方法，所述基于语音合成器，在所述风格特征的控制下，合成所述目标文本对应的目标语音，包括：

26、基于语音合成器，在所述风格特征的控制下，合成所述目标文本对应的目标语音的量化特征序列；

27、基于语音解码器，生成所述量化特征序列对应的目标语音。

28、根据本发明提供的一种语音合成方法，所述基于语音合成器，在所述风格特征的控制下，合成所述目标文本对应的目标语音的量化特征序列，包括：

29、基于所述语音合成器中的第一合成模型，在所述风格特征的控制下，合成所述目标文本对应的第一语音量化特征序列；

30、基于所述语音合成器中的第二合成模型，在所述风格特征的控制下，在所述第一语音量化特征序列的基础上合成所述目标文本对应的第二语音量化特征序列；

31、组合所述第一语音量化特征序列和所述第二语音量化特征序列，得到量化特征序列。

32、根据本发明提供的一种语音合成方法，所述样本风格文本的获取步骤包括：

33、获取所述样本语音的风格属性标签，并将所述风格属性标签转换为自然描述语句；

34、基于所述自然描述语句，确定所述样本风格文本。

35、根据本发明提供的一种语音合成方法，所述基于所述自然描述语句，确定所述样本风格文本，包括：

36、将所述自然描述语句进行风格属性标签还原，得到所述自然描述语句的还原属性标签；

37、基于所述风格属性标签和所述还原属性标签的一致性，从所述自然描述语句中确定所述样本风格文本。

38、本发明还提供一种语音合成装置，包括：

39、获取单元，用于获取待合成的目标文本，以及描述合成语音风格的风格文本；

40、特征提取单元，用于提取所述风格文本中的风格特征；

41、合成单元，用于基于所述风格特征，合成所述目标文本对应的目标语音。

42、本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述任一种所述语音合成方法。

43、本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述任一种所述语音合成方法。

44、本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述任一种所述语音合成方法。

45、本发明提供的语音合成方法、装置、电子设备和存储介质，从描述合成语音风格的风格文本中提取风格特征，并基于风格特征控制目标语音的合成，用户不需要具备语音知识，仅需以自然语言形式描述风格，即可完成个性化、自定义的语音合成，降低了语音合成的使用门槛，扩宽了语音合成的应用场景、提高了语音合成的灵活性。并且，通过将风格文本中描述的一种或者多种控制语音合成的维度抽象成风格特征，使得语音合成在多维度的约束控制下进行，保障了语音合成的灵活性和可控性。

技术特征：

1.一种语音合成方法，其特征在于，包括：

2.根据权利要求1所述的语音合成方法，其特征在于，所述提取所述风格文本中的风格特征，包括：

3.根据权利要求2所述的语音合成方法，其特征在于，所述文本风格提取模型的训练步骤包括：

4.根据权利要求3所述的语音合成方法，其特征在于，所述文本风格提取模型的训练步骤，还包括：

5.根据权利要求2所述的语音合成方法，其特征在于，在不存在所述风格文本的情况下，所述基于所述风格特征，合成所述目标文本对应的目标语音，之前还包括：

6.根据权利要求1所述的语音合成方法，其特征在于，所述基于所述风格特征，合成所述目标文本对应的目标语音，包括：

7.根据权利要求6所述的语音合成方法，其特征在于，

8.根据权利要求6所述的语音合成方法，其特征在于，所述基于语音合成器，在所述风格特征的控制下，合成所述目标文本对应的目标语音，包括：

9.根据权利要求8所述的语音合成方法，其特征在于，所述基于语音合成器，在所述风格特征的控制下，合成所述目标文本对应的目标语音的量化特征序列，包括：

10.根据权利要求2至5、7中任一项所述的语音合成方法，其特征在于，所述样本风格文本的获取步骤包括：

11.根据权利要求10所述的语音合成方法，其特征在于，所述基于所述自然描述语句，确定所述样本风格文本，包括：

12.一种语音合成装置，其特征在于，包括：

13.一种电子设备，包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的计算机程序，其特征在于，所述处理器执行所述程序时实现如权利要求1至11任一项所述语音合成方法。

14.一种非暂态计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至11任一项所述语音合成方法。

技术总结本发明提供一种语音合成方法、装置、电子设备和存储介质，其中方法包括：获取待合成的目标文本，以及描述合成语音风格的风格文本；提取所述风格文本中的风格特征；基于所述风格特征，合成所述目标文本对应的目标语音。本发明提供的方法、装置、电子设备和存储介质，从风格文本中提取风格特征，并基于风格特征控制目标语音的合成，用户不需要具备语音知识，仅需以自然语言形式描述风格，即可完成个性化、自定义的语音合成，降低了语音合成的使用门槛，扩宽了语音合成的应用场景。并且，通过将风格文本中描述的一种或者多种控制语音合成的维度抽象成风格特征，使得语音合成在多维度的约束控制下进行，保障了语音合成的灵活性和可控性。技术研发人员：刘利娟,杨盾,刘迪源,潘嘉,方昕,高建清,刘聪,胡国平受保护的技术使用者：科大讯飞股份有限公司技术研发日：技术公布日：2024/2/8