技术新讯 > 乐器声学设备的制造及制作,分析技术 > 语音合成方法及装置、电子设备及存储介质与流程 > 正文

语音合成方法及装置、电子设备及存储介质与流程

国知局
2024-06-21 11:52:33

本发明的实施方式涉及音频处理，更具体地，本发明的实施方式涉及语音合成方法及装置、电子设备及存储介质。

背景技术：

1、

2、目前，人们对学习外语(例如，英语)的需求越来越多。学习外语通常涉及到听说读写。在学习外语的听力部分，人们不再满足于只听传统的“播音腔”外语，而更希望聆听地道的、生活化的甚至带有口音的外语。然而地道的、生活化的，带有口音的外语音频并不容易获得，通常是想听的口音没有想听的内容，或者想听的内容没有相同的口音。如果直接与真人沟通，这种机会不多也不容易得到。如果聘请老师，则需要高昂的价格。所以如果有一个ai模型，它能够生成出任意地道的、生活化的，带有口音的外语，则可以帮助人们更容易的练习外语听力。

3、在现有技术中，已经出现一些以神经网络为基础的语音合成系统，语音合成系统能够合成出发音清晰，语调自然，音质好的语音，同时还能保证较低的延迟。在语音合成中，输入除了语言信息之外，通常还需提供像说话人，口音，语言，情感等其他信息来达到更好的合成效果。尽管现有技术能够在指定某个出现在训练集中的说话人上合成出像真人一样的语音，但是在零样本的场景下，合成语音会出现机械感，音色不像，发音错误，音质差等问题。

4、由此可见，现有技术中的语音合成在零样本的场景下，存在合成语音质量差的技术问题。

技术实现思路

1、但是，出于零样本的场景下的合成的语音存在机械感，音色不像，发音错误，音质差等问题的原因，现有技术存在语音质量差的技术问题。

2、因此在现有技术中语音合成在零样本的场景下，存在合成语音质量差的技术问题，这是非常令人烦恼的过程。

3、为此，非常需要一种改进的零样本场景下的语音合成方法，以使合成带有口音的外语语音。

4、在本上下文中，本发明的实施方式期望提供一种语音合成方法及装置、电子设备及存储介质。

5、在本发明实施方式的第一方面中，提供了一种语音合成方法，包括：

6、获取目标对象的目标音频以及目标对象对应的目标口音标签，其中，所述目标口音标签用于指示对应的目标语种以及用于呈现所述语种的目标口音；

7、对所述目标音频进行语音识别，得到所述目标音频对应的目标文本；

8、根据所述目标文本以及所述目标口音标签，得到用于通过所述目标语种以及所述目标口音呈现所述目标文本的处理后音频；

9、在所述目标音频中提取得到所述目标对象对应的目标音色特征，其中，所述目标音色特征用于指示所述目标对象的目标音色；

10、按照所述目标音色特征对所述处理后音频中的原始音色进行转换，得到所述目标音色的口音转换音频。

11、可选地，如前述的方法，所述根据所述目标文本以及所述目标口音标签，得到用于通过所述目标语种以及所述目标口音呈现所述目标文本的处理后音频，包括：

12、确定出与所述目标文本对应的语义特征；确定出所述目标口音标签对应的目标口音特征；

13、对所述语义特征以及所述目标口音特征进行融合，得到第一融合后特征；

14、基于所述融合后特征得到所述处理后音频。

15、可选地，如前述的方法，所述按照所述目标音色特征对所述处理后音频中的原始音色进行转换，得到所述目标音色的口音转换音频，包括：

16、在所述处理后音频中提取得到语义特征；在所述处理后音频中提取得到音调特征；

17、对所述语义特征、所述音调特征以及所述目标音色特征进行融合，得到第二融合后特征；

18、基于所述第二融合后特征生成所述口音转换音频。

19、可选地，如前述的方法，所述按照所述目标音色特征对所述处理后音频中的原始音色进行处理，得到所述目标音色的合成音频，包括：

20、确定出所述目标音频的当前音频时长；

21、按照所述当前音频时长确定出目标音频时长；

22、按照所述目标音色特征以及所述目标音频时长，对所述处理后音频中的原始音色进行处理，得到时长为所述目标音频时长且音色为所述目标音色的所述合成音频。

23、可选地，如前述的方法，所述获取目标对象的目标音频，包括：

24、获取原始音频；

25、对所述原始音频进行人声分离，得到人声音频以及背景音频；

26、通过判断所述人声音频中每个音频片段对应的候选对象，对所述人声音频进行切割，得到与每个候选对象对应的候选音频；

27、在所述候选音频中确定出所述目标音频。

28、可选地，如前述的方法，在所述按照所述目标音色特征对所述处理后音频中的原始音色进行转换，得到所述目标音色的口音转换音频之后，所述方法还包括：

29、将所述背景音频与所述口音转换音频进行合成，得到合成口音音频。

30、可选地，如前述的方法，所述获取目标对象对应的目标口音标签，包括：

31、将所有候选口音标签中被选择所述候选口音标签确定为所述目标口音标签；或者，

32、获取与目标对象对应的目标口音音频；对所述目标口音音频的语种以及口音进行识别，得到所述目标口音标签。

33、在本发明实施方式的第二方面中，提供了一种语音合成装置，包括：

34、获取模块，用于获取目标对象的目标音频以及目标对象对应的目标口音标签，其中，所述目标口音标签用于指示对应的目标语种以及用于呈现所述语种的目标口音；

35、识别模块，用于对所述目标音频进行语音识别，得到所述目标音频对应的目标文本；

36、处理模块，用于根据所述目标文本以及所述目标口音标签，得到用于通过所述目标语种以及所述目标口音呈现所述目标文本的处理后音频；

37、音色提取模块，用于在所述目标音频中提取得到所述目标对象对应的目标音色特征，其中，所述目标音色特征用于指示所述目标对象的目标音色；

38、音色转换模块，用于按照所述目标音色特征对所述处理后音频中的原始音色进行转换，得到所述目标音色的口音转换音频。

39、在本发明实施方式的第三方面中，提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，所述处理器、所述通信接口和所述存储器通过所述通信总线完成相互间的通信，所述存储器，用于存储计算机程序；

40、所述处理器，用于通过运行所述存储器上所存储的所述计算机程序来执行前述任一项实施例所述的方法。

41、在本发明实施方式的第四方面中，提供了一种计算机可读的存储介质，所述存储介质中存储有计算机程序，其中，所述计算机程序被设置为运行时执行前述任一项实施例中所述的方法。

42、根据本发明实施方式的语音合成方法及装置、电子设备及存储介质。方法，包括：获取目标对象的目标音频以及目标对象对应的目标口音标签，其中，所述目标口音标签用于指示对应的目标语种以及用于呈现所述语种的目标口音；对所述目标音频进行语音识别，得到所述目标音频对应的目标文本；根据所述目标文本以及所述目标口音标签，得到用于通过所述目标语种以及所述目标口音呈现所述目标文本的处理后音频；在所述目标音频中提取得到所述目标对象对应的目标音色特征，其中，所述目标音色特征用于指示所述目标对象的目标音色；按照所述目标音色特征对所述处理后音频中的原始音色进行转换，得到所述目标音色的口音转换音频；从而可以实现在无样本的情况下，同时实现口音语音合成以及口音语音转换，并得到与目标对象的目标音色一致的口音转换音频；且通过目标口音标签可以使口音转换音频能够语调更为自然，从而显著地降低了合成的语音质量差的技术问题，可以得到语调自然，音质好的语音，为用户带来了更好的体验。