技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种语音风格迁移方法、系统、装置、设备及计算机介质与流程 > 正文

一种语音风格迁移方法、系统、装置、设备及计算机介质与流程

国知局
2024-06-21 11:37:19

本技术涉及语音合成，更具体地说，涉及一种语音风格迁移方法、系统、装置、设备及计算机介质。

背景技术：

1、随着人工智能的发展，语音合成在人机交互过程中的应用随之增多，在此过程中，语音风格迁移技术的应用也随之增多。语音风格迁移技术指的是在目标发音人只有很少的目标风格的数据，甚至没有目标风格的数据时，借助别的发音人风格数据的指导下，通过迁移学习的方式实现低资源场景下目标风格的语音合成。

2、比如可以收集目标对象不同风格的语音数据进行神经网络模型训练，借助训练好的神经网络模型来生成目标对象所需的语音风格，然而这样的数据获取成本是极高的，也可能事实上无法获取到这样的真实数据，导致语音风格迁移的准确性和适用性较差。

3、综上所述，如何提高语音风格迁移的准确性和适用性是目前本领域技术人员亟待解决的问题。

技术实现思路

1、本技术的目的是提供一种语音风格迁移方法，其能在一定程度上解决如何提高语音风格迁移的准确性和适用性的技术问题。本技术还提供了一种语音风格迁移系统、装置、电子设备及计算机可读存储介质。

2、为了实现上述目的，本技术提供如下技术方案：

3、一种语音风格迁移方法，包括：

4、获取目标对象的音色特征信息；

5、获取目标对象在目标风格下的目标文本；

6、获取源对象在所述目标风格下的源语音；

7、解析出所述源语音中所述源对象的第一目标基频和音素时长；

8、根据所述第一目标基频预测所述目标对象的第二目标基频；

9、按照所述音素时长和所述第二目标基频，应用所述音色特征信息对所述目标文本进行语音合成，得到所述目标对象在所述目标风格下的目标语音。

10、优选的，所述根据所述第一目标基频预测所述目标对象的第二目标基频，包括：

11、确定所述源对象在已有风格下的第一已有基频；

12、对所述第一已有基频进行归一化，确定所述第一已有基频的第一归一化值；

13、根据所述第一归一化值，确定所述第一目标基频对应的目标归一化值；

14、确定所述目标对象在已有风格下的第二已有基频；

15、对所述第二已有基频进行归一化，确定所述第二已有基频的第二归一化值；

16、将与所述目标归一化值符合的所述第二归一化值所对应的基频确定为所述第二目标基频。

17、优选的，所述解析出所述源语音中所述源对象的第一目标基频，包括：

18、解析出所述源语音中所述源对象的第一初始基频；

19、生成所述第一初始基频的说话对象分类损失值；

20、确定所述说话对象分类损失值的梯度值；

21、对所述梯度值进行反转，得到反转值；

22、根据所述反转值对所述第一初始基频进行调整，得到所述第一目标基频。

23、一种语音风格迁移装置，包括：

24、目标对象输入层，用于获取目标对象的音色特征信息；

25、文本输入层，用于获取所述目标对象在目标风格下的目标文本；

26、风格输入层，用于获取源对象在所述目标风格下的源语音；

27、与所述目标对象输入层、所述文本输入层和所述风格输入层连接的编码器，用于对所述音色特征信息、所述目标文本、所述源语音进行编码，得到编码结果；

28、与所述编码器连接的基频预测器，用于对所述编码结果进行处理，解析出所述源语音中所述源对象的第一目标基频，根据所述第一目标基频预测所述目标对象的第二目标基频；

29、与所述编码器连接的时长预测器，用于对所述编码结果进行处理，预测出所述源语音中所述源对象的音素时长；

30、与所述编码器、所述基频预测器和所述时长预测器连接的语音合成器，用于按照所述音素时长和所述第二目标基频，应用所述音色特征信息对所述目标文本进行语音合成，得到所述目标对象在所述目标风格下的目标语音。

31、优选的，所述基频预测器用于：

32、确定所述源对象在已有风格下的第一已有基频；

33、对所述第一已有基频进行归一化，确定所述第一已有基频的第一归一化值；

34、根据所述第一归一化值，确定所述第一目标基频对应的目标归一化值；

35、确定所述目标对象在已有风格下的第二已有基频；

36、对所述第二已有基频进行归一化，确定所述第二已有基频的第二归一化值；

37、将与所述目标归一化值符合的所述第二归一化值所对应的基频确定为所述第二目标基频。

38、优选的，还包括：

39、与所述基频预测器连接的说话对象分类器，用于获取所述基频预测器解析出的所述源语音中所述源对象的第一初始基频；生成所述第一初始基频的说话对象分类损失值；确定所述说话对象分类损失值的梯度值；对所述梯度值进行反转，得到反转值；将所述反转值发送至所述基频预测器，以使所述基频预测器根据所述反转值对所述第一初始基频进行调整，得到所述第一目标基频。

40、优选的，所述编码器包括6层transformer层构成的编码器，且每层所述transformer层由自注意力层和位置编码层构成。

41、一种语音风格迁移系统，包括：

42、第一获取模块，用于获取目标对象的音色特征信息；

43、第二获取模块，用于获取目标对象在目标风格下的目标文本；

44、第三获取模块，用于获取源对象在所述目标风格下的源语音；

45、第一解析模块，用于解析出所述源语音中所述源对象的第一目标基频和音素时长；

46、第一预测模块，用于根据所述第一目标基频预测所述目标对象的第二目标基频；

47、第一合成模块，用于按照所述音素时长和所述第二目标基频，应用所述音色特征信息对所述目标文本进行语音合成，得到所述目标对象在所述目标风格下的目标语音。

48、一种电子设备，包括：

49、存储器，用于存储计算机程序；

50、处理器，用于执行所述计算机程序时实现如上任一所述语音风格迁移方法的步骤。

51、一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序，所述计算机程序被处理器执行时实现如上任一所述语音风格迁移方法的步骤。

52、本技术提供的一种语音风格迁移方法，获取目标对象的音色特征信息；获取目标对象在目标风格下的目标文本；获取源对象在目标风格下的源语音；解析出源语音中源对象的第一目标基频和音素时长；根据第一目标基频预测目标对象的第二目标基频；按照音素时长和第二目标基频，应用音色特征信息对目标文本进行语音合成，得到目标对象在目标风格下的目标语音。本技术中，解析出源对象在目标风格下的第一目标基频和音素时长，根据第一目标基频预测目标对象在目标风格下的第二目标基频，实现了将源对象在目标风格下的基频迁移到同风格的目标对象上，并按照此第二目标基频和源对象在目标风格下的音素时长，应用目标对象的音色特征信息对目标文本进行语音合成得到目标语音，实现了将源对象在目标风格下的音素时长迁移到同风格的目标对象上，最终实现了将源对象的目标风格迁移到目标对象上，准确性好，且无需过多依赖目标对象的其他风格信息做风格迁移，适用性好。本技术提供的一种语音风格迁移系统、装置、电子设备及计算机可读存储介质也解决了相应技术问题。