技术新讯 > 乐器声学设备的制造及制作,分析技术 > 语音合成模型的训练方法、语音合成方法及相关设备与流程 > 正文

语音合成模型的训练方法、语音合成方法及相关设备与流程

国知局
2024-06-21 11:48:19

本申请涉及语音处理，尤其涉及一种语音合成模型的训练方法、语音合成方法及相关设备。

背景技术：

1、随着人工智能技术的快速发展，端到端的语音合成(text to speech，tts)技术已得到广泛应用。相关技术中的tts模型通常是为待合成文本生成统一的韵律信息，再基于韵律信息来进行语音合成，这样为不同说话人合成的语音韵律是相同的。然而，每个说话人的语音韵律风格不同，相关技术中的tts模型难以满足多样化的语音合成需求。

2、因此，如何使语音合成模型合成韵律因人而异的语音，以满足多样化的语音合成需求，仍然需要提供进一步的解决方案。

技术实现思路

1、本申请实施例的目的提供一种语音合成模型的训练方法、语音合成方法及相关设备，用于使语音合成模型能够合成韵律因人而异的语音，以满足多样化的语音合成需求。

2、为了实现上述目的，本申请实施例采用下述技术方案：

3、第一方面，本申请实施例提供一种语音合成模型的训练方法，包括：

4、获取样本文本和所述样本文本的标注数据，所述标注数据包括音素序列、真实语音数据和说话人信息；

5、基于语音合成模型的音素编码模块对所述音素序列进行编码，得到音素特征向量；

6、基于所述语音合成模型的韵律编码模块对所述说话人信息、所述样本文本和所述音素特征向量进行韵律预测，得到预测韵律数据；

7、基于所述语音合成模型的合成模块对所述预测韵律数据进行语音合成处理，得到所述样本文本对应的合成语音数据；

8、基于所述合成语音数据和所述真实语音数据，对所述语音合成模型进行优化训练。

9、第二方面，本申请实施例提供一种语音合成方法，包括：

10、获取目标文本、所述目标文本的音素序列及说话人信息；

11、对所述音素序列进行编码，得到音素特征向量；

12、基于所述说话人信息、所述目标文本和所述音素特征向量进行韵律预测，得到预测韵律数据；

13、基于所述预测韵律数据进行语音合成处理，得到所述目标文本对应的合成语音数据。

14、第三方面，本申请实施例提供一种语音合成模型的训练装置，包括：

15、第一获取单元，用于获取样本文本和所述样本文本的标注数据，所述标注数据包括音素序列、真实语音数据和说话人信息；

16、第一编码单元，用于基于语音合成模型的音素编码模块对所述音素序列进行编码，得到音素特征向量；

17、第一预测单元，用于基于所述语音合成模型的韵律编码模块对所述说话人信息、所述样本文本和所述音素特征向量进行韵律预测，得到预测韵律数据；

18、第一合成单元，用于基于所述语音合成模型的合成模块对所述预测韵律数据进行语音合成处理，得到所述样本文本对应的合成语音数据；

19、训练单元，用于基于所述合成语音数据和所述真实语音数据，对所述语音合成模型进行优化训练。

20、第四方面，本申请实施例提供一种语音合成装置，包括：

21、第二获取单元，用于获取目标文本、所述目标文本的音素序列及说话人信息；

22、第二编码单元，用于对所述音素序列进行编码，得到音素特征向量；

23、第二预测单元，用于基于所述说话人信息、所述目标文本和所述音素特征向量进行韵律预测，得到预测韵律数据；

24、第二合成单元，用于基于所述预测韵律数据进行语音合成处理，得到所述目标文本对应的合成语音数据。

25、第五方面，本申请实施例提供一种电子设备，包括：处理器；用于存储所述处理器可执行指令的存储器；其中，所述处理器被配置为执行所述指令，以实现如第一方面所述的语音合成模型的训练方法；或者，所述处理器被配置为执行所述指令，以实现如第二方面所述的语音合成方法。

26、第六方面，本申请实施例提供一种计算机可读存储介质，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如第一方面所述的方法；或者，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如第二方面所述的方法。

27、由以上本申请实施例提供的技术方案可见，本申请实施例提供的技术方案至少具备如下一种技术效果：

28、采用了改进的语音合成模型，具体包括音素编码模块、韵律编码模块以及合成模块；在对语音合成模型进行训练的过程中，获取样本文本及其标注数据，标注数据包括音素序列、真实语音数据和说话人信息；通过音素编码模块对音素序列进行编码，所得的音素特征向量包含了样本文本的发音特点；由于样本文本包含了韵律信息和情感信息，样本文本对应的说话人信息包含了说话人特征，可以起到对不同说话人的风格进行区分的作用，通过将说话人信息、样本文本和音素特征向量作为韵律编码模块的输入，有助于韵律编码模块在模型训练过程中充分学习说话人的韵律风格和样本文本的发音特点，从而能够准确地进行韵律预测；由于韵律编码模块输出的预测韵律数据包含了说话人的韵律风格，通过将预测韵律数据作为合成模块的输入，有助于合成模块在模型训练过程中充分学习如何合成因说话人的韵律风格而异的语音数据；进一步，基于合成模块输出的合成语音数据和真实语音数据，对语音合成模型进行优化训练，有助于不断增强韵律编码模块和合成模块的学习能力，从而使训练后的语音合成模型能够合成发音准确且韵律因人而异的语音数据。

技术特征：

1.一种语音合成模型的训练方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述韵律编码模块包括结构编码模块和文本编码模块，所述预测韵律数据包括韵律特征数据和融合特征向量；

3.根据权利要求2所述的方法，其特征在于，所述结构编码模块包括预训练语言网络、第一特征提取网络以及韵律预测器；

4.根据权利要求3所述的方法，其特征在于，所述第一特征提取网络包括：第一双向循环子网络和局部特征提取子网络；

5.根据权利要求3所述的方法，其特征在于，所述韵律特征数据包括韵律特征向量和预测韵律等级序列，所述韵律预测器包括位置编码层、第二双向循环子网络、第一线性层和第二线性层；

6.根据权利要求2所述的方法，其特征在于，所述韵律特征数据包括韵律特征向量和预测韵律等级序列，所述文本编码模块包括池化层、第二特征提取网络、注意力层以及第三线性层；

7.根据权利要求1所述的方法，其特征在于，所述标注数据还包括参考韵律数据；

8.一种语音合成方法，其特征在于，包括：

9.根据权利要求8所述的方法，其特征在于，所述预测韵律数据包括韵律特征数据和融合特征向量；

10.根据权利要求9所述的方法，其特征在于，所述基于所述目标文本中词语的位置信息和所述说话人向量进行韵律特征提取，得到所述韵律特征数据，包括：

11.根据权利要求10所述的方法，其特征在于，所述对所述说话人向量和所述文本表示向量进行局部特征提取，得到局部特征向量，包括：

12.根据权利要求10所述的方法，其特征在于，所述韵律特征数据包括韵律特征向量和预测韵律等级序列；

13.根据权利要求9所述的方法，其特征在于，所述韵律特征数据包括韵律特征向量和预测韵律等级序列；

14.一种语音合成模型的训练装置，其特征在于，包括：

15.一种电子设备，其特征在于，包括：

16.一种计算机可读存储介质，其特征在于，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如权利要求1至7中任一项所述的语音合成模型的训练方法；或者，当所述存储介质中的指令由电子设备的处理器执行时，使得电子设备能够执行如权利要求8至13中任一项所述的语音合成方法。

技术总结本申请公开了一种语音合成模型的训练方法、语音合成方法及相关设备。所述语音合成模型的训练方法包括：获取样本文本和样本文本的标注数据，标注数据包括音素序列、真实语音数据和说话人信息；基于语音合成模型的音素编码模块对音素序列进行编码，得到音素特征向量；基于语音合成模型的韵律编码模块对说话人信息、样本文本和音素特征向量进行韵律预测，得到预测韵律数据；基于语音合成模型的合成模块对预测韵律数据进行语音合成处理，得到样本文本对应的合成语音数据；基于合成语音数据和真实语音数据，对语音合成模型进行优化训练。技术研发人员：刘鹏飞受保护的技术使用者：马上消费金融股份有限公司技术研发日：技术公布日：2024/5/6