技术新讯 > 乐器声学设备的制造及制作,分析技术 > 韵律预测模型训练方法及装置、电子设备、可读介质与流程 > 正文

韵律预测模型训练方法及装置、电子设备、可读介质与流程

国知局
2024-06-21 11:49:02

本公开涉及自然语言处理，特别涉及一种韵律预测模型训练方法及装置、电子设备、可读介质。

背景技术：

1、韵律不仅可以体现语调、声调、重读和节奏等语言功能，而且可以反映说话者的多种特征，如情感状态、语气以及其他无法由语法和词汇表达的语言要素。在语音合成模型中，增加韵律特征，更符合说话者所表达的语意。因此，在合成语音时韵律预测越准确，最终合成的语音越逼真。

技术实现思路

1、本公开提供一种韵律预测模型训练方法及装置、电子设备、可读介质，可以准确地预测韵律，从而使得合成的语音更逼真。

2、第一方面，本公开提供了一种韵律预测模型训练方法，该韵律预测模型训练方法，包括：

3、获取训练文本的字符信息、词性信息和句法信息，所述字符信息是所述训练文本中字符级别的信息，所述词性信息是所述训练文本中词语的词性，所述句法信息是所述训练文本中所述词语之间的句法；

4、基于所述训练文本的字符信息和词性信息对待训练的韵律预测模型进行预训练，获得第一训练阶段的韵律预测模型；

5、基于所述训练文本的句法信息和词性信息获得目标韵律规则；

6、基于所述目标韵律规则对所述第一训练阶段的韵律预测模型进行优化，在满足第一训练停止条件的情况下，获得训练好的韵律预测模型。

7、第二方面，本公开提供了一种语音合成方法，包括：

8、获取待合成文本；

9、对所述待合成文本进行文本转语音处理，获得所述待合成文本的语音特征；

10、利用韵律预测模型对所述待合成文本的韵律进行预测，获得所述待合成文本的韵律特征，所述韵律预测模型是通过本公开实施例提供的韵律预测模型训练方法获得的；

11、基于所述待合成文本的语音特征和所述待合成文本的韵律特征生成所述待合成文本的合成语音。

12、第三方面，本公开提供了一种韵律预测模型训练装置，包括：

13、获取模块，用于获取训练文本的字符信息、词性信息和句法信息，所述句法信息是所述训练文本中词语之间的句法；

14、预训练模块，用于基于所述训练文本的字符信息和词性信息对待训练的韵律预测模型进行预训练，获得第一训练阶段的韵律预测模型；

15、所述获得模块，用于基于所述训练文本的句法信息和词性信息获得目标韵律规则；

16、优化模块，用于基于所述目标韵律规则对所述第一训练阶段的韵律预测模型进行优化，在满足第一训练停止条件的情况下，获得训练好的韵律预测模型。

17、第四方面，本公开提供了一种语音合成装置，包括：

18、获取模块，用于获取待合成文本；

19、所述获得模块，用于对所述待合成文本进行文本转语音处理，获得所述待合成文本的语音特征；

20、所述获得模块，还用于利用韵律预测模型对所述待合成文本的韵律进行预测，获得所述待合成文本的韵律特征，所述韵律预测模型通过权利要求1-7任意一项所述的韵律预测模型训练方法获得的；

21、生成模块，还用于基于所述待合成文本的语音特征和所述待合成文本的韵律特征生成所述待合成文本的合成语音。

22、第五方面，本公开提供了一种电子设备，该电子设备包括：至少一个处理器；以及与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的一个或多个计算机程序，一个或多个所述计算机程序被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述的韵律预测模型训练方法和语音合成方法。

23、第六方面，本公开提供了一种计算机可读存储介质，其上存储有计算机程序，其中，所述计算机程序在被处理器/处理核执行时实现上述的韵律预测模型训练方法和语音合成方法。

24、第七方面，本公开提供了一种计算机程序或计算机程序产品，该计算机程序产品包括计算机程序，计算机程序存储在计算机可读存储介质中，所述计算机程序在被处理器执行时实现上述的韵律预测模型训练方法和语音合成方法。

25、本公开实施例所提供的韵律预测模型训练方法，基于所述训练文本的字符信息和词性信息对待训练的韵律预测模型进行预训练，获得第一训练阶段的韵律预测模型，基于所述训练文本的句法信息和词性信息获得目标韵律规则，然后基于所述目标韵律规则对所述第一训练阶段的韵律预测模型进行优化，在满足第一训练停止条件的情况下，获得训练好的韵律预测模型，由于第一训练阶段的韵律预测模型是基于训练文本的字符信息和词性信息训练获得的，而基于字符信息和词性信息可以获得第一韵律层级、第三韵律层级和第四韵律层级的韵律特征，即获得字间和句间的韵律特征，因此，第一训练阶段的韵律预测模型能够对第一韵律层级、第三韵律层级和第四韵律层级的韵律准确地预测，目标韵律规则是基于训练文本的句法信息和词性信息获得的，而基于句法信息和词性信息可以获得第二韵律层级的韵律规则，即获得句中的停顿信息以及不同韵律之间的依赖关系，因此，训练好的韵律预测模型既能准确地预测第一韵律层级、第三韵律层级和第四韵律层级的韵律，又能准确地预测第二韵律层级的韵律，从而提高了韵律预测模型预测韵律的准确性。

26、应当理解，本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征，也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。

技术特征：

1.一种韵律预测模型的训练方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述基于所述训练文本的字符信息和词性信息对待训练的韵律预测模型进行预训练，获得第一训练阶段的韵律预测模型，包括：

3.根据权利要求1所述的方法，其特征在于，所述基于所述训练文本的句法信息和词性信息获得目标韵律规则，包括：

4.根据权利要求3所述的方法，其特征在于，所述规则预测模型通过以下步骤获得：

5.根据权利要求1所述的方法，其特征在于，所述目标韵律规则是指第二韵律层级的韵律规则；所述目标韵律规则包括目标词性韵律规则和目标句法韵律规则，所述目标词性韵律规则是基于词语和词性建立的规则，所述目标句法韵律规则是基于词语和句法建立的规则。

6.一种语音合成方法，其特征在于，包括：

7.一种韵律预测模型训练装置，其特征在于，包括：

8.一种语音合成装置，其特征在于，包括：

9.一种电子设备，其特征在于，包括：

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序在被处理器执行时实现如权利要求1-5中任一项所述的韵律预测模型训练方法，或者实现如权利要求6所述的语音合成方法。

技术总结本公开提供了一种韵律预测模型训练方法及装置、电子设备、可读介质，该方法包括获取训练文本的字符信息、词性信息和句法信息，基于训练文本的字符信息和词性信息对待训练的韵律预测模型进行预训练，获得第一训练阶段的韵律预测模型；基于训练文本的句法信息和词性信息获得目标韵律规则；基于目标韵律规则对第一训练阶段的韵律预测模型进行优化，在满足第一训练停止条件的情况下，获得训练好的韵律预测模型。本公开实施例提供的能够韵律预测模型训练方法可以准确预测不同韵律层级的韵律，从而使合成的语音更逼真。技术研发人员：康成宇受保护的技术使用者：马上消费金融股份有限公司技术研发日：技术公布日：2024/5/6