技术新讯 > 乐器声学设备的制造及制作,分析技术 > 语音模型的训练方法、语音生成方法、设备和存储介质与流程 > 正文

语音模型的训练方法、语音生成方法、设备和存储介质与流程

国知局
2024-06-21 11:30:32

本申请涉及人工智能，特别是涉及一种语音模型的训练方法、语音生成方法、计算机设备、存储介质和计算机程序产品。

背景技术：

1、随着深度学习的快速发展和硬件算力的爆发，目前可以通过语音合成等技术生成相应的语音，模拟真人说话的效果。但是，目前生成的语音，相比于真人说话的抑扬顿挫韵律，在听感上仍然不自然。

2、因此，目前的语音生成方法存在生成的语音不自然的缺陷。

技术实现思路

1、基于此，有必要针对上述技术问题，提供一种能够提高生成的语音的自然度的语音模型的训练方法、语音生成方法、计算机设备、计算机可读存储介质和计算机程序产品。

2、第一方面，本申请提供了一种语音模型的训练方法，所述方法包括：

3、获取文本样本数据和所述文本样本数据对应的目标语音的语音特征；

4、获取所述文本样本数据的文本结构信息和音素信息，将所述文本结构信息和音素信息输入待训练的语音模型，由所述语音模型的文本编码器根据所述文本结构信息和音素信息得到文本编码数据，由所述语音模型的解码器根据所述文本编码数据得到预测语音特征；

5、通过语音编码器得到所述语音特征的语音特征编码数据，将所述语音特征编码数据输入所述语音模型，由所述解码器根据所述语音特征编码数据得到参考语音特征；

6、根据所述预测语音特征与所述参考语音特征的相似度，调整所述待训练的语音模型的模型参数，直至满足预设训练结束条件时，得到经训练的语音模型。

7、在其中一个实施例中，获取所述文本样本数据的文本结构信息，包括：

8、根据所述文本样本数据中各个文字的排序信息，得到所述文本样本数据的字信息；

9、根据所述文本样本数据对应的词语组成成分信息，确定所述文本样本数据的句法信息；

10、根据所述字信息和所述句法信息，得到文本结构信息。

11、在其中一个实施例中，所述文本结构信息包括字信息和句法信息；所述根据所述文本结构信息和音素信息得到文本编码数据，包括：

12、根据所述字信息中每个字对应的音素信息，得到第一文本编码数据；

13、根据所述句法信息，确定所述字信息中各个词语的词语属性；

14、根据所述各个词语的词语属性，得到第二文本编码数据；

15、根据所述文本样本数据，确定所述音素信息的起止时间预测数据；

16、根据所述第一文本编码数据、第二文本编码数据和所述音素信息的起止时间预测数据，得到所述文本编码数据。

17、在其中一个实施例中，所述方法还包括：

18、获取所述文本样本数据中预先标注的连续词句信息；所述连续词句信息中各个文字之间的停顿时间小于预设阈值；

19、将所述连续词句信息输入所述待训练的语音模型，由所述语音模型根据所述连续词句信息确定所述音素信息中各个音素的起止时间预测数据。

20、在其中一个实施例中，所述获取所述文本样本数据中预先标注的连续词句信息，包括：

21、将所述文本样本数据输入经训练的分词模型，根据所述分词模型输出的所述文本样本数据对应的分词结果，得到预先标注的连续词句信息；

22、和/或，

23、获取针对所述文本样本数据中每组相邻字之间的最大停顿时间阈值，根据所述最大停顿时间阈值小于所述预设阈值的相邻字，得到预先标注的连续词句信息；

24、和/或，

25、获取针对所述文本样本数据输入的预设词句，根据所述预设词句得到预先标注的连续词句信息。

26、第二方面，本申请提供了一种语音生成方法，所述方法包括：

27、获取目标文本，并获取所述目标文本的文本结构信息和音素信息；

28、将所述目标文本输入经训练的语音模型，由所述语音模型的文本编码器根据所述目标文本的文本结构信息和音素信息得到文本编码数据，由所述语音模型的解码器根据所述文本编码数据得到预测语音特征，将所述预测语音特征输入所述语音模型中的声码器，由所述声码器根据所述预测语音特征输出对应的预测语音；所述语音模型根据上述的方法训练得到；

29、根据所述预测语音得到所述目标文本对应的语音。

30、在其中一个实施例中，所述获取目标文本，包括：

31、获取用户输入的原始文本；

32、获取所述原始文本中的连续词句信息；

33、根据携带所述连续词句信息的原始文本，得到目标文本。

34、在其中一个实施例中，所述获取所述原始文本中的连续词句信息，包括：

35、将所述原始文本输入经训练的分词模型，根据所述分词模型输出的所述原始文本对应的分词结果，得到连续词句信息；

36、和/或，

37、获取针对所述原始文本中每组相邻字之间的最大停顿时间阈值，根据所述最大停顿时间阈值小于所述预设阈值的相邻字，得到连续词句信息；

38、和/或，

39、获取针对所述原始文本输入的预设词句，根据所述预设词句得到连续词句信息。

40、第三方面，本申请提供了一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述的方法的步骤。

41、第四方面，本申请提供了一种计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述的方法的步骤。

42、第五方面，本申请提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述的方法的步骤。

43、上述语音模型的训练方法、语音生成方法、计算机设备、存储介质和计算机程序产品，通过将文本样本数据的文本结构信息和音素信息输入语音模型，由语音模型分别对文本结构信息和音素信息进行编码，基于编码得到的文本编码数据得到预测语音特征，根据预测语音特征和参考语音特征的相似度调整模型参数，直至满足条件时得到经训练的语音模型；由语音模型基于用户输入的目标文本中的文本结构信息和音素信息输出对应的预测语音。相较于传统的通过语音合成得到的语音，本方案通过结合文本结构信息和音素信息进行语音生成，使得生成的语音语气停顿更加准确且更加自然，提高了语音生成的自然度。

技术特征：

1.一种语音模型的训练方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，获取所述文本样本数据的文本结构信息，包括：

3.根据权利要求1所述的方法，其特征在于，所述文本结构信息包括字信息和句法信息；所述根据所述文本结构信息和音素信息得到文本编码数据，包括：

4.根据权利要求1所述的方法，其特征在于，所述方法还包括：

5.根据权利要求4所述的方法，其特征在于，所述获取所述文本样本数据中预先标注的连续词句信息，包括：

6.一种语音生成方法，其特征在于，所述方法包括：

7.根据权利要求6所述的方法，其特征在于，所述获取目标文本，包括：

8.根据权利要求7所述的方法，其特征在于，所述获取所述原始文本中的连续词句信息，包括：

9.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至8中任一项所述的方法的步骤。

10.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至8中任一项所述的方法的步骤。

技术总结本申请涉及一种语音模型的训练方法、语音生成方法、计算机设备和存储介质。通过将文本样本数据的文本结构信息和音素信息输入语音模型，由语音模型分别对文本结构信息和音素信息进行编码，基于编码得到的文本编码数据得到预测语音特征，根据预测语音特征和参考语音特征的相似度调整模型参数，直至满足条件时得到经训练的语音模型；由语音模型基于用户输入的目标文本中的文本结构信息和音素信息输出对应的预测语音。相较于传统的通过语音合成得到的语音，本方案通过结合文本结构信息和音素信息进行语音生成，使得生成的语音语气停顿更加准确且更加自然，提高了语音生成的自然度。技术研发人员：徐东受保护的技术使用者：腾讯音乐娱乐科技（深圳）有限公司技术研发日：技术公布日：2024/2/29