技术新讯 > 乐器声学设备的制造及制作,分析技术 > 文本韵律预测方法、装置、计算机设备、存储介质与流程 > 正文

文本韵律预测方法、装置、计算机设备、存储介质与流程

国知局
2024-06-21 11:49:22

本公开涉及人工智能，特别是涉及一种文本韵律预测方法、装置、计算机设备、存储介质。

背景技术：

1、文本语音合成技术tts（text-to-speech）是指将文本转化为语音音频的技术。tts中，特别是中文tts中，韵律标记对语音合成效果有非常重要的影响，韵律标记了语速、停顿、重读等重要的说话风格信息，作为语音合成的重要先验条件，一定程度上决定了合成最终的听觉效果。

2、一般的韵律预测模型，是通过文本中根据文本句子结构和语义直接预测出来的韵律标记向量。然而，韵律标记向量是一种平均韵律，也就是“大多数人遇到这个句子时，应该以这样的韵律来读”。这样的韵律去进行tts推理时，能得到平均韵律特点的语音结果，大多数情况下，例如客服场景，播报场景，这样的韵律合成效果是可以接受的，但是随着人们对ai语音合成的自然度要求越来越高，在某些应用场景下，人们希望不同音色的说话人，合成的效果应该是不同的，应该带有这个说话人自身的特点。

3、鉴于此，如何生成更贴近说话人风格的合成语音成为亟待解决的技术问题。

技术实现思路

1、基于此，有必要针对上述技术问题，提供一种能够生成更贴近说话人风格的合成语音的文本韵律预测方法、装置、计算机设备、存储介质。

2、第一方面，本公开提供了一种文本韵律预测方法，所述方法包括：

3、获取待预测文本和目标对象的语音信息；

4、基于预先确定的语言模型对所述待预测文本处理后得到第一编码信息，并基于所述语音信息和所述第一编码信息得到第二编码信息；

5、对第一编码信息和第二编码信息进行交叉注意力计算，得到融合了所述语音信息和待预测文本的第三编码信息；

6、对所述第三编码信息进行线性分类处理，并利用激活函数得到所述线性分类处理的结果对应的分类残差结果；

7、至少基于所述分类残差结果，确定所述待预测文本与所述目标对象相对应的目标韵律预测结果。

8、在其中一个实施例中，所述对第一编码信息和第二编码信息进行交叉注意力计算，得到融合了所述语音信息和待预测文本的第三编码信息，包括：

9、将所述第一编码信息作为查询向量、将所述第二编码信息作为键向量和值向量，对所述第一编码信息和第二编码信息进行交叉注意力计算，得到第三文本编码信息。

10、在其中一个实施例中，所述第二编码信息是根据所述语音信息和所述第一编码信息得到的，包括：

11、利用声纹识别技术对所述语音信息进行处理，得到语音特征向量，其中，所述语音特征向量和所述第一编码信息的维度相同；

12、将所述第一编码信息和所述语音特征向量相加，得到第二编码信息。

13、在其中一个实施例中，所述对所述第三编码信息进行线性分类处理，并利用激活函数得到所述分类处理的结果对应的线性分类残差结果之前，所述方法还包括：

14、对所述第三编码信息进行上下文关联学习。

15、在其中一个实施例中，所述线性分类处理的结果包括五类分类标签，所述激活函数为tanh激活函数

16、第二方面，本公开还提供了一种文本韵律预测方法。所述方法包括：

17、获取目标对象的信息和待预测文本；

18、将所述目标对象的信息和待预测文本输入至预先训练得到的目标韵律预测模型中，利用所述目标韵律模型输出与所述目标对象相对应的待预测文本的分类残差结果；所述目标韵律模型采用包括如下方式得到所述分类残差结果：利用待预测文本和预先确定的语言模型确定第一编码信息，并利用所述第一编码信息和所述目标对象的语音信息确定第二编码信息；对第一编码信息和第二编码信息进行交叉注意力计算，得到第三编码信息；对所述第三编码信息进行线性分类处理，并利用激活函数得到所述线性分类处理的结果对应的分类残差结果；

19、至少基于所述分类残差结果，确定与所述目标对象相对应的所述待预测文本的目标韵律预测结果。

20、在其中一个实施例中，所述目标韵律预测模型采用包括下述方式得到：

21、将韵律训练文本和预测对象的信息输入至目标韵律训练模型中，利用目标韵律训练模型输出所述预测对象在韵律训练文本下的分类残差结果，所述目标韵律训练模型至少包括：语言模型处理层、交叉注意力计算层和分类层；

22、利用所述预测对象在韵律训练文本下的分类残差结果和所述韵律训练文本相对应的训练文本平均韵律，确定韵律预测结果，所述训练文本平均韵律是将所述韵律训练文本输入至预先确定的文本韵律预测模型中得到的；

23、基于韵律预测结果和所述预测对象在所述韵律训练文本下的韵律标注信息进行交叉熵损失计算，得到交叉熵的值；

24、响应于所述交叉熵的值小于预设的交叉熵阈值，基于所述目标韵律训练模型得到所述目标韵律预测模型。

25、在其中一个实施例中，所述目标韵律预测模型利用韵律训练文本和多个预测对象的语音信息训练得到，所述多个预测对象中包括所述目标对象，所述韵律训练文本和多个预测对象的语音信息之间的关系，包括：

26、响应于所述韵律训练文本的数量小于等于预设的第一数量阈值，和/或，所述预测对象的数量小于等于预设的第二数量阈值，所述多个预测对象对应的语音信息包括：多个预测对象在每个所述韵律训练文本下对应的语音信息。

27、在其中一个实施例中，所述目标韵律预测模型还包括：关联层，用于对所述第三编码信息进行上下文关联学习，并将进行上下文关联学习后的所述第三编码信息输入至所述分类层。

28、第三方面，本公开还提供了一种文本韵律预测装置，所述装置包括：

29、数据获取模块，用于获取待预测文本和目标对象的语音信息；

30、数据处理模块，用于基于预先确定的语言模型对所述待预测文本处理后得到第一编码信息，并基于所述语音信息和所述第一编码信息得到第二编码信息；

31、交叉注意力计算模块，用于对第一编码信息和第二编码信息进行交叉注意力计算，得到融合了所述语音信息和待预测文本的第三编码信息；

32、分类处理模块，用于对所述第三编码信息进行线性分类处理，并利用激活函数得到所述分类处理的结果对应的分类残差结果；

33、目标韵律预测结果确定模块，用于至少基于所述分类残差结果，确定所述待预测文本与所述目标对象相对应的目标韵律预测结果。

34、第四方面，本公开还提供了一种文本韵律预测装置，所述装置包括：

35、信息获取模块，用于获取目标对象的信息和待预测文本；

36、第一模型处理模块，用于将所述目标对象的信息和待预测文本输入至预先训练得到的目标韵律预测模型中，利用所述目标韵律模型输出与所述目标对象相对应的待预测文本的分类残差结果；其中，所述目标韵律预测模型采用包括如下方式得到所述分类残差结果：利用待预测文本和预先确定的语言模型确定第一编码信息，并利用所述第一编码信息和所述目标对象的语音信息确定第二编码信息；对第一编码信息和第二编码信息进行交叉注意力计算，得到第三编码信息；对所述第三编码信息进行线性分类处理，并利用激活函数得到所述线性分类处理的结果对应的分类残差结果；

37、结果确定模块，用于至少基于所述分类残差结果，确定与所述目标对象相对应的所述待预测文本的目标韵律预测结果。

38、第五方面，本公开还提供了一种计算机设备。所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行所述计算机程序时实现上述任一方法实施例中的步骤。

39、第六方面，本公开还提供了一种计算机可读存储介质。所述计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时实现上述任一方法实施例中的步骤。

40、第七方面，本公开还提供了一种计算机程序产品。所述计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述任一方法实施例中的步骤。

41、上述各实施例中，获取待预测文本和目标对象的语音信息。根据待预测文本和目标对象的语音信息可以得到第一编码信息和第二编码信息。由于第二编码信息是根据语音信息和第一编码信息得到的，因此第二编码信息中添加了目标对象的语音特征。为了能够有效的将第一编码信息和第二编码进行交叉关联，可以对第一编码信息和第二编码信息进行交叉注意力计算，进而得到融合了目标对象的语音信息的特征和待预测文本的第三编码信息。此外，由于得到了第三编码信息后，由于第三编码信息是融合了目标对象的语音信息的特征和待预测文本。因此，可以先对第三编码信息进行线性分类处理，进而利用激活函数得到所述线性分类处理的结果对应的分类残差结果，能够得到目标对象的区别于平均韵律所自有的韵律特征，即分类残差结果。进而可以基于所述分类残差结果，确定所述待预测文本与所述目标对象相对应的目标韵律预测结果。根据目标对象所自有的韵律特征，来形成该目标对象特定的待预测文本的目标韵律预测结果，能够得到更贴近说话人风格的待预测文本的合成语音。