技术新讯 > 乐器声学设备的制造及制作,分析技术 > 文本转语音方法、装置、计算机设备、可读存储介质和程序产品与流程 > 正文

文本转语音方法、装置、计算机设备、可读存储介质和程序产品与流程

国知局
2024-09-11 15:00:54

本申请涉及语音合成，特别是涉及一种文本转语音方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。

背景技术：

1、通过深度神经网络，可以实现文本到声学特征，声学特征到语音信号的转换。

2、现有的语音合成系统主要是通过音素体系构建发音单元，实现文本到语音信号的转换。然而，不同语种的音素是完全不一样的，而且一些偏小的语种或者方言的音素体系可能也不是很完善，对不同语种建模的难度较高，导致文本生成的语音存在准确率较低的情况。

技术实现思路

1、基于此，有必要针对上述技术问题，提供一种文本转语音方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。

2、第一方面，本申请提供了一种文本转语音方法，包括：

3、根据目标文本，得到语义声牌；

4、将所述语义声牌转换为语音声牌；

5、将所述语义声牌、所述语音声牌和参考音频输入预先构建的解码器，得到解码结果；

6、根据所述解码结果，得到与所述目标文本对应的目标音频。

7、在其中一个实施例中，所述根据目标文本，得到语义声牌，包括：

8、根据目标文本和第一文本转语义模型，得到第一语义声牌；

9、根据目标文本和第二文本转语义模型，得到第二语义声牌；

10、根据所述第一语义声牌和所述第二语义声牌，得到语义声牌。

11、在其中一个实施例中，所述根据所述第一语义声牌和所述第二语义声牌，得到语义声牌，包括：

12、获取所述第一语义声牌的第一置信度；

13、获取所述第二语义声牌的第二置信度；

14、根据所述第一置信度和所述第二置信度各自与置信度阈值的相对大小，在所述第一语义声牌和所述第二语义声牌中确定语义声牌。

15、在其中一个实施例中，根据所述第一置信度和所述第二置信度各自与置信度阈值的相对大小，在所述第一语义声牌和所述第二语义声牌中确定语义声牌，包括：

16、当所述第一置信度大于置信度阈值且所述第二置信度小于置信度阈值时，将所述第一语义声牌作为语义声牌；

17、当所述第一置信度小于置信度阈值且所述第二置信度大于置信度阈值时，将所述第二语义声牌作为语义声牌；

18、当所述第一置信度大于置信度阈值且所述第二置信度大于置信度阈值时，对所述第一语义声牌和所述第二语义声牌进行加权求和，得到语义声牌；

19、当所述第一置信度小于置信度阈值且所述第二置信度小于置信度阈值时，对所述第一语义声牌和所述第二语义声牌进行加权求和，得到语义声牌。

20、在其中一个实施例中，所述将所述语义声牌转换为语音声牌，包括：

21、根据所述语义声牌和目标语言模型，得到待优化语音声牌；

22、将所述待优化语音声牌输入具有注意力机制的声牌优化模型中；

23、根据所述声牌优化模型的输出结果，得到语音声牌。

24、在其中一个实施例中，在将所述语义声牌、所述语音声牌和参考音频输入预先构建的解码器之前，所述方法还包括：

25、根据梅尔频谱和训练音频，得到训练语音声牌；

26、根据训练文本，得到训练语义声牌；

27、根据所述训练语音声牌、所述训练语义声牌和训练参考音频进行训练，得到预先构建的解码器。

28、第二方面，本申请还提供了一种文本转语音装置，包括：

29、语义声牌获取模块，用于根据目标文本，得到语义声牌；

30、语音声牌获取模块，用于将所述语义声牌转换为语音声牌；

31、解码结果获取模块，用于将所述语义声牌、所述语音声牌和参考音频输入预先构建的解码器，得到解码结果；

32、目标音频获取模块，用于根据所述解码结果，得到与所述目标文本对应的目标音频。

33、第三方面，本申请还提供了一种计算机设备。所述计算机设备包括存储器和处理器，所述存储器存储有计算机程序，所述处理器执行上述方法。

34、第四方面，本申请还提供了一种计算机可读存储介质。所述计算机可读存储介质，其上存储有计算机程序，所述计算机程序被处理器执行上述方法。

35、第五方面，本申请还提供了一种计算机程序产品。所述计算机程序产品，包括计算机程序，该计算机程序被处理器执行上述方法。

36、上述文本转语音方法、装置、计算机设备、计算机可读存储介质和计算机程序产品，根据目标文本，得到语义声牌；将语义声牌转换为语音声牌；将语义声牌、语音声牌和参考音频输入预先构建的解码器，得到解码结果；根据解码结果，得到与目标文本对应的目标音频。本申请未采用原有的音素体系，而是采用声牌，对目标文本得到的语义声牌进行转换，得到语音声牌，根据语义声牌、语音声牌和参考音频，得到与目标文本对应的目标音频，降低不同语种建模的难度，提高文本转语音的准确率。

技术特征：

1.一种文本转语音方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述根据目标文本，得到语义声牌，包括：

3.根据权利要求2所述的方法，其特征在于，所述根据所述第一语义声牌和所述第二语义声牌，得到语义声牌，包括：

4.根据权利要求3所述的方法，其特征在于，根据所述第一置信度和所述第二置信度各自与置信度阈值的相对大小，在所述第一语义声牌和所述第二语义声牌中确定语义声牌，包括：

5.根据权利要求1所述的方法，其特征在于，所述将所述语义声牌转换为语音声牌，包括：

6.根据权利要求1所述的方法，其特征在于，在将所述语义声牌、所述语音声牌和参考音频输入预先构建的解码器之前，所述方法还包括：

7.一种文本转语音装置，其特征在于，所述装置包括：

8.一种计算机设备，包括存储器和处理器，所述存储器存储有计算机程序，其特征在于，所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述的方法的步骤。

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。

10.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。

技术总结本申请涉及一种文本转语音方法、装置、计算机设备、可读存储介质和程序产品。本方法包括：根据目标文本，得到语义声牌；将语义声牌转换为语音声牌；将语义声牌、语音声牌和参考音频输入预先构建的解码器，得到解码结果；根据解码结果，得到与目标文本对应的目标音频。采用本方法能够降低不同语种建模的难度，提高文本转语音的准确率。技术研发人员：周阳,马金龙,熊佳,王伟喆,马飞,徐志坚,谢睿,陈光尧受保护的技术使用者：广州趣研网络科技有限公司技术研发日：技术公布日：2024/9/9