技术新讯 > 乐器声学设备的制造及制作,分析技术 > 语音合成方法、装置、设备及存储介质与流程 > 正文

语音合成方法、装置、设备及存储介质与流程

国知局
2024-06-21 11:48:35

本技术涉及互联网，尤其涉及一种语音合成方法、装置、设备及存储介质。

背景技术：

1、相关技术中，语音合成(text to speech，tts)的综合耗时依赖于两部分：1)对文本信息进行分类的耗时，2)利用分类结果进行语音合成的耗时，因此，对文本信息进行分类的速度将直接影响着语音合成的综合耗时。作为语音合成前端的重要组成部分，实现文本转换分类、多音字分类、分词分类和韵律分类的分类器均是作为独立的分类模块来进行处理，因此，对文本信息的分类的耗时是将独立的分类模块的耗时进行叠加，耗时较长；同时语音合成的准确性依赖于韵律分类结果的准确性，在语音合成的工程化使用场景中，需要减少得到合成语音的综合耗时，同时利用准确的韵律分类结果提升语音合成的准确性。

技术实现思路

1、有鉴于此，本技术实施例提供一种语音合成方法、装置、设备及存储介质，不仅能够减少文本信息分类的耗时，从而减少得到合成语音的综合耗时，同时还能够利用准确的韵律分类结果提升语音合成的准确性。

2、本技术实施例的技术方案是这样实现的：

3、本技术实施例提供了一种语音合成方法，方法包括：对待处理的文本信息进行多维特征提取，得到所述文本信息在多个维度下的字符特征，所述多个维度至少包括韵律处理维度和不同维度；通过韵律分类器中的多个子分类器对所述字符特征在所述韵律处理维度下分别进行分类处理，得到多个子分类结果，所述多个子分类器分别对应不同的韵律层级；对所述多个子分类结果进行拼接处理，得到所述韵律处理维度的韵律分类结果；通过多维度的分类器组对所述字符特征在所述不同维度下进行分类处理，得到多维度分类结果；基于所述韵律分类结果和所述多维度分类结果进行语音合成，得到与所述文本信息对应的合成语音。

4、本技术实施例还提供了一种语音合成装置，装置包括：信息获取模块，用于对待处理的文本信息进行多维特征提取，得到所述文本信息在多个维度下的字符特征，所述多个维度至少包括韵律处理维度和不同维度；特征分类模块，用于通过韵律分类器中的多个子分类器对所述字符特征在所述韵律处理维度下分别进行分类处理，得到多个子分类结果，所述多个子分类器分别对应不同的韵律层级；特征拼接模块，用于对所述多个子分类结果进行拼接处理，得到所述韵律处理维度的韵律分类结果；特征处理模块，用于通过多维度的分类器组对所述字符特征在所述不同维度下进行分类处理，得到多维度分类结果；所述特征处理模块，还用于基于所述韵律分类结果和所述多维度分类结果进行语音合成，得到与所述文本信息对应的合成语音。

5、在一些实施例中，信息获取模块，还用于获取所述待处理的文本信息中的数据标签，所述数据标签用于表征所述待处理的文本信息中不同维度下的文本信息；根据所述数据标签，对所述待处理的文本信息进行多维特征提取，得到不同维度下的文本信息；通过预训练模型对所述不同维度下的文本信息进行转换，得到所述文本信息在多个维度下的字符特征。

6、在一些实施例中，所述韵律分类器包括第一韵律子分类器、第二韵律子分类器和第三韵律子分类器，特征分类模块，还用于通过所述第一韵律子分类器对所述字符特征在所述韵律处理维度下进行第一韵律分类，得到第一韵律分类结果；通过所述第二韵律子分类器对所述字符特征在所述韵律处理维度下进行第二韵律分类，得到第二韵律分类结果；通过所述第三韵律子分类器对所述字符特征在所述韵律处理维度下进行第三韵律分类，得到第三韵律分类结果。

7、在一些实施例中，所述多维度的分类器组包括：文本转换分类器、分词分类器和多音字分类器，特征分类模块，还用于通过所述文本转换分类器，对文本转换维度的字符特征进行分类，得到文本转换维度的文本转换分类结果；特征分类模块，还用于通过所述分词分类器，对文分词处理维度的字符特征进行分类，得到分词处理维度的分词分类结果；通过所述多音字分类器，对多音字处理维度的字符特征进行分类，得到多音字处理维度的多音字分类结果；所述文本转换分类结果、所述分词分类结果和所述多音字分类结果构成所述多维度分类结果。

8、在一些实施例中，所述装置还包括：训练模块，所述训练模块用于对训练数据集合进行预处理，得到不同维度下的字符特征，所述不同维度包括：韵律处理维度和多维度组合中的不同维度；通过所述韵律分类器和所述多维度的分类器组，对所述不同维度下的字符特征在相应分类维度下分别进行分类，得到韵律分类结果和多维度分类结果；根据所述训练数据集合中不同维度训练数据的标签，确定所述韵律分类器的损失函数和所述多维度的分类器组的损失函数；确定所述韵律分类器的损失函数的权重、和所述多维度的分类器组的损失函数的权重；根据所述韵律分类器的损失函数、所述韵律分类器的损失函数的权重、所述多维度的分类器组的损失函数和所述多维度的分类器组的损失函数的权重，确定融合损失函数；根据所述融合损失函数，对所述韵律分类器和所述多维度的分类器组进行训练，直至所述融合损失函数收敛时，确定所述韵律分类器的参数和所述多维度的分类器组的参数。

9、在一些实施例中，所述训练模块，还用于获取所述韵律分类器的损失函数的初始权重和所述多维度的分类器组的损失函数的初始权重，其中，所述韵律分类器的损失函数的初始权重和所述多维度的分类器组所的损失函数的初始权重相同；确定所述韵律分类器的优先级和所述多维度的分类器组的优先级；根据所述韵律分类器的优先级和所述多维度的分类器组的优先级，对所述韵律分类器的损失函数的初始权重和所述多维度的分类器组所的损失函数的初始权重分别进行调整，得到所述韵律分类器的损失函数的权重和所述多维度的分类器组的损失函数的权重。

10、在一些实施例中，训练模块，还用于当所述韵律分类器的优先级大于或者等于所述多维度的分类器组的优先级时，按照第一预设比例增加所述韵律分类器的损失函数的初始权重；当所述韵律分类器的优先级小于所述多维度的分类器组的优先级时，按照第二预设比例减少所述韵律分类器的损失函数的初始权重。

11、本技术实施例还提供了一种电子设备，所述电子设备包括：存储器，用于存储可执行指令；处理器，用于运行所述存储器存储的可执行指令时，实现上述的语音合成方法。

12、本技术实施例还提供了一种计算机可读存储介质，存储有可执行指令，所述可执行指令被处理器执行时实现上述语音合成方法。

13、本技术实施例还提供了一种计算机程序产品，包括计算机程序或指令，所述计算机程序或指令被处理器执行时，实现上述语音合成方法。

14、本技术实施例具有以下有益效果：

15、1)本技术通过对待处理的文本信息进行多维特征提取，得到所述文本信息在多个维度下的字符特征，所述多个维度至少包括韵律处理维度和不同维度；通过韵律分类器中的多个子分类器对所述字符特征在所述韵律处理维度下分别进行分类处理，得到多个子分类结果，所述多个子分类器分别对应不同的韵律层级；对所述多个子分类结果进行拼接处理，得到所述韵律处理维度的韵律分类结果；由此，可以实现对待处理的文本信息的字符特征进行准确分类，使得待处理的文本信息的字符特征，尤其是韵律分类结果更加准确，从而利用准确的韵律分类结果提升语音合成的准确性。

16、2)通过多维度的分类器组对所述字符特征在所述不同维度下进行分类处理，得到多维度分类结果；基于所述韵律分类结果和所述多维度分类结果进行语音合成，得到与所述文本信息对应的合成语音。由此，可以利用韵律分类器和多维度的分类器组对文本信息在多个维度下的字符特征进行分类，减少文本信息的分类的耗时，使得获取文本信息分类结果的耗时更短，从而减少语音合成过程的综合耗时。