技术新讯 > 乐器声学设备的制造及制作,分析技术 > 语音合成模型的训练方法、语音处理方法及装置与流程 > 正文

语音合成模型的训练方法、语音处理方法及装置与流程

国知局
2024-06-21 11:26:06

本申请涉及语音处理，尤其涉及一种语音合成模型的训练方法、语音处理方法及装置。

背景技术：

1、非自回归tts(text to speech，文本到语音)模型中的语音合成模型fastspeech2因其较好的语音合成效果和响应速度，被运用于线上。fastspeech2的输入为音素数据(包括拼音和韵律)，输出为音频数据，如梅尔频谱mel-spectrogram，mel-spectrogram再经声码器处理后生成语音。

技术实现思路

1、本申请实施例的目的是提供一种语音合成模型的训练方法、语音处理方法及装置，用以提升段落文本的语音合成效果以及合成效率。

2、为解决上述技术问题，本申请实施例是这样实现的：

3、一方面，本申请实施例提供一种语音合成模型的训练方法，包括：

4、将样本数据输入待训练的语音合成模型处理得到预测音频数据，所述样本数据包括样本文本的样本音素数据、样本段落文本数据以及所述样本音素数据的标准音频数据；

5、根据所述预测音频数据和所述标准音频数据对所述待训练的语音合成模型进行训练，得到训练后的语音合成模型；

6、所述将样本数据输入待训练的语音合成模型处理得到预测音频数据包括：

7、提取所述样本音素数据的音素特征信息，以及所述样本段落文本数据的段落文本特征信息；

8、根据所述音素特征信息和所述段落文本特征信息，确定所述样本音素数据的目标特征信息，所述目标特征信息包括所述音素特征信息、所述段落文本特征信息以及所述样本音素数据和所述样本段落文本数据之间的相关性特征信息；

9、根据所述目标特征信息对所述样本音素数据进行语音合成，得到所述样本音素数据的所述预测音频数据。

10、一方面，本申请实施例提供一种语音处理方法，包括：

11、将待处理的第一数据输入训练后的语音合成模型处理得到目标音频数据，所述第一数据包括第一文本的音素数据以及第一段落文本数据；

12、所述将待处理的第一数据输入训练后的语音合成模型处理得到目标音频数据包括：

13、提取所述音素数据的音素特征信息，以及所述第一段落文本数据的段落文本特征信息；

14、根据所述音素特征信息和所述段落文本特征信息，确定所述音素数据的目标特征信息，所述目标特征信息包括所述音素特征信息、所述段落文本特征信息以及所述音素数据和所述第一段落文本数据之间的相关性特征信息；

15、根据所述目标特征信息对所述音素数据进行语音合成，得到所述音素数据的所述目标音频数据。

16、一方面，本申请实施例提供一种语音合成模型的训练装置，包括：

17、第一处理模块，用于将样本数据输入待训练的语音合成模型处理得到预测音频数据，所述样本数据包括样本文本的样本音素数据、样本段落文本数据以及所述样本音素数据的标准音频数据；

18、训练模块，用于根据所述预测音频数据和所述标准音频数据对所述待训练的语音合成模型进行训练，得到训练后的语音合成模型；

19、所述第一处理模块在将样本数据输入待训练的语音合成模型处理得到预测音频数据时执行为：

20、提取所述样本音素数据的音素特征信息，以及所述样本段落文本数据的段落文本特征信息；

21、根据所述音素特征信息和所述段落文本特征信息，确定所述样本音素数据的目标特征信息，所述目标特征信息包括所述音素特征信息、所述段落文本特征信息以及所述样本音素数据和所述样本段落文本数据之间的相关性特征信息；

22、根据所述目标特征信息对所述样本音素数据进行语音合成，得到所述样本音素数据的所述预测音频数据。

23、一方面，本申请实施例提供一种语音处理装置，包括：

24、第二处理模块，用于将待处理的第一数据输入训练后的语音合成模型处理得到目标音频数据，所述第一数据包括第一文本的音素数据以及第一段落文本数据；

25、所述第二处理模块在将待处理的第一数据输入训练后的语音合成模型处理得到目标音频数据时执行为：

26、提取所述音素数据的音素特征信息以及所述第一段落文本数据的段落文本特征信息；

27、根据所述音素特征信息和所述段落文本特征信息，确定所述音素数据的目标特征信息，所述目标特征信息包括所述音素特征信息、所述段落文本特征信息以及所述音素数据和所述第一段落文本数据之间的相关性特征信息；

28、根据所述目标特征信息对所述音素数据进行语音合成，得到所述音素数据的所述目标音频数据。

29、一方面，本申请实施例提供一种电子设备，包括处理器和与所述处理器电连接的存储器，所述存储器存储有计算机程序，所述处理器用于从所述存储器调用并执行所述计算机程序以实现上述一方面的语音合成模型的训练方法，或者，所述处理器用于从所述存储器调用并执行所述计算机程序以实现上述一方面的语音处理方法。

30、一方面，本申请实施例提供一种计算机可读存储介质，用于存储计算机程序，所述计算机程序能够被处理器执行以实现上述一方面的语音合成模型的训练方法，或者，所述计算机程序能够被处理器执行以实现上述一方面的语音处理方法。

31、采用本申请实施例的技术方案，具有如下有益效果：在对语音合成模型的训练过程中，所依据的样本数据并非仅仅是某个句子本身的音素特征，而是结合了句子所在段落的段落文本数据在段落层级上的特征，例如样本文本所在段落即为样本段落文本数据，通过结合样本文本的音素特征信息以及样本段落文本数据的段落文本特征信息，使得语音合成模型在训练过程中能够充分学习到样本音素数据和样本段落文本数据之间的相关性特征信息，例如样本文本在样本段落文本数据的位置信息、上下文关联性等等，从而学习到更加丰富、完整的特征，使得训练出的语音合成模型的预测准确率更高、模型性能更优。此外，由于语音合成模型在学习特征时，并非是根据整个样本段落文本数据的音素数据进行特征学习，而是以样本段落文本数据中的部分文本(如样本文本)为单位，也即，将样本段落文本数据拆分为句子作为训练时的依据，从而学习到更细粒度、更丰富的特征，大大提升语音合成模型的模型响应效率。进一步地，在利用训练后的语音合成模型进行语音合成时，由于模型性能优以及模型响应效率高，使得段落文本的语音效果和准确度也得以大大提升。

技术特征：

1.一种语音合成模型的训练方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述待训练的语音合成模型包括：音素特征提取模块、段落文本特征提取模块、特征融合模块和语音合成模块；

3.根据权利要求2所述的方法，其特征在于，所述音素特征提取模块包括：音素嵌入层、第一位置编码器和音素特征提取层；所述音素特征提取模块提取所述样本音素数据的音素特征信息，包括：

4.根据权利要求2所述的方法，其特征在于，所述段落文本特征提取模块包括：第一文本特征提取层、维度变换层、第二文本特征提取层和第二位置编码器；所述段落文本特征提取模块提取所述样本段落文本数据的所述段落文本特征信息，包括：

5.根据权利要求4所述的方法，其特征在于，所述特征融合模块根据所述音素特征信息和所述段落文本特征信息，确定所述样本音素数据的所述目标特征信息，包括：

6.根据权利要求5所述的方法，其特征在于，所述第三文本特征信息包括：所述样本段落文本数据中的每个句子之间的句子关联特征信息以及所述每个句子的第一情感特征信息；

7.根据权利要求2所述的方法，其特征在于，所述语音合成模块包括：可变信息预测器和音频生成层；

8.一种语音处理方法，其特征在于，包括：

9.根据权利要求8所述的方法，其特征在于，所述训练后的语音合成模型包括：音素特征提取模块、段落文本特征提取模块、特征融合模块和语音合成模块；

10.根据权利要求9所述的方法，其特征在于，所述音素特征提取模块包括：音素嵌入层、第一位置编码器和音素特征提取层；所述音素特征提取模块提取所述音素数据的音素特征信息，包括：

11.根据权利要求9所述的方法，其特征在于，所述段落文本特征提取模块包括：第一文本特征提取层、维度变换层、第二文本特征提取层和第二位置编码器；所述段落文本特征提取模块提取所述第一段落文本数据的所述段落文本特征信息，包括：

12.根据权利要求11所述的方法，其特征在于，所述特征融合模块根据所述音素特征信息和所述段落文本特征信息，确定所述音素数据的所述目标特征信息，包括：

13.根据权利要求12所述的方法，其特征在于，所述第三文本特征信息包括：所述第一段落文本数据中的每个句子之间的句子关联特征信息以及所述每个句子的第一情感特征信息；

14.根据权利要求9所述的方法，其特征在于，所述语音合成模块包括：可变信息预测器和音频生成层；

15.一种语音合成模型的训练装置，其特征在于，包括：

16.一种语音处理装置，其特征在于，包括：

17.一种电子设备，其特征在于，包括处理器和与所述处理器电连接的存储器，所述存储器存储有计算机程序，所述处理器用于从所述存储器调用并执行所述计算机程序以实现如权利要求1-7任一项所述的语音合成模型的训练方法，或者，所述处理器用于从所述存储器调用并执行所述计算机程序以实现权利要求8-14任一项所述的语音处理方法。

18.一种计算机可读存储介质，其特征在于，所述存储介质用于存储计算机程序，所述计算机程序能够被处理器执行以实现如权利要求1-7任一项所述的语音合成模型的训练方法，或者，所述计算机程序能够被处理器执行以实现如权利要求8-14任一项所述的语音处理方法。

技术总结本申请实施例公开了一种语音合成模型的训练方法、语音处理方法及装置。所述语音合成模型的训练方法包括：将样本数据输入待训练的语音合成模型处理得到预测音频数据，根据预测音频数据和标准音频数据对语音合成模型进行训练。其中，对样本数据的处理包括：提取样本音素数据的音素特征信息和样本段落文本数据的段落文本特征信息；根据音素特征信息和段落文本特征信息确定样本音素数据的目标特征信息，目标特征信息包括音素特征信息、段落文本特征信息以及样本音素数据和样本段落文本数据之间的相关性特征信息；根据目标特征信息对样本音素数据进行语音合成，得到样本音素数据的预测音频数据。本申请能够提升段落文本的语音合成效果以及合成效率。技术研发人员：刘鹏飞,蒋宁,吴海英,陆全,刘敏受保护的技术使用者：马上消费金融股份有限公司技术研发日：技术公布日：2024/2/6