技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种语音合成方法、语音合成模型的训练方法和相关装置与流程 > 正文

一种语音合成方法、语音合成模型的训练方法和相关装置与流程

国知局
2024-06-21 11:47:29

本申请涉及语音，特别是涉及一种语音合成方法、语音合成模型的训练方法和相关装置。

背景技术：

1、语音合成(speech synthesis)又称文语转换(text-to-speech,tts)，旨在实现将输入文本转换为流畅自然的输出语音。个性化语音合成(adaptation tts)是语音合成领域中至关重要的一项工作，旨在录取目标对象的少量声音片段后，即能模拟出录音者的语音。

2、本申请的申请人在长期的研发过程中发现，现有的语音合成方法得到的合成语音与录音者说出的真实语音之间仍然存在一定的差异。有鉴于此，如何提高语音合成的真实性，成为亟待解决的问题。

技术实现思路

1、本申请主要解决的技术问题是提供一种语音合成方法、语音合成模型的训练方法和相关装置，能够提高语音合成的真实性。

2、为解决上述技术问题，本申请采用的一个技术方案是：提供一种语音合成方法，该方法包括：获取目标对象的目标参考语音和目标文本的文本特征；基于目标参考语音，提取目标对象的语音韵律特征；至少将语音韵律特征与文本特征进行融合，以得到第一融合特征；基于第一融合特征生成目标对象对应目标文本的目标声学特征。

3、为解决上述技术问题，本申请采用的另一个技术方案是：提供一种语音合成模型的训练方法，包括：获取经预训练的原始语音合成模型，以及获取目标对象的样本参考语音和对应的样本文本，其中，原始语音合成模型包括韵律建模模块和声学模块；利用韵律建模模块，基于样本参考语音提取目标对象的样本语音韵律特征；利用声学模块，基于样本语音韵律特征和样本文本的样本文本特征，生成目标对象对应样本文本的预测声学特征；至少基于预测声学特征与样本参考语音标注的参考声学特征之间的差异，调整声学模块的至少部分模型参数，以得到目标语音合成模型。

4、为解决上述技术问题，本申请采用的另一个技术方案是：提供一种语音合成装置，该装置包括：获取模块、提取模块、融合模块和生成模块，获取模块用于获取目标对象的目标参考语音和目标文本的文本特征；提取模块用于基于目标参考语音，提取目标对象的语音韵律特征；融合模块用于至少将语音韵律特征与文本特征进行融合，以得到第一融合特征；生成模块用于基于第一融合特征生成目标对象对应目标文本的目标声学特征。

5、为解决上述技术问题，本申请采用的另一个技术方案是：提供一种语音合成模型的训练装置，该装置包括获取模块、提取模块、生成模块和调整模块，获取模块，用于获取经预训练的原始语音合成模型，以及获取目标对象的样本参考语音和对应的样本文本，其中，原始语音合成模型包括韵律建模模块和声学模块；提取模块用于利用韵律建模模块，基于样本参考语音提取目标对象的样本语音韵律特征；生成模块用于利用声学模块，基于样本语音韵律特征和样本文本的样本文本特征，生成目标对象对应样本文本的预测声学特征；调整模块用于至少基于预测声学特征与样本参考语音标注的参考声学特征之间的差异，调整声学模块的至少部分模型参数，以得到目标语音合成模型。

6、为解决上述技术问题，本申请采用的另一个技术方案是：提供一种电子设备，包括相互耦接的存储器和处理器，处理器用于执行存储器中存储的程序指令，以实现上述任一语音合成方法或者语音合成模型的训练方法。

7、为解决上述技术问题，本申请采用的另一个技术方案是：提供一种计算机可读存储介质，其上存储有程序指令，程序指令被处理器执行时实现上述任一语音合成方法或者语音合成模型的训练方法。

8、上述方案，基于目标对象的目标参考语音，提取目标对象的语音韵律参考，与文本特征相结合用于生成目标声学特征，丰富了语音合成所依据的目标对象特有的特征，使得目标声学特征对应的合成语音能够更加贴近目标对象的真实语音，提升语音合成的真实性。

技术特征：

1.一种语音合成方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述基于所述目标参考语音，提取所述目标对象的语音韵律特征包括：

3.根据权利要求1所述的方法，其特征在于，所述至少将所述语音韵律特征与所述文本特征进行融合，以得到第一融合特征之前，所述方法还包括：

4.根据权利要求1所述的方法，其特征在于，所述第一融合特征包括所述目标文本中各音素对应的子融合特征；所述基于所述第一融合特征生成所述目标对象对应所述目标文本的目标声学特征包括：

5.根据权利要求4所述的方法，其特征在于，所述解码模块包括多个顺序连接的原始操作层，至少一个所述原始操作层作为目标操作层，各所述目标操作层均通过一特征变换层连接下一原始操作层；

6.根据权利要求1所述的方法，其特征在于，所述语音韵律特征是利用目标语音合成模型的韵律建模模块得到，所述目标对象对应所述目标文本的目标声学特征是利用目标语音合成模型的声学模块得到，所述获取目标对象的目标参考语音和目标文本的文本特征之前，所述方法还包括如下步骤以获取所述目标语音合成模型：

7.根据权利要求6所述的方法，其特征在于，所述声学模块包括解码器，所述解码器包括至少一个解码模块，所述解码模块包括多个原始操作层，至少一个所述原始操作层作为目标操作层；

8.根据权利要求7所述的方法，其特征在于，所述特征变换层包括参数获取单元和特征变换单元；所述基于所述样本参考语音的样本全局音色特征，对所述目标操作层输出的特征进行变换，得到样本变换结果包括：

9.根据权利要求8所述的方法，其特征在于，所述调整所述声学模块的至少部分模型参数包括：

10.一种语音合成模型的训练方法，其特征在于，所述方法包括：

11.根据权利要求10所述的方法，其特征在于，所述声学模块包括解码器，所述解码器包括至少一个解码模块，所述解码模块包括多个原始操作层，至少一个所述原始操作层作为目标操作层；

12.一种语音合成装置，其特征在于，所述装置包括：

13.一种语音合成模型的训练装置，其特征在于，所述装置包括：

14.一种电子设备，其特征在于，包括相互耦接的存储器和处理器，所述处理器用于执行所述存储器中存储的程序指令，以实现权利要求1至9任一项所述的语音合成方法或权利要求10或11所述的语音合成模型的训练方法。

15.一种计算机可读存储介质，其上存储有程序指令，其特征在于，所述程序指令被处理器执行时实现权利要求1至9任一项所述的语音合成方法或权利要求10或11所述的语音合成模型的训练方法。

技术总结本申请公开了一种语音合成方法、语音合成模型的训练方法和相关装置，该方法包括：获取目标对象的目标参考语音和目标文本的文本特征；基于目标参考语音，提取目标对象的语音韵律特征；至少将语音韵律特征与文本特征进行融合，以得到第一融合特征；基于第一融合特征生成目标对象对应目标文本的目标声学特征，能够提高语音合成的真实性。技术研发人员：张治慧,胡亚军,方昕,潘嘉,高建清受保护的技术使用者：科大讯飞股份有限公司技术研发日：技术公布日：2024/4/29