技术新讯 > 乐器声学设备的制造及制作,分析技术 > 语音合成模型训练和语音合成方法、装置、设备及介质与流程 > 正文

语音合成模型训练和语音合成方法、装置、设备及介质与流程

国知局
2024-06-21 11:56:43

本发明涉及语音处理，尤其涉及一种语音合成模型训练和语音合成方法、装置、设备及介质。

背景技术：

1、随着文本转语音(text to speech，tts)技术的发展，越来越多的领域采用该种技术，以提高用户的体验。比如，通过预先设置智能设备上语音助手对某一问题的回答内容，以使后续用户在请求语音助手回答该问题时，即可输出语音形式的回答内容。现有技术中，可以通过预先训练完成的语音合成模型，生成文本信息对应的声学特征。后续基于该声学特征，进行相应的处理，从而得到文本信息对应的语音信息。如果希望可以将任一文本信息转化成自然、准确的语音信息，则需要基于大量的预先标记好的语音样本，对该语音合成模型进行训练，以提高该语音合成模型输出文本信息对应的声学特征的准确度。而近几年来，为了进一步提高用户的体验，并可以为用户提供个性化的服务，如何将文本信息转化成语音为方言的语音信息成为人们日益关注的问题。

2、为了可以将任一文本信息转化成自然、准确的语音为方言的语音信息，基于现有技术中的方法，需要预先采集大量的后，基于语音为某一方言的语音样本，对原始语音合成模型进行训练，后续才能根据文本信息的文本特征以及训练完成的语音合成模型获取到可以准确预测该方言的语音信息的声学特征。由于一般需要预先采集3万句以上、或者30小时以上的该方言的语音样本，才能保证该语音合成模型的准确性，导致获取到用于训练该方言的语音合成模型的语音样本的难度以及所耗费的成本都非常的大。

技术实现思路

1、本发明实施例提供了一种模型训练和语音合成方法、装置、设备及介质，用以解决现有获取到可以预测方言的语音信息的声学特征的语音合成模型的难度、以及所耗费的成本非常大的问题。

2、本发明实施例提供了一种语音合成模型训练方法，所述方法包括：

3、获取包含至少一个第一语音样本的样本集，所述第一语音样本为采用第一语言的语音样本，所述第一语音样本对应的文本特征样本是根据预先配置的第一语言的语音单元集合与第二语言的语音单元集合的对应关系确定的；

4、基于所述样本集中的第一语音样本对应的文本特征样本和所述第一语音样本的第一声学特征，对原始语音合成模型进行训练，以获取所述第二语言对应的目标语音合成模型。

5、本发明实施例提供了一种语音合成模型训练方法，所述方法包括：

6、获取包含至少一个语音样本的样本集，所述语音样本包括采用第一语言的第一语音样本和采用第二语言的第二语言样本；

7、基于所述样本集中的第一语音样本对应的第一文本特征和所述第一语音样本的第一声学特征，以及所述样本集中的第二语音样本对应的第二文本特征和所述第二语音样本的第二声学特征，对所述原始语音合成模型进行训练，得到基础语音合成模型；其中，所述第一文本特征是基于所述第一语言的语音单元集合确定的，所述第二文本特征是基于所述第二语言的语音单元集合确定的；

8、基于所述第二语音样本对应的第二文本特征和所述第二语音样本的第二声学特征，对所述基础语音合成模型进行训练，得到目标语音合成模型。

9、本发明实施例提供了一种基于上述任一语音合成模型训练方法获取到的目标语音合成模型的语音合成方法，所述方法包括：

10、获取文本信息的文本特征，所述文本特征是基于所述第二语言的语音单元集合确定的；

11、通过预先训练完成的目标语音合成模型，获取所述文本特征对应的至少一个声学特征；

12、基于所述至少一个所述声学特征以及声码器，确定通过所述第二语言发出所述文本信息的语音信息。

13、本发明实施例提供了一种语音合成模型训练装置，所述装置包括：

14、获取单元，用于获取包含至少一个第一语音样本的样本集，所述第一语音样本为采用第一语言的语音样本，所述第一语音样本对应的文本特征样本是根据预先配置的第一语言的语音单元集合与第二语言的语音单元集合的对应关系确定的；

15、训练单元，用于基于所述样本集中的第一语音样本对应的文本特征样本和所述第一语音样本的第一声学特征，对原始语音合成模型进行训练，以获取所述第二语言对应的目标语音合成模型。

16、本发明实施例提供了一种语音合成模型训练装置，所述装置包括：

17、获取模块，用于获取包含至少一个语音样本的样本集，所述语音样本包括采用第一语言的第一语音样本和采用第二语言的第二语言样本；

18、第一训练模块，用于基于所述样本集中的第一语音样本对应的第一文本特征和所述第一语音样本的第一声学特征，以及所述样本集中的第二语音样本对应的第二文本特征和所述第二语音样本的第二声学特征，对所述原始语音合成模型进行训练，得到基础语音合成模型；其中，所述第一文本特征是基于所述第一语言的语音单元集合确定的，所述第二文本特征是基于所述第二语言的语音单元集合确定的；

19、第二训练模块，用于基于所述第二语音样本对应的第二文本特征和所述第二语音样本的第二声学特征，对所述基础语音合成模型进行训练，得到目标语音合成模型。

20、本发明实施例提供了一种基于上述任一语音合成模型训练方法获取到的目标语音合成模型的语音合成装置，所述装置包括：

21、确定模块，用于获取文本信息的文本特征，所述文本特征是基于所述第二语言的语音单元集合确定的；

22、处理模块，用于通过预先训练完成的目标语音合成模型，获取所述文本特征对应的至少一个声学特征；

23、合成模块，用于基于所述至少一个所述声学特征以及声码器，确定通过所述第二语言发出所述文本信息的语音信息。

24、本发明实施例提供了一种电子设备，所述电子设备至少包括处理器和存储器，所述处理器用于执行存储器中存储的计算机程序时实现如上述任一所述语音合成模型训练方法的步骤，或者实现如上述所述语音合成方法的步骤。

25、本发明实施例提供了一种计算机可读存储介质，其存储有计算机程序，所述计算机程序被处理器执行时实现如上述任一所述语音合成模型训练方法的步骤，或者实现如上述所述语音合成方法的步骤。

26、本发明实施例中，由于样本集中的任一第一语音样本对应的文本特征，均是根据预先配置的第一语言的语音单元集合与第二语言的语音单元集合的对应关系确定的，从而实现将第一语音样本转换为第二语言的语音样本，增加了第二语言的语音样本的数量，后续基于样本集中的第一语音样本对应的文本特征样本和第一语音样本的第一声学特征，即可对原始语音合成模型进行训练，从而获取到第二语言对应的目标语音合成模型，从而实现无需大量采集第二语言的语音样本，即可获取到第二语言的目标语音合成模型。

技术特征：

1.一种语音合成模型训练方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述得到基础语音合成模型之后，所述方法还包括：

3.根据权利要求2所述的方法，其特征在于，所述第一类参数包括所述基础语音合成模型中编码器所包含的参数；

4.根据权利要求1-3任一所述的方法，其特征在于，任一语音样本的声学特征包括：所述语音样本的音频谱参数、所述语音样本的音频时长以及所述语音样本的基频中的至少一种，其中，所述语音样本包括所述第一语音样本和所述第二语音样本。

5.根据权利要求1-3任一所述的方法，其特征在于，所述第一语言为普通话，所述第二语言为方言。

6.根据权利要求1-3任一所述的方法，其特征在于，所述第二语音样本的数量少于第一语音样本的数量。

7.一种基于如权利要求1-6任一项所述语音合成模型训练方法获取到的目标语音合成模型的语音合成方法，其特征在于，所述方法包括：

8.一种语音合成模型训练装置，其特征在于，所述装置包括：

9.一种基于如权利要求1-6任一项所述语音合成模型训练方法获取到的目标语音合成模型的语音合成装置，其特征在于，所述装置包括：

10.一种电子设备，其特征在于，所述电子设备至少包括处理器和存储器，所述处理器用于执行存储器中存储的计算机程序时实现如权利要求1-6中任一所述语音合成模型训练方法的步骤，或者，实现如权利要求7所述语音合成方法的步骤。

11.一种计算机可读存储介质，其特征在于，其存储有计算机程序，所述计算机程序被处理器执行时实现如权利要求1-6中任一所述语音合成模型训练方法的步骤，或者，实现如权利要求7所述语音合成方法的步骤。

技术总结本发明公开了一种语音合成模型训练和语音合成方法、装置、设备及介质。由于样本集中的任一第一语音样本对应的文本特征，均是根据预先配置的第一语言的语音单元集合与第二语言的语音单元集合的对应关系确定的，从而实现了将第一语音样本转换为第二语言的语音样本，增加了第二语言的语音样本的数量，后续基于样本集中的第一语音样本对应的文本特征样本和第一语音样本的第一声学特征，即可对原始语音合成模型进行训练，从而获取到第二语言对应的目标语音合成模型，从而实现无需大量的采集第二语言的语音样本，即可获取到第二语言的目标语音合成模型。技术研发人员：张大成,刘欢受保护的技术使用者：北京猎户星空科技有限公司技术研发日：技术公布日：2024/6/5