技术新讯 > 乐器声学设备的制造及制作,分析技术 > 语音合成的处理方法、装置、电子设备和计算机存储介质与流程 > 正文

语音合成的处理方法、装置、电子设备和计算机存储介质与流程

国知局
2024-06-21 11:44:13

本发明涉及语音合成，特别是涉及一种语音合成的处理方法、一种语音合成的处理装置、一种电子设备和一种计算机可读存储介质。

背景技术：

1、语音合成(tts，text-to-speech)是一种能够根据输入文本生成对应音频的技术。tts现在广泛应用于toc(to customer，针对个人用户)和tob(to business，针对企业)等场景。

2、随着tts技术的不断发展，用户对于tts合成效果和应用领域的要求也在逐步提高，比如，在有声书场景下，语音合成不再局限于合成自然风格的音频，而是合成具有多情感的语句；再比如，合成语种也不再局限于如中文、英文这种多资源语种、方言以及低资源语种也有其特定的应用场景。

3、tts发展到现阶段，在低资源语种的语音合成方面仍存在很多困境。比如，数据稀缺(文本和音频数据量不足，对于模型训练来讲，数据不足会导致训练欠佳，从而影响最终效果)、数据质量不佳(低资源语种往往由于数据收集困难，使得其数据质量无法保证，常见的问题有录音质量不佳或者文本转录不对应等)、语言特性研究少(由于该语种或者方言使用的人较少，往往语言学界对其开展的研究也相对少，那么对该语言的发音模式及特性等记载可能不到位。除此之外，评估效果时，如果缺乏专业人员的支持，后续调优的困难也很大)、训练难度大(由于数据稀缺，可能需要借助各种训练策略来辅助训练，这也增加了训练的难度)等。

技术实现思路

1、鉴于上述问题，提出了本发明实施例以便提供一种克服上述问题或者至少部分地解决上述问题的一种语音合成的处理方法、一种语音合成的处理装置、一种电子设备和一种计算机可读存储介质。

2、本发明实施例公开了一种语音合成的处理方法，所述方法包括：

3、基于预设的多语种文本样本对预设的文本模型进行训练，得到训练后的目标文本模型；

4、将所述目标文本模型中第一嵌入层的参数，复制至预设的语音合成模型中的第二嵌入层，得到初始语音合成模型；

5、对所述初始语音合成模型中的所述第二嵌入层进行冻结，并基于预设的文本音频对样本对所述初始语音合成模型进行训练，得到训练后的语音合成模型。

6、在一个或多个实施例中，所述基于预设的多语种文本样本对预设的文本模型进行训练，得到训练后的目标文本模型，包括：

7、s11、将所述多语种文本样本和语种标识输入所述文本模型中的预训练模型，得到所述预训练模型输出的第一结果；

8、s12、将所述第一结果输入所述第一嵌入层，得到所述第一嵌入层输出的第二结果；

9、s13、将所述第二结果输入第一编码器，得到所述第一编码器输出的第三结果；

10、s14、基于所述第三结果和所述多语种文本样本计算第一损失函数；

11、s15、若所述第一损失函数未达到最优，则对所述预训练模型、所述第一嵌入层和所述第一解码器进行更新，并重复执行s11～s15，直至所述第一损失函数达到最优，得到训练后的目标文本模型。

12、在一个或多个实施例中，所述基于所述预设的文本音频对样本对所述初始语音合成模型进行训练，得到训练后的语音合成模型，包括：

13、s21、将所述文本音频对样本输入所述第二嵌入层，得到所述第二嵌入层输出的第四结果；

14、s22、将所述第四结果输入第二编码器，得到所述第二编码器输出的第五结果；

15、s23、将所述第五结果输入解码器，得到所述解码器输出的梅尔频谱；

16、s24、基于所述梅尔频谱和所述文本音频对样本对应的谱图计算第二损失函数；

17、s25、若所述第二损失函数未达到最优，则对所述第二编码器和所述解码器进行更新，并重复执行s21～s25，直至所述第二损失函数达到最优，得到训练后的语音合成模型。

18、在一个或多个实施例中，将所述多语种文本样本和语种标识输入所述文本模型中的预训练模型，得到所述预训练模型输出的第一结果，包括：

19、将所述多语种文本样本转换为第一国际音标序列；

20、将所述第一国际音标序列和语种标识输入所述文本模型中的预训练模型，得到所述预训练模型输出的第一结果；其中，所述预训练模型为mbert；

21、将所述文本音频对样本输入所述第二嵌入层，得到所述第二嵌入层输出的第四结果，包括：

22、将所述文本音频对样本中的文本转换为第二国际音标序列；

23、将所述第二国际音标序列和语种标识输入所述第二嵌入层，得到所述第二嵌入层输出的第四结果。

24、在一个或多个实施例中，还包括：

25、将待处理文本输入所述训练后的语音合成模型，得到所述训练后的语音合成模型输出的合成语音。

26、相应的，本发明实施例公开了一种语音合成的处理装置，所述装置包括：

27、第一训练模块，用于基于预设的多语种文本样本对预设的文本模型进行训练，得到训练后的目标文本模型；

28、复制模块，用于将所述目标文本模型中第一嵌入层的参数，复制至预设的语音合成模型中的第二嵌入层，得到初始语音合成模型；

29、第二训练模块，用于对所述初始语音合成模型中的所述第二嵌入层进行冻结，并基于预设的文本音频对样本对所述初始语音合成模型进行训练，得到训练后的语音合成模型。

30、在一个或多个实施例中，所述第一训练模块，具体用于：

31、s11、将所述多语种文本样本和语种标识输入所述文本模型中的预训练模型，得到所述预训练模型输出的第一结果；

32、s12、将所述第一结果输入所述第一嵌入层，得到所述第一嵌入层输出的第二结果；

33、s13、将所述第二结果输入第一编码器，得到所述第一编码器输出的第三结果；

34、s14、基于所述第三结果和所述多语种文本样本计算第一损失函数；

35、s15、若所述第一损失函数未达到最优，则对所述预训练模型、所述第一嵌入层和所述第一解码器进行更新，并重复执行s11～s15，直至所述第一损失函数达到最优，得到训练后的目标文本模型。

36、在一个或多个实施例中，所述第二训练模块，具体用于：

37、s21、将所述文本音频对样本输入所述第二嵌入层，得到所述第二嵌入层输出的第四结果；

38、s22、将所述第四结果输入第二编码器，得到所述第二编码器输出的第五结果；

39、s23、将所述第五结果输入解码器，得到所述解码器输出的梅尔频谱；

40、s24、基于所述梅尔频谱和所述文本音频对样本对应的谱图计算第二损失函数；

41、s25、若所述第二损失函数未达到最优，则对所述第二编码器和所述解码器进行更新，并重复执行s21～s25，直至所述第二损失函数达到最优，得到训练后的语音合成模型。

42、在一个或多个实施例中，第一训练模块，具体还用于：

43、将所述多语种文本样本转换为第一国际音标序列；

44、将所述第一国际音标序列和语种标识输入所述文本模型中的预训练模型，得到所述预训练模型输出的第一结果；其中，所述预训练模型为mbert；

45、第二训练模块，具体还用于：

46、将所述文本音频对样本中的文本转换为第二国际音标序列；

47、将所述第二国际音标序列和语种标识输入所述第二嵌入层，得到所述第二嵌入层输出的第四结果。

48、在一个或多个实施例中，还包括：

49、输入模块，用于将待处理文本输入所述训练后的语音合成模型，得到所述训练后的语音合成模型输出的合成语音。

50、相应的，本发明实施例公开了一种电子设备，包括：处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序，所述计算机程序被所述处理器执行时实现上述语音合成的处理方法实施例的各个步骤。

51、相应的，本发明实施例公开了一种计算机可读存储介质，所述计算机可读存储介质上存储计算机程序，所述计算机程序被处理器执行时实现上述语音合成的处理方法实施例的各个步骤。

52、本发明实施例包括以下优点：

53、基于预设的多语种文本样本对预设的文本模型进行训练，得到训练后的目标文本模型，然后将所述目标文本模型中第一嵌入层的参数，复制至预设的语音合成模型中的第二嵌入层，得到初始语音合成模型，再对所述初始语音合成模型中的所述第二嵌入层进行冻结，并基于预设的文本音频对样本对所述初始语音合成模型进行训练，即可得到训练后的语音合成模型。针对低资源语种的tts场景，由于经过文本模型训练后，第一嵌入层已具有对语种敏感的泛化功能，加上文本样本包括大量的语种，使得训练后的第一嵌入层已经能够学习和捕捉到每个语种的高维信息，在降低训练难度的前提下帮助后续低资源tts模型捕捉到尽可能多的语种信息，因此，将训练后的第一嵌入层的参数复制至语音合成模型中的第二嵌入层后，即便是少量的文本音频对样本数据，训练后的语音合成模型也可以实现比较好的合成效果。