技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种多语种音合成方法、装置、设备及介质与流程  >  正文

一种多语种音合成方法、装置、设备及介质与流程

  • 国知局
  • 2024-06-21 11:27:05

本发明涉及语音合成,尤其涉及一种多语种音合成方法、装置、设备及介质。

背景技术:

1、随着语音技术的不断发展,人们对语音合成领域的要求越来越多,传统语音合成需要大量的语音语料,而这些语料大多是不同的语种,说话人也各不相同。目前的声音合成中由于某些语种语料较少从而导致合成音频吐字不清,给用户带来了较大的困扰。

技术实现思路

1、本发明提供了一种多语种音合成方法、装置、设备及介质,以解决目前的声音合成中某些语种语料较少导致合成音频吐字不清的问题。通过跨语言语音迁徙的方法,将不同的语料利用起来,以更好的训练语音合成模型。

2、本发明采用的技术方案是:

3、第一方面,本发明提供一一种多语种音合成方法,包括了训练阶段和推理阶段,在训练阶段包括以下步骤:

4、s11、采集训练语料,包括不同语种不同说话人的音频及对应的文本,以及语言标签和说话人标签,并提取音频的声学特征;

5、s12、利用训练语料提取的语音特征和对应的文本信息结合语言标签训练文本编码模型;

6、s13、通过文本编码模型将文本信息结合语言标签转化为文本编码向量,将文本编码向量作为编码器的输入,并通过编码器生成文本的隐变量特征;

7、s14、在编码器输出隐变量特征后,通过说话人分类模型梯度反转去掉说话人特征的影响;

8、s15、通过文本的隐变量特征与s11提取的音频的声学特征,采用对齐模型获取每个音素对应的时长,并通过文本的隐变量特征和对应音素时长信息训练时长预测器;

9、s16、将文本的隐变量特征通过s15获取的音素时长信息进行扩展,输入解码器并加入说话人特征向量解码得到声学特征;

10、s17、将声学特征通过声码器合成音频,在生成音频和真实音频之间通过神经网络计算损训练声码器;

11、推理阶段包括以下步骤:

12、s21、文本信息结合目标语种的语言标签通过文本编码器生成文本的编码向量;

13、s22、根据文本的编码向量通过编码器生成文本的隐变量特征,并通过s15训练的时长预测器预测时长;

14、s23、将文本的隐变量特征按时长扩展后与说话人特征信息结合,通过解码器生成声学特征;

15、s24、通过声码器合成音频。

16、进一步的,所述步骤s11还包括:

17、训练语料包括公开的语音合成训练数据集或自己录制的语音合成训练数据集,训练集的文本信息包括不同语种的文本,采用的音标包括采用国际音标。

18、进一步的,所述步骤s12还包括:

19、根据训练的语音的频谱特征和文本信息结合语言标签作为文本编码模型的输入进行训练,文本编码模型网络结构包括采用注意力机制。

20、进一步的,所述步骤s13还包括:

21、根据训练好的文本编码模型提取训练语料文本信息的文本编码向量,文本经规范化处理成为音标,结合目标的语言标签产生的编码向量特征通过文本编码模型,输出的特征作为编码器的输入并通过编码器中的卷积神经网络提取文本信息的隐变量特征。

22、进一步的,所述步骤s14还包括:

23、训练语音合成模型的过程中,将生成的文本信息的隐变量特征经过说话人分类的梯度反转模型,通过分类损失函数反馈误差调整网络。

24、进一步的,所述步骤s15还包括:

25、将s14获取的隐变量特征和s11获取的音频声学特征生成对齐模型,通过对齐模型采用动态规划的方式获取每个隐变量特征的对应音素的时长,并根据音素时长和输入隐变量训练时长预测器。

26、进一步的,所述步骤s16还包括:

27、将文本信息的隐变量特征作为输入,通过解码器中的深度学习网络输出声学特征,并s11提取的训练语料声学特征进行比较通过损失函数反馈误差调整网络。

28、进一步的,所述步骤s17还包括:

29、将通过s16训练的解码器生成的声学特征和真实的音频作为输入,通过神经网络训练声码器。

30、进一步的,所述步骤s21-24还包括:

31、推理阶段的声码器参数由训练阶段得到,并且网络结构一致;推理阶段的文本的处理方式与训练阶段一致;推理阶段生成的语言标签特征向量按照文本的长度进行扩帧并于文本结合,推理阶段的说话人标签向量按解码器输入隐变量特征的长度进行扩帧并与隐变量特征结合,推理阶段不使用说话人分类模型。

32、第二方面,本发明提供一种语音合成装置,,包括训练单元和推理单元,所述训练单元包括:

33、采集模块,用于采集训练语料,包括不同语种不同说话人的音频及对应的文本,以及语言标签和说话人标签,并提取音频的声学特征;

34、文本编码模块,用于利用训练语料提取的语音特征和对应的文本信息结合语言标签训练文本编码模型;

35、编码器模块,用于通过文本编码模型将文本信息结合语言标签转化为文本编码向量,将文本编码向量作为编码器模块的输入,并通过编码器模块生成文本的隐变量特征;在编码器模块输出隐变量特征后,通过说话人分类模型梯度反转去掉说话人特征的影响;

36、时长预测器模块,用于通过文本的隐变量特征与音频的声学特征,采用对齐模型获取每个音素对应的时长,并通过文本的隐变量特征和对应音素时长信息训练时长预测器模块;

37、解码器模块,用于将文本的隐变量特征通过音素时长信息进行扩展,输入解码器模块并加入说话人特征向量解码得到声学特征;

38、声码器模块,用于将声学特征通过声码器模块合成音频,在生成音频和真实音频之间通过神经网络计算损训练声码器模块;

39、所述推理单元包括:

40、文本编码向量模块,用于文本信息结合目标语种的语言标签通过文本编码器模块生成文本的编码向量;

41、编码器模块,还用于根据文本的编码向量通过编码器模块生成文本的隐变量特征,并通过时长预测器模块预测时长;

42、解码器模块,还用于将文本的隐变量特征按时长扩展后与说话人特征信息结合,通过解码器模块生成声学特征;

43、声码器模块,还用于合成音频。

44、第三方面,本发明提供一种电子设备,所述电子设备包括:

45、一个或多个处理器;

46、存储装置,用于存储一个或多个程序;

47、当所述一个或多个程序被所述一个或多个处理器执行,使得所述一个或多个处理器实现如第一方面所述的多语种音合成方法。

48、第四方面,本发明提供一种计算机可读存储介质,其上存储有计算机程序,其特征在于,该程序被处理器执行时实现如第一方面所述的多语种音合成方法。

49、本发明的有益效果是:本发明通过将不同的语种统一编码生成特征向量,并加入梯度反转去掉说话人特征,可以利用不同语种不同说话人的语料训练多人多语种的语音合成系统。本发明可应用于跨语种语音合成领域,但不仅限于该领域。

本文地址:https://www.jishuxx.com/zhuanli/20240618/21603.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。