技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种语音合成方法、装置、设备及存储介质与流程  >  正文

一种语音合成方法、装置、设备及存储介质与流程

  • 国知局
  • 2024-06-21 11:37:54

本发明涉及人工智能领域,尤其涉及一种语音合成方法、装置、设备及存储介质。

背景技术:

1、语音合成是人机语音交互中极为关键的技术之一,语音合成的主要目标在于生成具有高清晰度与高自然度的连续语音。随着全球化程度的不断加深,人们会越来越频繁地使用母语以外的语言来准确地表达某一信息,语音合成可以很好地实现这类合成需求,即复制或模仿特定个体的语音和发音方式。

2、传统的语音合成方案可基于tacotron 2声学模型,根据输入的文本序列生成一系列log-mel spectrogram frames(基于对数梅尔频谱的帧)。它通过添加说话人嵌入信息和语言嵌入信息,经过对抗训练后的说话者分类器,以及变分自编码器(variationalautoencoder,vae)风格的残差编码器来增强基本的tacotron 2声学模型。但传统的语音合成方案较为机械化,无法贴近说话人的语音和发音方式。

技术实现思路

1、本技术实施例所要解决的技术问题在于,提供一种语音合成方法、装置、设备及存储介质,能够确保语音合成得到的音频数据更加拟人化,更加贴近说话人的语音和发音方式。

2、第一方面,本技术实施例提供了一种语音合成方法,包括:

3、获取文本信息,以及说话人嵌入信息和语言嵌入信息;其中,所述说话人嵌入信息用于指示基于说话人的语音特征将所述文本信息进行语音合成,所述语言嵌入信息指示对所述文本信息进行语音合成的语言类型;

4、对所述说话人嵌入信息进行特征提取,得到所述说话人的语音特征;

5、对所述文本信息进行编码,得到所述文本信息的离散编码向量;

6、在优化后的嵌入空间中查找与所述语言嵌入信息指示的语言类型匹配,且与所述离散编码向量的距离最近的嵌入向量;

7、基于所述说话人的语音特征对所述嵌入向量进行解码,得到所述文本信息的音频数据;其中,所述音频数据的语音特征与所述说话人的语音特征匹配,且所述音频数据的语言类型与所述语言嵌入信息指示的语言类型一致。

8、在一种可选的实施方式中,所述文本信息的离散编码向量是调用离散化特征学习模型得到的,所述离散化特征学习模型的训练方式包括:

9、获取第一训练数据,所述第一训练数据包括训练说话人嵌入信息和多个第一训练音频数据,所述多个第一训练音频数据包括至少两个语言类型的第一训练音频数据;

10、调用初始离散化特征学习模型对各个第一训练音频数据进行编码,得到所述各个第一训练音频数据的离散编码向量;

11、在嵌入空间中查找与所述各个第一训练音频数据的离散编码向量的距离最近的嵌入向量;

12、基于所述训练说话人嵌入信息对与所述各个第一训练音频数据的离散编码向量的距离最近的嵌入向量进行解码,得到所述各个第一训练音频数据对应的重构音频数据;

13、按照减小所述重构音频数据与对应的第一训练音频数据的差异的方向,对所述初始离散化特征学习模型进行训练,得到所述离散化特征学习模型。

14、在一种可选的实施方式中,所述按照减小所述重构音频数据与对应的第一训练音频数据的差异的方向,对所述初始离散化特征学习模型进行训练,得到所述离散化特征学习模型,包括:

15、基于所述各个第一训练音频数据,与所述各个第一训练音频数据的离散编码向量的距离最近的嵌入向量,以及所述训练说话人嵌入信息,调整所述初始离散化特征学习模型的负对然似数,得到所述离散化特征学习模型。

16、在一种可选的实施方式中,所述按照减小所述重构音频数据与对应的第一训练音频数据的差异的方向,对所述初始离散化特征学习模型进行训练,得到所述离散化特征学习模型,包括:

17、基于所述各个第一训练音频数据的离散编码向量,以及与所述各个第一训练音频数据的离散编码向量的距离最近的嵌入向量,对所述嵌入空间进行优化,得到所述优化后的嵌入空间。

18、在一种可选的实施方式中,所述按照减小所述重构音频数据与对应的第一训练音频数据的差异的方向,对所述初始离散化特征学习模型进行训练,得到所述离散化特征学习模型,包括:

19、基于所述各个第一训练音频数据的离散编码向量,以及与所述各个第一训练音频数据的离散编码向量的距离最近的嵌入向量,对所述初始离散化特征学习模型进行训练,得到所述离散化特征学习模型。

20、在一种可选的实施方式中,所述方法还包括:

21、对所述嵌入向量进行掩码处理,得到所述嵌入向量的掩码标记序列;

22、调用掩码语言模型对所述嵌入向量的掩码标记序列,以及所述语言嵌入信息进行处理,得到所述文本信息的语言表征;

23、所述基于所述说话人的语音特征对所述嵌入向量进行解码,得到所述文本信息的音频数据,包括:

24、基于所述说话人的语音特征对所述语言表征进行解码,得到所述文本信息的音频数据。

25、在一种可选的实施方式中,所述方法还包括:

26、获取第一训练数据,所述第一训练数据包括训练说话人嵌入信息和多个第一训练音频数据,所述多个第一训练音频数据包括至少两个语言类型的第一训练音频数据;

27、对各个第一训练音频数据进行编码,得到所述各个第一训练音频数据的离散编码向量;

28、在嵌入空间中查找与所述各个第一训练音频数据的离散编码向量的距离最近的嵌入向量;

29、获取所述各个第一训练音频数据的码书字典嵌入数据集,所述码书字典嵌入数据集包括与相应第一训练音频数据的离散编码向量的距离最近的嵌入向量;

30、对所述各个第一训练音频数据的码书字典嵌入数据集进行掩码处理,得到所述各个第一训练音频数据的掩码标记序列;

31、调用初始掩码语言模型对所述各个第一训练音频数据的掩码标记序列,以及所述各个第一训练音频数据的语音类型标识进行处理,得到所述各个第一训练音频数据的预测音频数据;

32、按照减小所述各个第一训练音频数据的预测音频数据和相应第一训练音频数据的差异的方向,对所述初始掩码语言模型进行训练,得到所述掩码语言模型。

33、在一种可选的实施方式中,所述文本信息的离散编码向量是调用编码器得到的,所述文本信息的音频数据是调用解码器得到的,所述编码器和所述解码器的训练方式包括:

34、获取第二训练数据,所述第二训练数据包括训练文本信息以及所述训练文本信息对应的第二训练音频数据;

35、对所述第二训练音频数据进行特征提取,得到所述第二训练音频数据的语音特征;

36、调用初始编码器对所述训练文本信息进行编码,得到所述训练文本信息的离散编码向量;

37、在所述优化后的嵌入空间中查找与所述训练文本信息的离散编码向量的距离最近的嵌入向量;

38、调用初始解码器通过教师强制算法对所述与所述训练文本信息的离散编码向量的距离最近的嵌入向量进行预测处理,得到所述训练文本信息的语音特征;

39、按照减小所述训练文本信息的语音特征和所述第二训练音频数据的语音特征的差异的方向对所述初始编码器和所述初始解码器进行训练,得到所述编码器和所述解码器。

40、在一种可选的实施方式中,所述获取说话人嵌入信息,包括:

41、调用语音识别模型采集说话人提交的语音数据,得到所述说话人嵌入信息。

42、第二方面,本技术实施例提供了一种语音合成装置,该装置包括:

43、输入单元,用于获取文本信息,以及说话人嵌入信息和语言嵌入信息;其中,所述说话人嵌入信息用于指示基于说话人的语音特征将所述文本信息进行语音合成,所述语言嵌入信息指示对所述文本信息进行语音合成的语言类型;

44、处理单元,用于对所述说话人嵌入信息进行特征提取,得到所述说话人的语音特征;

45、所述处理单元,还用于对所述文本信息进行编码,得到所述文本信息的离散编码向量;

46、所述处理单元,还用于在优化后的嵌入空间中查找与所述语言嵌入信息指示的语言类型匹配,且与所述离散编码向量的距离最近的嵌入向量;

47、所述处理单元,还用于基于所述说话人的语音特征对所述嵌入向量进行解码,得到所述文本信息的音频数据;其中,所述音频数据的语音特征与所述说话人的语音特征匹配,且所述音频数据的语言类型与所述语言嵌入信息指示的语言类型一致。

48、第三方面,本技术实施例提供了一种计算机设备,该计算机设备包括存储器、通信接口以及处理器,其中,存储器、通信接口和处理器相互连接;存储器存储有计算机程序,处理器调用所述存储器中存储的计算机程序,用于实现上述第一方面的方法。

49、第四方面,本技术实施例提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序被处理器执行时实现上述第一方面的方法。

50、第五方面,本技术实施例提供了一种计算机程序产品,该计算机程序产品包括计算机程序代码,当该计算机程序代码在计算机上运行时,使得计算机执行上述第一方面所述的方法。

51、第六方面,本技术实施例提供了一种计算机程序,该计算机程序包括计算机程序代码,当该计算机程序代码在计算机上运行时,使得计算机执行上述第一方面所述的方法。

52、在本技术实施例中,通过对文本信息进行编码,得到文本信息的离散编码向量,在优化后的嵌入空间中查找与语言嵌入信息指示的语言类型匹配,且与离散编码向量的距离最近的嵌入向量,基于说话人的语音特征对嵌入向量进行解码,得到文本信息的音频数据,即本技术实施例将传统的vae风格的残差编码器修改为矢量量化自编码器(vectorquantised variational autoencoder,vq-vae)。相比于vae,vq-vae能利用codebook(码书)机制把文本信息编码成离散向量,vq-vae当用于语音合成时,在通过vq-vae编码后所提取出的瓶颈可以等效为音素,即可以使用vq-vae作为离散语言单元的特征提取器,这与直接使用vae作为特征提取器不同,使用vq-vae把文本信息编码成离散向量会更加自然,也就是说,本技术实施例能够确保语音合成得到的音频数据更加拟人化,更加贴近说话人的语音和发音方式。

本文地址:https://www.jishuxx.com/zhuanli/20240618/22547.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。