技术新讯 > 乐器声学设备的制造及制作,分析技术 > 语音合成方法、语音合成装置、电子设备及存储介质与流程  >  正文

语音合成方法、语音合成装置、电子设备及存储介质与流程

  • 国知局
  • 2024-11-19 09:53:48

本技术涉及人工智能及金融科技领域,尤其涉及一种语音合成方法、语音合成装置、电子设备及存储介质。

背景技术:

1、当前,语音合成中的语音转换(也称说话人转换)在金融客服服务场景得到广泛应用。语音转换旨在将一个人的声音转换为另一个人,而不改变其说话内容。现有技术提出了一种基于自编码器将语音解耦为音色和内容两部分,其中的内容编码器采用瓶颈层从通道层面约束内容特征。由于内容编码器在训练时所使用的数据集规模受到限制,且简单网络结构的自编码器的预测性能有限,导致内容编码准确率较低,从而导致语音合成的内容准确性较差。此外,虽然复杂网络结构的自编码器的预测性能较好,但预测效率较低。

2、因此,如何提供一种语音合成方法,能够保证语音合成的内容准确性且提高语音合成效率,成为了亟待解决的技术问题。

技术实现思路

1、本技术实施例的主要目的在于提出语音合成方法、语音合成装置、电子设备及存储介质,能够保证语音合成的内容准确性和情感,还提高了语音合成效率。

2、为实现上述目的,本技术实施例的第一方面提出了一种语音合成方法,所述方法包括:

3、获取语音样本数据的声学特征表示序列,得到初始声学特征表示序列;

4、对所述初始声学特征表示序列进行掩码处理,得到掩码声学特征表示序列;

5、通过预设的内容编码教师模型对所述掩码声学特征表示序列进行内容编码,得到第一内容向量;

6、通过预设的初始内容编码学生模型对所述掩码声学特征表示序列进行内容编码,得到第二内容向量;其中,所述内容编码教师模型的参数量大于所述初始内容编码学生模型的参数量;

7、根据所述第一内容向量和所述第二内容向量进行内容蒸馏损失计算,得到目标损失数据;

8、根据所述目标损失数据对所述初始内容编码学生模型进行参数调整,得到目标内容编码学生模型;

9、获取目标语音数据;

10、通过所述目标内容编码学生模型对所述目标语音数据进行内容编码,得到目标内容向量;

11、根据所述目标内容向量、预设的目标说话人向量以及预设的目标韵律向量进行解码,得到目标合成语音数据。

12、在一些实施例,所述内容编码教师模型包括语音识别预训练子模型和规范化层;

13、所述通过预设的内容编码教师模型对所述掩码声学特征表示序列进行内容编码,得到第一内容向量,包括:

14、通过所述语音识别预训练子模型对所述掩码声学特征表示序列进行预测编码,得到第一预测编码序列;

15、通过所述规范化层对所述第一预测编码序列进行实例规范化,得到所述第一内容向量。

16、在一些实施例,所述初始内容编码学生模型包括注意力子模型和内容表征学习子模型;

17、所述通过预设的初始内容编码学生模型对所述掩码声学特征表示序列进行内容编码,得到第二内容向量,包括:

18、通过所述注意力子模型对所述掩码声学特征表示序列进行预测编码,得到第二预测编码序列;

19、通过所述内容表征学习子模型对所述第二预测编码序列进行内容表征,得到所述第二内容向量。

20、在一些实施例,在所述根据所述目标损失数据对所述初始内容编码学生模型进行参数调整,得到目标内容编码学生模型之前,所述方法还包括:更新所述目标损失数据,具体包括:

21、通过预设的韵律编码模型对所述语音样本数据进行韵律编码,得到样本韵律向量;

22、对所述语音样本数据进行说话人识别,得到样本说话人向量;

23、根据所述第二内容向量、所述样本说话人向量和所述样本韵律向量进行解码,得到语音重构数据;

24、根据所述语音样本数据和所述语音重构数据进行损失重构,得到重构损失数据;

25、根据所述重构损失数据更新所述目标损失数据。

26、在一些实施例,所述韵律编码模型包括声学特征提取子模型和韵律特征提取子模型;

27、所述通过预设的韵律编码模型对所述语音样本数据进行韵律编码,得到样本韵律向量;

28、通过所述声学特征提取子模型对所述语音样本数据进行声学特征提取,得到初始声学向量;

29、通过所述韵律特征提取子模型对所述初始声学向量进行韵律特征提取,得到声学韵律向量;

30、将所述初始声学向量和所述声学韵律向量进行融合,得到所述样本韵律向量。

31、在一些实施例,在所述通过预设的韵律编码模型对所述语音样本数据进行韵律编码,得到样本韵律向量之后,所述方法还包括:

32、对所述样本韵律向量进行情绪识别,得到样本情绪类别;

33、根据样本情绪类别和预设的样本情绪标签进行情绪识别损失计算,得到韵律损失数据;

34、根据所述韵律损失数据对所述韵律编码模型进行参数调整,得到目标韵律编码模型;其中,所述目标韵律编码模型用于对所述目标语音数据进行韵律编码得到所述目标韵律向量。

35、在一些实施例,所述根据所述第一内容向量和所述第二内容向量进行内容蒸馏损失计算,得到目标损失数据,包括:

36、根据所述第一内容向量和第二内容向量进行差值计算,得到内容编码误差;

37、对所述内容编码误差进行双曲余弦计算,得到双曲余弦数据;

38、对所述双曲余弦数据进行对数计算,得到所述目标损失数据。

39、为实现上述目的,本技术实施例的第二方面提出了一种语音合成装置,所述装置包括:

40、语音获取模块,用于获取语音样本数据的声学特征表示序列,得到初始声学特征表示序列;

41、掩码处理模块,用于对所述初始声学特征表示序列进行掩码处理,得到掩码声学特征表示序列;

42、内容编码模块,用于通过预设的内容编码教师模型对所述掩码声学特征表示序列进行内容编码,得到第一内容向量;

43、所述内容编码模块,还用于通过预设的初始内容编码学生模型对所述掩码声学特征表示序列进行内容编码,得到第二内容向量;其中,所述内容编码教师模型的参数量大于所述初始内容编码学生模型的参数量;

44、损失计算模块,用于根据所述第一内容向量和所述第二内容向量进行内容蒸馏损失计算,得到目标损失数据;

45、参数调整模块,用于根据所述目标损失数据对所述初始内容编码学生模型进行参数调整,得到目标内容编码学生模型;

46、语音合成模块,用于:

47、获取目标语音数据;

48、通过所述目标内容编码学生模型对所述目标语音数据进行内容编码,得到目标内容向量;

49、根据所述目标内容向量、预设的目标说话人向量以及预设的目标韵律向量进行解码,得到目标合成语音数据。

50、为实现上述目的,本技术实施例的第三方面提出了一种电子设备,所述电子设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述第一方面所述的语音合成方法。

51、为实现上述目的,本技术实施例的第四方面提出了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面所述的语音合成方法。

52、本技术提出的语音合成方法、语音合成装置、电子设备及存储介质,该方法首先获取语音样本数据的声学特征表示序列,得到初始声学特征表示序列。其次对初始声学特征表示序列进行掩码处理,得到掩码声学特征表示序列。再通过内容编码教师模型和初始内容编码学生模型对掩码声学特征表示序列分别进行内容编码,得到第一内容向量和第二内容向量。然后根据第一内容向量和第二内容向量计算得到目标损失数据,且根据目标损失数据对初始内容编码学生模型进行参数调整,得到目标内容编码学生模型。目标内容编码学生模型输出的第二内容向量与内容编码教师模型输出的第一内容向量近乎相同,即目标内容编码学生模型具备与内容编码教师模型相近的编码准确性,且目标内容编码学生模型的参数量较少,因此内容编码效率较高。然后,利用目标内容编码学生模型对目标语音数据进行内容编码,可以得到准确性较高的目标内容向量,从而基于目标内容向量、目标说话人向量和目标韵律向量得到的目标合成语音数据的质量更好,且效率更高。综上,本实施例能够保证语音合成的内容准确性和提高语音合成效率。

53、本技术的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本技术的实践了解到。

本文地址:https://www.jishuxx.com/zhuanli/20241118/330547.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。