技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种语音合成方法、装置、设备及可读存储介质与流程  >  正文

一种语音合成方法、装置、设备及可读存储介质与流程

  • 国知局
  • 2024-06-21 11:37:47

本发明涉及语音处理领域,特别涉及一种语音合成方法、装置、设备及可读存储介质。

背景技术:

1、tts(文字转语音)技术目前已经非常成熟,语音效果稳定而清晰,成本也较低,极大地降低了人工劳动力。tts技术被广泛应用于广播收听、车载导航、智能客服等多种场景。随着跨时代的ai产品推出,对新时代ai产品的需求逐渐升高。然而,目前市面上的大多数tts产品主要以播报为目标,其语音效果虽然准确而稳定,但难免显得有些单调和机械,情感表达较为有限。它们无法提供像笑声、咳嗽、呼吸等更贴近真实人类的合成语音,因此在应用于新世代的ai产品中存在一定的局限性。

2、有鉴于此,提出本申请。

技术实现思路

1、本发明公开了一种语音合成方法、装置、设备及可读存储介质,旨在解决现有的tts产品的情感表达有限的问题。

2、本发明第一实施例提供了一种语音合成方法,包括:

3、获取目标文本,通过预训练的文本模型bert对所述目标文本进行编码,以生成文本情感编码;

4、获取参考语音,通过预训练的语音模型bert对所述参考语音进行编码,以生成语音情感编码;

5、将解析音素与所述文本情感编码和所述语音情感编码输入到基于transformer的编码器,以生成潜在表示信息;

6、调用mas算法对文本特征和语音帧进行对齐和优化,生成语音片段的对齐矩阵,其中,所述对齐矩阵的元素为每个音素的发音时长;通过对齐矩阵训练时长预测器,并基于对齐矩阵训练过的时长预测器对所述潜在表示信息进行扩展处理,以生成目标文本的梅尔频谱;

7、对所述目标文本的梅尔频谱进行还原处理,生成目标文本的音频波形。

8、优选地,在调用mas算法对文本特征和语音帧进行对齐和优化,生成语音片段的对齐矩阵之前,还包括:

9、调整所述参考语音的音色,并将调整后的音色与所述潜在表示信息进行融合;

10、对融合后的潜在表示信息进行线性转换,以构建融合后的潜在表示信息的先验分布,并通过标准化流对所述先验分布进行复杂化处理。

11、优选地,所述调用mas算法对文本特征和语音帧进行对齐和优化,生成语音片段的对齐矩阵,具体为:

12、将所述文本特征和语音帧进行硬对齐,以使得所述文本特征和语音帧映射到一个相同的时间轴上;

13、调用mas算法对假设符合高斯分布的所述文本特征和语音帧进行优化,以生成最优的对齐矩阵。

14、优选地,所述对所述目标文本的梅尔频谱进行还原处理,生成目标文本的音频波形,具体为:

15、使用一维转置卷积对目标文本的梅尔频谱进行上采样以生成样本点;

16、通过多感受野融合的残差网络对所述样本点进行处理,以生成目标文本的音频波形。

17、优选地,所述调用音素时长预测器对潜在信息表示进行扩展处理,以生成目标文本的梅尔频谱,具体为:

18、调用音素时长预测器对所述潜在信息表示进行扩展处理,以生成处理结果;

19、基于重构损失对所述处理结果进行优化,以生成目标文本的梅尔频谱,其中,所述重构损失的表达式为:

20、;

21、其中,为重构损失,为目标梅尔频谱,为处理结果。

22、优选地,所述调用mas算法对假设符合高斯分布的所述文本特征和语音帧进行优化,以生成最优的对齐矩阵,具体为:

23、通过优化kl散度估算对齐分布,并根据所述对齐分布进行单调对齐搜索mas算法,生成最优的对齐矩阵;

24、优化kl散度的表达式为:;

25、其中,为文本,为目标输出,为最大概率对齐矩阵,为参考线性谱,和为给出对应条件下潜在变量z的先验分布;

26、mas算法的表达式为:

27、其中,为采样的对齐矩阵。

28、本发明第二实施例提供了一种语音合成装置,包括:

29、文本情感编码单元,用于获取目标文本,通过预训练的文本模型bert对所述目标文本进行编码,以生成文本情感编码;

30、语音情感编码单元,用于获取参考语音,通过预训练的语音模型bert对所述参考语音进行编码,以生成语音情感编码;

31、潜在表示信息生成单元,用于将解析音素与所述文本情感编码和所述语音情感编码输入到基于transformer的先验编码器,以生成潜在表示信息;

32、梅尔频谱生成单元,用于调用mas算法对文本特征和语音帧进行对齐和优化,生成语音片段的对齐矩阵,其中,所述对齐矩阵的元素为每个音素的发音时长;通过对齐矩阵训练时长预测器,并基于对齐矩阵训练过的时长预测器对所述潜在表示信息进行扩展处理,以生成目标文本的梅尔频谱;

33、音频波形生成单元,用于对所述目标文本的梅尔频谱进行还原处理,生成目标文本的音频波形。

34、优选地,所述潜在表示信息生成单元还用于:

35、调整所述参考语音的音色,并将调整后的音色与所述潜在表示信息进行融合;

36、对融合后的潜在表示信息进行线性转换,以构建融合后的潜在表示信息的先验分布,并通过标准化流对所述先验分布进行复杂化处理。

37、本发明第三实施例提供了一种语音合成设备,包括存储器以及处理器,所述存储器内存储有计算机程序,所述计算机程序能够被所述处理器执行,以实现如上任意一项所述的一种语音合成方法。

38、本发明第四实施例提供了一种计算机可读存储介质,其特征在于,存储有计算机程序,所述计算机程序能够被所述计算机可读存储介质所在设备的处理器执行,以实现如上任意一项所述一种语音合成方法。

39、基于本发明提供的一种语音合成方法、装置、设备及可读存储介质,通过获取目标文本,通过预训练的文本模型bert对所述目标文本进行编码,以生成文本情感编码,接着,获取参考语音,通过预训练的语音模型bert对所述参考语音进行编码,以生成语音情感编码;再接着,将解析音素与所述文本情感编码和所述语音情感编码输入到基于transformer的先验编码器,以生成潜在表示信息;调用mas算法对文本特征和语音帧进行对齐和优化,生成语音片段的对齐矩阵,其中,所述对齐矩阵的元素为每个音素的发音时长;通过对齐矩阵训练时长预测器,并基于对齐矩阵训练过的时长预测器对所述潜在表示信息进行扩展处理,以生成目标文本的梅尔频谱;最后,对所述目标文本的梅尔频谱进行还原处理,生成目标文本的音频波形。解决现有的tts产品的情感表达有限的问题。

技术特征:

1.一种语音合成方法,其特征在于,包括:

2.根据权利要求1所述的一种语音合成方法,其特征在于,在调用mas算法对的文本特征和语音帧进行对齐和优化,生成语音片段的对齐矩阵之前,还包括:

3.根据权利要求1所述的一种语音合成方法,其特征在于,所述对所述目标文本的梅尔频谱进行还原处理,生成目标文本的音频波形,具体为:

4.根据权利要求1所述的一种语音合成方法,其特征在于,所述基于对齐矩阵训练过的时长预测器对所述潜在表示信息进行扩展处理,以生成目标文本的梅尔频谱,具体为:

5.一种语音合成装置,其特征在于,包括:

6.根据权利要求5所述的一种语音合成装置,其特征在于,所述潜在表示信息生成单元还用于:

7.一种语音合成设备,其特征在于,包括存储器以及处理器,所述存储器内存储有计算机程序,所述计算机程序能够被所述处理器执行,以实现如权利要求1至4任意一项所述的一种语音合成方法。

8.一种计算机可读存储介质,其特征在于,存储有计算机程序,所述计算机程序能够被所述计算机可读存储介质所在设备的处理器执行,以实现如权利要求1至4任意一项所述一种语音合成方法。

技术总结本发明提供了一种语音合成方法、装置、设备及可读存储介质,通过获取目标文本,通过预训练的文本模型BERT对目标文本进行编码,以生成文本情感编码,获取参考语音,通过预训练的语音模型BERT对参考语音进行编码,以生成语音情感编码;将解析音素与文本情感编码和语音情感编码输入到基于Transformer的先验编码器生成潜在表示编码;调用MAS算法获得对齐矩阵,对齐矩阵的元素为每个音素的发音时长,通过对齐矩阵训练时长预测器,对潜在表示信息的文本特征和语音帧进行对齐和优化,推理时对潜在表示信息进行扩展处理生成目标文本的梅尔频谱,使用基于hifigan的解码器对目标文本的梅尔频谱进行解码处理,生成目标文本的音频波形。解决现有的TTS产品的情感表达有限的问题。技术研发人员:吕金松,余承超,张争旭,黄天财,黄俊杰,黄海波,李阳,李子王,杨亮受保护的技术使用者:厦门她趣信息技术有限公司技术研发日:技术公布日:2024/3/21

本文地址:https://www.jishuxx.com/zhuanli/20240618/22536.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。