语音合成方法、装置、电子设备和存储介质与流程
- 国知局
- 2024-06-21 11:41:31
本发明的实施方式涉及计算机,更具体地,本发明的实施方式涉及语音合成方法、装置、电子设备和存储介质。
背景技术:
1、本部分旨在为权利要求书中陈述的本发明的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。
2、随着语音合成技术的发展和应用的普及,语音合成业务正越来越多的被用户接受和使用。
3、现有技术中,在进行语音合成时,往往基于于前一刻的生成结果作为后续输入的自回归方式。但是这种方式语音合成速度比较慢,效率较低。
技术实现思路
1、本技术提供了一种语音合成方法、装置、电子设备和存储介质,用以解决现有技术中,语音合成速度比较慢,效率较低的问题。
2、在本上下文中,本发明的实施方式期望提供一种语音合成方法、装置、电子设备和存储介质。
3、在本发明实施方式的第一方面中,提供了一种语音合成方法,包括:
4、获取待合成的文本信息;
5、将所述文本信息输入预先训练的语音合成模型中,所述语音合成模型包括音频量化过程和语音合成过程,所述音频量化过程用于将所述文本信息中的文本转换为音素,得到初始音素信息;确定所述初始音素信息中每个音素的持续时长,并将所述音素与所述持续时长对齐,得到对齐音素信息,所述对齐音素信息进行音频量化,得到量化编码;所述语音合成过程用于将所述量化编码进行还原,得到音频信息,其中,音频量化过程与语音合成过程同时训练得到所述语音合成模型。
6、可选的,所述将所述音素与所述持续时长对齐,得到对齐音素信息,包括:
7、按照所述音素的持续时长,对所述音素进行扩帧,得到每个音素的扩帧信息;
8、确定所有音素的所述扩帧信息为所述对齐音素信息。
9、可选的,所述按照所述音素的持续时长,对所述音素进行扩帧,得到每个音素的扩帧信息,包括:
10、按照所述持续时长,对所述音素进行复制,得到所述扩帧信息。
11、可选的,预先训练的语音合成模型的过程,包括:
12、获取多个训练样本,各所述训练样本包括文本样本、所述文本样本的梅尔频谱特征、所述文本样本的真实音频;
13、对每个所述训练样本执行如下训练过程:
14、将所述训练样本依次输入初始网络模型中;所述初始网络模型包括音素编码器模块、时长预测模块、单元解码器、对齐模块、量化模块和声码器模块;
15、基于所述音素编码器模块将所述文本样本转换为音素,得到音素样本信息,基于所述对齐模块将所述音素样本信息与所述梅尔频谱特征进行对齐,得到对齐样本信息,以使所述对齐样本信息的时长与所述梅尔频谱特征的时长一致;
16、利用所述时长预测模块对所述音素样本信息中每个音素的持续时长进行预测,得到预测时长;基于所述对齐样本信息中每个音素的时长与所述预测时长计算第一损失函数;
17、利用量化模块对所述梅尔频谱特征进行量化编码,得到样本编码,基于所述样本编码和所述对齐样本信息对所述单元解码器进行训练,得到第二损失函数;
18、确定所述梅尔频谱特征对应的真实编码,基于所述真实编码和所述样本编码计算得到第三损失函数;
19、将所述真实编码输入所述声码器模块,以对所述真实编码进行还原得到还原音频;基于所述还原音频和所述真实音频进行对抗训练,得到第四损失函数;
20、基于最终损失对所述初始网络模型中的时长预测模块、单元解码器、对齐模块、量化模块和声码器模块进行调参,所述最终损失包括所述第一损失函数、第二损失函数、第三损失函数和所述第四损失函数;
21、重复执行所述训练过程,直至所述最终损失满足预设条件时,确定所述初始网络模型为所述语音合成模型。
22、可选的,所述样本编码中每一帧包括至少一个子编码,所述基于所述样本编码和所述对齐样本信息对所述单元解码器进行训练,得到第二损失函数,包括:
23、将所述对齐样本信息输入所述单元解码器,得到第一输出结果;
24、将所述第一输出结果输入至线性层进行分类,得到第一分类结果;
25、计算所述第一分类结果与当前帧的第一个子编码的第一交叉熵损失;
26、在所述子编码有m个的情况下,从第二个子编码开始,第n个子编码按照如下方式进行解码训练,其中,m为大于1的正整数,n为2到m中的任一值:
27、将所述所述对齐样本信息与第n-1个子编码的编码特征信息的和值输入所述单元解码器,得到第n输出结果;
28、将所述第n输出结果输入至线性层进行分类,得到第n分类结果;
29、计算所述第n分类结果与当前帧的第n个子编码的第n交叉熵损失;
30、重复执行上述解码训练过程,直至所述样本编码中的所有帧中的子编码均被计算完成;
31、确定所述第一交叉熵损失至第m交叉熵损失为所述第二损失函数。
32、可选的,确定所述梅尔频谱特征对应的真实编码,包括:
33、计算所述梅尔频谱特征与预设编码的编码特征之间的相似度;
34、确定所述相似度最大的编码特征对应的预设编码为所述真实编码。
35、可选的,所述初始网络模型还包括梅尔频谱编码器,所述文本样本的梅尔频谱特征是通过获取所述文本样本的梅尔频谱后,将所述梅尔频谱输入梅尔频谱编码器后,得到所述梅尔频谱特征。
36、在本发明实施方式的第二方面中,提供了一种语音合成装置,包括:
37、获取模块,用于获取待合成的文本信息;
38、合成模块,用于将所述文本信息输入预先训练的语音合成模型中,所述语音合成模型包括音频量化过程和语音合成过程,所述音频量化过程用于将所述文本信息中的文本转换为音素,得到初始音素信息;确定所述初始音素信息中每个音素的持续时长,并将所述音素与所述持续时长对齐,得到对齐音素信息,所述对齐音素信息进行音频量化,得到量化编码;所述语音合成过程用于将所述量化编码进行还原,得到音频信息,其中,音频量化过程与语音合成过程同时训练得到所述语音合成模型。
39、在本发明实施方式的第三方面中,提供了一种电子设备,包括:处理器、通信接口、存储器和通信总线,其中,处理器、通信接口和存储器通过通信总线完成相互间的通信;
40、所述存储器,用于存储计算机程序;
41、所述处理器,用于执行所述存储器中所存储的程序,实现第一方面所述的语音合成方法。
42、在本发明实施方式的第四方面中,提供了一种计算机可读存储介质,存储有计算机程序,所述计算机程序被处理器执行时实现第一方面所述的语音合成方法。
43、根据本发明实施方式的语音合成方法、装置、电子设备和存储介质,可以通过获取待合成的文本信息;将所述文本信息输入预先训练的语音合成模型中,所述语音合成模型包括音频量化过程和语音合成过程,所述音频量化过程用于将所述文本信息中的文本转换为音素,得到初始音素信息;确定所述初始音素信息中每个音素的持续时长,并将所述音素与所述持续时长对齐,得到对齐音素信息,所述对齐音素信息进行音频量化,得到量化编码;所述语音合成过程用于将所述量化编码进行还原,得到音频信息,其中,音频量化过程与语音合成过程同时训练得到所述语音合成模型。如此,通过预先训练的语音合成模型对待合成的文本信息进行语音合成,在语音合成模型中,通过生成量化编码并对量化编码直接进行语音还原,避免了自回归的合成方式,能够提高语音合成效率。并且,通过将音频量化过程与语音合成过程同时训练,能够将两个过程同时优化,使得语音合成模型合成的结果更加准确。
本文地址:https://www.jishuxx.com/zhuanli/20240618/22948.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。