一种语音合成方法、装置、存储介质及设备与流程
- 国知局
- 2024-06-21 11:54:25
本技术涉及自然语言处理,尤其涉及一种语音合成方法、装置、存储介质及设备。
背景技术:
1、随着语音技术的日趋成熟,语音合成技术已被广泛应用于智能助手、音箱、车载、小说阅读等场景,在这些开放领域中,合成音作为一种声音的展现,给人们的社会生活带来便利与丰富性,具有广阔的使用价值。
2、近年来,部分研究者尝试将预训练模型融入传统语音合成系统(delightful tts)中,以提升合成语音的自然度和音质。其中较为常用的有两种语音合成方法:一种是使用语音预训练模型wav2vec提取的表征替换梅尔谱(mel),作为声学特征,并针对wav2vec特征的量化特点,对声学模型和声码器进行了优化,以及使用一种改进的自编码器msmc-vq-gan提取层次化的声学特征,替换mel进行声学建模,来实现语音合成,实现过程如图1所示,但这种合成方式仅能解决声学特征泛化性不足的问题,且在声学特征预训练中,仅使用语音数据,缺少对文本信息的考虑,保留了过多声学细节,加大了声学建模难度。而另一种常用的语音合成方法则是使用文本、音素预训练模型,初始化语音合成的文本编码模块,提高合成自然度,实现过程如图2所示,但这种合成方式也只是将一种预训练技术引入到tts系统中,虽解决了tts中encoder编码不足的问题,但预训练过程中只考虑了文本或语音单一模态,在encoder预训练时,仅使用纯文本和音素,缺少对语音中的声学特性的考虑,也导致最终语音合成的效果较差。
技术实现思路
1、本技术实施例的主要目的在于提供一种语音合成方法、装置、存储介质及设备,能够在进行语音合成时,有效提高合成结果的准确率,进而提高合成效果。
2、本技术实施例提供了一种语音合成方法,包括:
3、获取待合成的目标文本,并确定所述目标文本对应的目标音素;
4、将所述目标文本和所述目标音素输入至预先构建的语音合成模型,预测得到所述目标文本的语音合成结果;
5、其中,所述语音合成模型是利用文本、音素和语音数据进行跨模态预训练得到的。
6、一种可能的实现方式中,所述方法还包括:
7、获取第一样本文本,并确定所述第一样本文本对应的第一样本音素和第一样本语音;
8、利用所述第一样本文本、第一样本音素和第一样本语音,对初始文本编码模型进行训练,生成文本编码模型,并将所述文本编码模型中的文本编码网络、音素编码网络和跨模态交互网络构成所述语音合成模型的编码层的初始化结构。
9、一种可能的实现方式中,所述方法还包括:
10、获取第二样本语音,并确定所述第二样本语音对应的第二样本音素;
11、提取所述第二样本音素的音素编码;
12、利用所述第二样本语音、所述第二样本音素的音素编码、第一目标损失函数,对初始韵律特征提取模型进行训练,生成韵律特征提取模型。
13、一种可能的实现方式中,所述利用所述第二样本语音、所述第二样本音素的音素编码、第一目标损失函数,对初始韵律特征提取模型进行训练,生成韵律特征提取模型,包括:
14、利用所述第二样本语音、所述第二样本音素的音素编码、第一目标损失函数和第二目标损失函数,对初始韵律特征提取模型进行训练,生成韵律特征提取模型。
15、一种可能的实现方式中,所述方法还包括:
16、获取第三样本语音,并确定所述第三样本语音对应的第三样本音素;
17、提取所述第三样本音素的音素编码;
18、利用所述第三样本语音、所述第三样本音素的音素编码和第三目标损失函数,对初始自编码网络模型进行训练,生成自编码网络模型;并将所述自编码网络模型中的声学编码网络和去相关网络构成声学特征提取模型;
19、其中,所述第三目标损失函数用于约束所述去相关网络提取的声学特征与所述音素编码之间的相关性。
20、一种可能的实现方式中,所述语音合成模型的构建方式如下:
21、获取第四样本文本和所述第四样本文本对应的第四样本语音,并确定所述第四样本文本对应的第四样本音素;
22、将所述第四样本语音输入所述韵律特征提取模型,提取出所述第四样本语音对应的样本韵律特征;并将所述第四样本语音输入所述声学特征提取模型,提取出所述第四样本语音对应的样本声学特征;
23、根据所述第四样本文本、所述第四样本音素、所述样本韵律特征、所述样本声学特征、所述第四样本语音和第四目标函数对初始语音合成模型进行训练,生成所述语音合成模型。
24、一种可能的实现方式中,所述方法还包括:
25、获取验证文本和所述验证文本对应的验证语音,并确定所述验证文本对应的验证音素;
26、将所述验证文本和所述验证音素输入至所述语音合成模型,预测得到所述验证文本的验证语音合成结果;
27、当所述验证文本的验证语音合成结果与所述验证文本对应的验证语音不一致时,将所述验证文本重新作为所述第四样本文本,对所述语音合成模型进行更新。
28、一种可能的实现方式中,所述将所述目标文本和所述目标音素输入至预先构建的语音合成模型,预测得到所述目标文本的语音合成结果,包括:
29、将所述目标文本和所述目标音素输入至预先构建的语音合成模型,提取所述目标文本的文本编码特征;
30、根据所述目标文本的文本编码特征进行韵律特征预测,得到所述目标文本对应的韵律特征;
31、根据所述目标文本的文本编码特征和所述韵律特征进行声学特征预测,得到所述目标文本对应的声学特征,并利用所述声学特征合成所述目标文本对应的语音。
32、本技术实施例还提供了一种语音合成装置,包括:
33、第一获取单元,用于获取待合成的目标文本,并确定所述目标文本对应的目标音素;
34、第一预测单元,用于将所述目标文本和所述目标音素输入至预先构建的语音合成模型,预测得到所述目标文本的语音合成结果;
35、其中,所述语音合成模型是利用文本、音素和语音数据进行跨模态预训练得到的。
36、一种可能的实现方式中,所述装置还包括:
37、第二获取单元,用于获取第一样本文本,并确定所述第一样本文本对应的第一样本音素和第一样本语音;
38、第一训练单元,用于利用所述第一样本文本、第一样本音素和第一样本语音,对初始文本编码模型进行训练,生成文本编码模型,并将所述文本编码模型中的文本编码网络、音素编码网络和跨模态交互网络构成所述语音合成模型的编码层的初始化结构。
39、一种可能的实现方式中,所述装置还包括:
40、第三获取单元,用于获取第二样本语音,并确定所述第二样本语音对应的第二样本音素;
41、第一提取单元,用于提取所述第二样本音素的音素编码;
42、第二训练单元,用于利用所述第二样本语音、所述第二样本音素的音素编码、第一目标损失函数,对初始韵律特征提取模型进行训练,生成韵律特征提取模型。
43、一种可能的实现方式中,所述第二训练单元具体用于:
44、利用所述第二样本语音、所述第二样本音素的音素编码、第一目标损失函数和第二目标损失函数,对初始韵律特征提取模型进行训练,生成韵律特征提取模型。
45、一种可能的实现方式中,所述装置还包括:
46、第四获取单元,用于获取第三样本语音,并确定所述第三样本语音对应的第三样本音素;
47、第二提取单元,用于提取所述第三样本音素的音素编码;
48、第三训练单元,用于利用所述第三样本语音、所述第三样本音素的音素编码和第三目标损失函数,对初始自编码网络模型进行训练,生成自编码网络模型;并将所述自编码网络模型中的声学编码网络和去相关网络构成声学特征提取模型;
49、其中,所述第三目标损失函数用于约束所述去相关网络提取的声学特征与所述音素编码之间的相关性。
50、一种可能的实现方式中,所述装置还包括:
51、第四获取单元,用于获取第四样本文本和所述第四样本文本对应的第四样本语音,并确定所述第四样本文本对应的第四样本音素;
52、第三提取单元,用于将所述第四样本语音输入所述韵律特征提取模型,提取出所述第四样本语音对应的样本韵律特征;并将所述第四样本语音输入所述声学特征提取模型,提取出所述第四样本语音对应的样本声学特征;
53、第四训练单元,用于根据所述第四样本文本、所述第四样本音素、所述样本韵律特征、所述样本声学特征、所述第四样本语音和第四目标函数对初始语音合成模型进行训练,生成所述语音合成模型。
54、一种可能的实现方式中,所述装置还包括:
55、第五获取单元,用于获取验证文本和所述验证文本对应的验证语音,并确定所述验证文本对应的验证音素;
56、第二预测单元,用于将所述验证文本和所述验证音素输入至所述语音合成模型,预测得到所述验证文本的验证语音合成结果;
57、更新单元,用于当所述验证文本的验证语音合成结果与所述验证文本对应的验证语音不一致时,将所述验证文本重新作为所述第四样本文本,对所述语音合成模型进行更新。
58、一种可能的实现方式中,所述第一预测单元包括:
59、输入子单元,用于将所述目标文本和所述目标音素输入至预先构建的语音合成模型,提取所述目标文本的文本编码特征;
60、预测子单元,用于根据所述目标文本的文本编码特征进行韵律特征预测,得到所述目标文本对应的韵律特征;
61、合成子单元,用于根据所述目标文本的文本编码特征和所述韵律特征进行声学特征预测,得到所述目标文本对应的声学特征,并利用所述声学特征合成所述目标文本对应的语音。
62、本技术实施例还提供了一种语音合成设备,包括:处理器、存储器、系统总线;
63、所述处理器以及所述存储器通过所述系统总线相连;
64、所述存储器用于存储一个或多个程序,所述一个或多个程序包括指令,所述指令当被所述处理器执行时使所述处理器执行上述语音合成方法中的任意一种实现方式。
65、本技术实施例还提供了一种计算机可读存储介质,所述计算机可读存储介质中存储有指令,当所述指令在终端设备上运行时,使得所述终端设备执行上述语音合成方法中的任意一种实现方式。
66、本技术实施例还提供了一种计算机程序产品,所述计算机程序产品在终端设备上运行时,使得所述终端设备执行上述语音合成方法中的任意一种实现方式。
67、本技术实施例提供的一种语音合成方法、装置、存储介质及设备,首先获取待合成的目标文本,并确定目标文本对应的目标音素,然后将目标文本和目标音素输入至预先构建的语音合成模型,预测得到目标文本的语音合成结果,其中,语音合成模型是利用文本、音素和语音数据进行跨模态预训练得到的。可见,由于本技术是先基于文本、语音和音素三种模态数据构建了语音合成模型,有效提升了模型的数据利用率和鲁棒性,从而在利用该语音合成模型对目标文本进行语音合成时,可以有效提高合成结果的准确率,进而提高合成效果。
本文地址:https://www.jishuxx.com/zhuanli/20240618/24394.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表