基于对比学习的语音合成模型训练方法、装置及合成方法
- 国知局
- 2024-06-21 10:39:54
本技术涉及语音合成领域,尤其涉及一种基于对比学习的语音合成模型训练方法、装置及合成方法。
背景技术:
1、近期在语音合成系统的进步已经使得生成高质量的语音成为可能,并已被应用于如智能客服助手和有声读物等领域。然而,这些系统在如人机交互等场景中仍然存在不足,无法生成与人类自然对话相匹配的韵律。心理学发现表明,当我们理解一个正在展开的句子时,我们的大脑会非常迅速地利用广泛的信息,包括之前所说的内容以及说话者是谁,以帮助我们理解正在对我们说的话。和人类相似,一些研究验证,在语音合成系统额外加入历史上下文信息,有助于提高韵律自然度。因此,对话语音合成系统尝试在理解历史的对话信息的基础上,生成更自然、贴近真实人类对话的语音。
2、然而,现有的对话语音合成系统普遍基于无监督的训练方式,对于历史语境没有得到有效的理解,因此如何有效建模上下文,让对话语音合成系统生成出适合上下文风格的语音仍然是一个尚未解决的问题。
技术实现思路
1、鉴于此,本技术实施例提供了一种基于对比学习的语音合成模型训练方法、装置及合成方法,以消除或改善现有技术中存在的一个或更多个缺陷。
2、本技术的第一个方面提供了一种基于对比学习的语音合成模型训练方法,该方法包括:
3、基于文本训练模型和对话人编码器分别得到历史样本集、正样本集和负样本集中的各个样本各自对应的文本嵌入向量,其中,所述历史样本集中的各个样本预先自一对话数据集中选取,所述正样本集中的各个样本预先自所述历史样本集中选取,所述负样本集预先根据所述正样本集中的各个样本选取;每个所述样本均包含有:对话文本、对话语音和对话人标识;基于语音训练模型和所述对话人编码器分别得到各个所述样本各自对应的语音嵌入向量;
4、基于预设的三元组损失函数分别计算所述历史样本集、正样本集和负样本集中的各个样本各自对应的文本嵌入向量之间的文本损失,以及所述历史样本集、正样本集和负样本集中的各个样本各自对应的语音嵌入向量之间的语音损失;
5、基于一目标对话文本、目标对话人标识、预先获取的韵律语言模型和预设的潜在韵律风格向量得到潜在韵律风格向量序列,其中,所述目标对话文本及目标对话人标识与一目标对话语音组成一目标样本,该目标样本预先自所述对话数据集中的历史样本集中的各个样本之后选取;
6、基于所述潜在韵律风格向量序列、目标对话文本和目标对话语音得到所述目标对话文本对应的目标合成语音;
7、基于所述目标对话文本、目标对话人标识、各个历史样本集中的样本和目标合成语音对预设的语音生成器进行训练,并在训练过程中,基于所述目标对话语音确定所述目标合成语音的损失,并基于该损失、所述文本损失和所述语音损失迭代训练所述语音生成器,以得到用于将对话文本转换为对话语音的语音合成模型。
8、在本技术的一些实施例中,所述基于文本训练模型和对话人编码器分别得到历史样本集、正样本集和负样本集中的各个样本各自对应的文本嵌入向量,包括:
9、将各个所述样本中的对话文本输入所述文本训练模型中,输出得到各个所述对话文本各自对应的对话文本向量;
10、将各个所述样本中的对话人标识输入所述对话人编码器,输出得到各个所述对话人标识各自对应的对话人标识向量;
11、将各个所述对话文本向量与各自对应的对话人标识向量进行拼接得到各个所述对话文本各自对应的文本嵌入向量。
12、在本技术的一些实施例中,所述基于语音训练模型和所述对话人编码器分别得到各个所述样本各自对应的语音嵌入向量,包括:
13、将各个所述样本中的对话语音输入预先获取的语音训练模型中,输出得到各个所述对话语音各自对应的对话语音向量;
14、将各个所述样本中的对话人标识输入所述对话人编码器,输出得到各个所述对话人标识各自对应的对话人标识向量;
15、将各个所述对话语音向量与各自对应的对话人标识向量进行拼接,得到各个所述对话语音各自对应的语音嵌入向量。
16、在本技术的一些实施例中,所述基于一目标对话文本、目标对话人标识、预先获取的韵律语言模型和预设的潜在韵律风格向量得到潜在韵律风格向量序列,包括:
17、将所述目标对话文本输入所述韵律语言模型以得到目标对话韵律向量;
18、将所述潜在韵律风格向量输入预设的注意力机制模块以得到目标潜在韵律风格向量;
19、将所述目标对话韵律向量、目标潜在韵律风格向量和目标对话人标识进行相加及归一化后得到所述潜在韵律风格向量序列。
20、在本技术的一些实施例中,所述基于所述潜在韵律风格向量序列、目标对话文本和目标对话语音得到所述目标对话文本对应的目标合成语音,包括:
21、基于音素转换器将所述目标对话文本转换为对应的音素序列;
22、将各个所述历史对话文本向量和历史语音向量,以及所述音素序列和潜在韵律风格向量序列输入文本编码器中以得到目标文本嵌入序列;
23、将所述目标文本嵌入序列输入线性映射层以得到语音分布序列;
24、基于单调对齐搜索算法、解码器和声码器得到所述语音分布序列对应的目标合成语音。
25、在本技术的一些实施例中,所述基于单调对齐搜索算法、解码器和声码器得到所述语音分布序列对应的目标合成语音,包括:
26、将所述目标对话语音转化为梅尔频谱;
27、基于损失单调对齐搜索算法将所述语音分布序列扩展为与所述梅尔频谱长度相同的梅尔嵌入向量序列;
28、将所述目标对话人标识输入对话人编码器以得到目标说话人嵌入向量;
29、将所述梅尔嵌入向量序列和目标说话人嵌入向量输入解码器中以得到目标梅尔频谱;
30、将所述目标梅尔频谱输入损失声码器中以得到所述目标合成语音。
31、本技术的第二个方面还提供了一种基于对比学习的语音合成方法,该方法包括:
32、从当前多人对话数据记录中确定待合成对话文本,以及该待合成对话文本的对话人标识;
33、将所述待合成对话文本和对话人标识输入第一方面所述的基于对比学习的语音合成模型训练方法训练得到的语音合成模型,以输出得到该待合成对话文本对应的合成语音。
34、本技术的第三个方面提供了一种基于对比学习的语音合成模型训练装置,该装置包括:
35、样本编码模块,用于基于文本训练模型和对话人编码器分别得到历史样本集、正样本集和负样本集中的各个样本各自对应的文本嵌入向量,其中,所述历史样本集中的各个样本预先自一对话数据集中选取,所述正样本集中的各个样本预先自所述历史样本集中选取,所述负样本集预先根据所述正样本集中的各个样本选取;每个所述样本均包含有:对话文本、对话语音和对话人标识;基于语音训练模型和所述对话人编码器分别得到各个所述样本各自对应的语音嵌入向量;
36、损失计算模块,用于基于预设的三元组损失函数分别计算所述历史样本集、正样本集和负样本集中的各个样本各自对应的文本嵌入向量之间的文本损失,以及所述历史样本集、正样本集和负样本集中的各个样本各自对应的语音嵌入向量之间的语音损失;
37、韵律计算模块,用于基于一目标对话文本、目标对话人标识、预先获取的韵律语言模型和预设的潜在韵律风格向量得到潜在韵律风格向量序列,其中,所述目标对话文本及目标对话人标识与一目标对话语音组成一目标样本,该目标样本预先自所述对话数据集中的历史样本集中的各个样本之后选取;
38、语音合成模块,用于基于所述潜在韵律风格向量序列、目标对话文本和目标对话语音得到所述目标对话文本对应的目标合成语音;
39、模型训练模块,用于基于所述目标对话文本、目标对话人标识、各个历史样本集中的样本和目标合成语音对预设的语音生成器进行训练,并在训练过程中,基于所述目标对话语音确定所述目标合成语音的损失,并基于该损失、所述文本损失和所述语音损失迭代训练所述语音生成器,以得到用于将对话文本转换为对话语音的语音合成模型。
40、本技术的第四个方面提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现前述的第一方面所述的基于对比学习的语音合成模型训练方法,或者,实现前述的第二方面上述基于对比学习的语音合成方法。
41、本技术的第五个方面提供了一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现前述的第一方面所述的基于对比学习的语音合成模型训练方法,或者,实现前述的第二方面上述基于对比学习的语音合成方法。
42、本技术提供一种基于对比学习的语音合成模型训练方法、装置及合成方法,所述方法包括:基于文本训练模型和对话人编码器分别得到历史样本集、正样本集和负样本集中的各个样本各自对应的文本嵌入向量和语音嵌入向量;基于预设的三元组损失函数分别计算所述历史样本集、正样本集和负样本集中的各个样本之间的文本损失和语音损失;基于一目标对话文本、目标对话人标识、预先获取的韵律语言模型得到潜在韵律风格向量序列,进而得到目标合成语音;最后基于目标对话文本、目标对话人标识、各个样本和目标合成语音对预设的语音生成器进行训练,得到语音合成模型。本技术能够有效提高模拟语音的真实性,进而提高用户在如人机对话等具体应用场景的用户体验。
43、本技术的附加优点、目的,以及特征将在下面的描述中将部分地加以阐述,且将对于本领域普通技术人员在研究下文后部分地变得明显,或者可以根据本技术的实践而获知。本技术的目的和其它优点可以通过在说明书以及附图中具体指出的结构实现到并获得。
44、本领域技术人员将会理解的是,能够用本技术实现的目的和优点不限于以上具体所述,并且根据以下详细说明将更清楚地理解本技术能够实现的上述和其他目的。
本文地址:https://www.jishuxx.com/zhuanli/20240618/21058.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表