一种文本转语音方法及模型训练方法、装置和电子设备与流程
- 国知局
- 2024-06-21 11:39:32
本公开涉及计算机,尤其涉及一种文本转语音方法及模型训练方法、装置和电子设备。
背景技术:
1、情感语音合成模型可以根据文字生成带有情感的语音输出,与传统的语音合成模型(text to speech,tts)不同,情感语音合成模型可以根据文本的情感色彩自动调整声音的音调、速度、韵律和语气等特征,以产生更加自然、生动和情感丰富的语音输出。这种技术可以用于自动化客户服务、虚拟主持人、有声读物等应用程序中,以提高用户体验和情感交互效果。
2、在合成某种特定音色的情感语音时,会先通过的情感语音合成模型(tts)生成带有情感的语音,再利用语音转换技术(voice conversion,vc)对语音的音色进行转换,得到特定音色的具备情感的语音,也即,通过串联tts和vc来得到特定音色的情感语音。这就需要在线上同时运行两个模型系统,导致线上计算负载较大,耗费较高的计算资源。
技术实现思路
1、本公开提出了一种文本转语音技术方案。
2、根据本公开的一方面,提供了一种情感语音合成模型的训练方法,包括:
3、将样本文本输入情感语音合成模型,得到初始音色的第一语音,所述第一语音具备目标语音情感;
4、利用语音转换模型对第一语音进行语音转换,得到目标音色的第二语音;
5、基于所述样本文本和所述第二语音构成的训练数据,对情感语音合成模型进行训练,使得训练后的情感语音合成模型能够根据文本生成目标音色的第三语音,所述第三语音具备目标语音情感。
6、在一种可能的实现方式中,所述利用语音转换模型对第一语音进行语音转换,得到目标音色的第二语音,包括:
7、基于目标音色的样本数据对语音转换模型进行训练,得到能够将任意音频转换为目标音色的音频的语音转换模型。
8、在一种可能的实现方式中,在将样本文本输入情感语音合成模型,得到具备目标情感的初始音色的第一语音后,所述方法还包括:
9、将情感语音合成模型输出的第一语音作为输入的样本文本的标签,构建源域训练数据;
10、将所述源域训练数据中的第一语音替换为语音转换后的第二语音,得到目标域训练数据。
11、在一种可能的实现方式中,所述基于所述样本文本和所述第二语音构成的训练数据,对情感语音合成模型进行训练,包括:
12、将所述样本文本作为情感语音合成模型的输入,得到情感语音合成模型输出的合成语音;
13、根据所述合成语音和所述第二语音之间的损失,对情感语音合成模型的参数进行更新。
14、在一种可能的实现方式中,在将所述源域训练数据中的第一语音替换为语音转换后的第二语音,得到目标域训练数据后,所述方法还包括:
15、对所述第二语音进行语音识别,得到识别文本;
16、根据所述识别文本和所述样本文本之间的相似度,对所述样本文本的标签进行正确性校验。
17、在一种可能的实现方式中,所述根据所述识别文本和所述样本文本之间的相似度,对所述样本文本的标签进行正确性校验,包括:
18、在所述相似度大于相似度阈值的情况下,确定样本文本的标签正确;
19、在所述相似度不大于相似度阈值的情况下,确定样本文本的标签错误,删除目标域训练数据中的错误标签。
20、根据本公开的一方面,提供了一种文本转语音方法,包括:
21、将文本输入训练后的情感语音合成模型,得到具备目标情感的目标音色的语音,其中,所述情感语音合成模型基于本技术提供的情感语音合成模型的训练方法训练得到。
22、根据本公开的一方面,提供了一种情感语音合成模型的训练装置,包括:
23、第一语音合成单元,用于语音将样本文本输入情感语音合成模型,得到初始音色的第一语音,所述第一语音具备目标语音情感;
24、语音转换单元,用于利用语音转换模型对第一语音进行语音转换,得到目标音色的第二语音;
25、训练单元,用于基于所述样本文本和所述第二语音构成的训练数据,对情感语音合成模型进行训练,使得训练后的情感语音合成模型能够根据文本生成目标音色的第三语音,所述第三语音具备目标语音情感。
26、在一种可能的实现方式中,所述语音转换单元,用于基于目标音色的样本数据对语音转换模型进行训练,得到能够将任意音频转换为目标音色的音频的语音转换模型。
27、在一种可能的实现方式中,所述装置还包括:
28、源域训练数据构建单元,用于将情感语音合成模型输出的第一语音作为输入的样本文本的标签,构建源域训练数据;
29、目标域训练数据构建单元,用于将所述源域训练数据中的第一语音替换为语音转换后的第二语音,得到目标域训练数据。
30、在一种可能的实现方式中,所述训练单元,用于:
31、将所述样本文本作为情感语音合成模型的输入,得到情感语音合成模型输出的合成语音;
32、根据所述合成语音和所述第二语音之间的损失,对情感语音合成模型的参数进行更新。
33、在一种可能的实现方式中,所述装置还包括:
34、语音识别单元,用于对所述第二语音进行语音识别,得到识别文本;
35、正确性校验单元,用于根据所述识别文本和所述样本文本之间的相似度,对所述样本文本的标签进行正确性校验。
36、在一种可能的实现方式中,所述正确性校验单元,用于:
37、在所述相似度大于相似度阈值的情况下,确定样本文本的标签正确;
38、在所述相似度不大于相似度阈值的情况下,确定样本文本的标签错误,删除目标域训练数据中的错误标签。
39、根据本公开的一方面,提供了一种文本转语音装置,包括:
40、文本转语音单元,用于将文本输入训练后的情感语音合成模型,得到具备目标情感的目标音色的语音,其中,所述情感语音合成模型基于本技术提供的情感语音合成模型的训练装置训练得到。
41、根据本公开的一方面,提供了一种电子设备,包括:处理器;用于存储处理器可执行指令的存储器;其中,所述处理器被配置为调用所述存储器存储的指令,以执行上述方法。
42、根据本公开的一方面,提供了一种计算机可读存储介质,其上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现上述方法。
43、在本公开实施例中,通过将样本文本输入情感语音合成模型,得到初始音色的具备目标语音情感的第一语音;然后利用语音转换模型对第一语音进行语音转换,得到目标音色的第二语音;基于所述样本文本和所述第二语音构成的训练数据,对所述情感语音合成模型进行训练,使得训练后的情感语音合成模型能够根据文本生成目标音色的第三语音,所述第三语音具备目标语音情感。由此,通过在训练阶段利用情感语音合成模型和语音转换模型得到目标音色的训练数据,基于目标音色的训练数据来训练情感语音合成模型,那么,在线上合成目标音色的情感语音时,可以只部署情感语音合成模型,而无需部署语音转换模型,有效减少了情感语音合成时的线上计算负载,减少了对计算资源的消耗。
44、应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,而非限制本公开。根据下面参考附图对示例性实施例的详细说明,本公开的其它特征及方面将变得清楚。
本文地址:https://www.jishuxx.com/zhuanli/20240618/22723.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。