语音合成方法、装置、计算机设备和存储介质与流程
- 国知局
- 2024-06-21 11:36:46
本技术涉及人工智能,特别是涉及一种语音合成方法、装置、计算机设备、存储介质和计算机程序产品。
背景技术:
1、富有表现力的语音合成系统是目前语音合成领域中比较活跃的方向,它和单纯的语音合成系统的区别是,它更关注合成声音的风格、情感、韵律等等,在金融领域的自动客服中应用广泛。
2、经过韵律特征调整的拼接波形语音合成系统,在拼接语音波形片段之前,可以根据上下文的要求,方便地控制语音信号的韵律参数,对拼接单元的韵律特征进行调整,使合成波形既保持了原始发音的主要音段特征,又能使拼接单元的韵律特征符合上下文的要求,从而获得与传统未经过韵律特征调整的拼接波形语音合成系统相比更高的清晰度和自然度。
3、然而经过韵律特征调整的拼接波形语音合成系统也有明显的缺点,不同说话人情感表达差异也会影响合成情感语音的自然度,降低了语音合成的质量。
技术实现思路
1、基于此,有必要针对上述技术问题,提供一种能够提升合成语音自然度的语音合成方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。
2、第一方面,本技术提供了一种语音合成方法。所述方法包括:
3、获取第一语音数据库和第二语音数据库;所述第一语音数据库包括至少两个说话对象的携带目标情感分类标签的语音数据库;所述第二语音数据库包括目标说话对象的携带所述目标情感分类标签的语音数据库;
4、根据所述第一语音数据库和所述第二语音数据库构建基元模型,并在问题集的指导下对所述基元模型进行训练,得到初始模型库;所述初始模型库包括训练好的各所述基元模型;
5、对所述初始模型库中的所述基元模型进行自适应训练,得到所述至少两个说话对象对应的均音模型;
6、采用所述第二语音数据库中的目标说话对象的情感语料信息,对所述均音模型中的说话对象进行自适应变换,得到目标语音合成模型;所述目标语音合成模型用于生成与待合成语音文本对应的目标语音音频。
7、在其中一个实施例中,所述根据所述第一语音数据库和所述第二语音数据库构建基元模型,包括:
8、对所述第一语音数据库中的语音文件进行声学参数提取,得到声学参数提取结果;
9、对所述第二语音数据库中的文本文件进行文本分析,得到目标标注文件;所述目标标注文件包括包含音素信息的单音素标注文件和包含上下文语境信息的上下文标注文件;
10、根据所述声学参数提取结果和所述目标标注文件构建所述基元模型。
11、在其中一个实施例中,所述在问题集的指导下对所述基元模型进行训练,得到初始模型库,包括:
12、在语音库问题集的指导下,利用决策树对所述基元模型进行聚类,得到聚类后的所述基元模型;
13、汇所述总聚类后的所述基元模型,得到所述初始模型库。
14、在其中一个实施例中,所述对所述初始模型库中的所述基元模型进行自适应训练,得到所述至少两个说话对象对应的均音模型,包括:
15、采用约束最大似然线性回归算法,对目标声学参数进行表征;所述目标声学参数包括基频参数、频谱参数和时长参数;
16、对所述目标声学参数的状态输出分布和时长分布进行估计和建模,得到所述均音模型。
17、在其中一个实施例中,所述对所述均音模型中的说话对象进行自适应变换,得到目标语音合成模型,包括:
18、获取参数变换预备信息;所述参数变换预备信息包括说话对象的状态输出分布均值、时长分布均值和状态输出分布协方差矩阵、时长分布协方差矩阵;
19、利用说话对象的所述参数变换预备信息,将所述均音模型中的基频、频谱和时长参数变换为目标特征参数;
20、根据所述目标特征参数确定所述目标语音合成模型。
21、在其中一个实施例中,所述方法还包括:
22、根据所述目标标注文件,利用决策树从所述目标语音合成模型中筛选出目标模型,并将筛选出所述目标模型并拼接生成语句模型;
23、根据所述语句模型确定与所述待合成语音文本对应的所述目标语音音频。
24、在其中一个实施例中,所述对所述均音模型中的说话对象进行自适应变换,得到目标语音合成模型,包括:
25、对所述均音模型中的说话对象进行自适应变换,得到自适应模型;
26、采用最大后验概率对所述自适应模型进行修正和更新,得到所述目标语音合成模型。
27、第二方面,本技术还提供了一种语音合成装置。所述装置包括:
28、语音数据库获取模块,用于获取第一语音数据库和第二语音数据库;所述第一语音数据库包括至少两个说话对象的携带目标情感分类标签的语音数据库;所述第二语音数据库包括目标说话对象的携带所述目标情感分类标签的语音数据库;
29、基元模型构建模块,用于根据所述第一语音数据库和所述第二语音数据库构建基元模型,并在问题集的指导下对所述基元模型进行训练,得到初始模型库;所述初始模型库包括训练好的各所述基元模型;
30、自适应训练模块,用于对所述初始模型库中的所述基元模型进行自适应训练,得到所述至少两个说话对象对应的均音模型;
31、自适应变换模块,用于采用所述第二语音数据库中的目标说话对象的情感语料信息,对所述均音模型中的说话对象进行自适应变换,得到目标语音合成模型;所述目标语音合成模型用于生成与待合成语音文本对应的目标语音音频。
32、第三方面,本技术还提供了一种计算机设备。所述计算机设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:
33、获取第一语音数据库和第二语音数据库;所述第一语音数据库包括至少两个说话对象的携带目标情感分类标签的语音数据库;所述第二语音数据库包括目标说话对象的携带所述目标情感分类标签的语音数据库;
34、根据所述第一语音数据库和所述第二语音数据库构建基元模型,并在问题集的指导下对所述基元模型进行训练,得到初始模型库;所述初始模型库包括训练好的各所述基元模型;
35、对所述初始模型库中的所述基元模型进行自适应训练,得到所述至少两个说话对象对应的均音模型;
36、采用所述第二语音数据库中的目标说话对象的情感语料信息,对所述均音模型中的说话对象进行自适应变换,得到目标语音合成模型;所述目标语音合成模型用于生成与待合成语音文本对应的目标语音音频。
37、第四方面,本技术还提供了一种计算机可读存储介质。所述计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:
38、获取第一语音数据库和第二语音数据库;所述第一语音数据库包括至少两个说话对象的携带目标情感分类标签的语音数据库;所述第二语音数据库包括目标说话对象的携带所述目标情感分类标签的语音数据库;
39、根据所述第一语音数据库和所述第二语音数据库构建基元模型,并在问题集的指导下对所述基元模型进行训练,得到初始模型库;所述初始模型库包括训练好的各所述基元模型;
40、对所述初始模型库中的所述基元模型进行自适应训练,得到所述至少两个说话对象对应的均音模型;
41、采用所述第二语音数据库中的目标说话对象的情感语料信息,对所述均音模型中的说话对象进行自适应变换,得到目标语音合成模型;所述目标语音合成模型用于生成与待合成语音文本对应的目标语音音频。
42、第五方面,本技术还提供了一种计算机程序产品。所述计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:
43、获取第一语音数据库和第二语音数据库;所述第一语音数据库包括至少两个说话对象的携带目标情感分类标签的语音数据库;所述第二语音数据库包括目标说话对象的携带所述目标情感分类标签的语音数据库;
44、根据所述第一语音数据库和所述第二语音数据库构建基元模型,并在问题集的指导下对所述基元模型进行训练,得到初始模型库;所述初始模型库包括训练好的各所述基元模型;
45、对所述初始模型库中的所述基元模型进行自适应训练,得到所述至少两个说话对象对应的均音模型;
46、采用所述第二语音数据库中的目标说话对象的情感语料信息,对所述均音模型中的说话对象进行自适应变换,得到目标语音合成模型;所述目标语音合成模型用于生成与待合成语音文本对应的目标语音音频。
47、上述语音合成方法、装置、计算机设备、存储介质和计算机程序产品,首先获取第一语音数据库和第二语音数据库,然后根据第一语音数据库和第二语音数据库构建基元模型,并在问题集的指导下对基元模型进行训练,得到初始模型库,进而对初始模型库中的基元模型进行自适应训练,得到至少两个说话对象对应的均音模型,最后采用第二语音数据库中的目标说话对象的情感语料信息,对均音模型中的说话对象进行自适应变换,得到目标语音合成模型,可以减小语音库中说话人的差异所造成的影响,提高合成语音的情感相似度,在均音模型的基础上,通过说话人自适应变换算法,只用少量的待合成的情感语料,提升合成语音的自然度、流利度、情感相似度,从而提升合成语音的质量。
本文地址:https://www.jishuxx.com/zhuanli/20240618/22407.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表