语音合成方法、装置、设备及介质与流程
- 国知局
- 2024-06-21 11:56:34
本发明涉及人工智能领域,尤其涉及一种语音合成方法、装置、设备及存储介质。
背景技术:
1、随着人工智能技术的发展及智能语音交互技术的广泛使用,语音合成技术也随之发展,语音合成指的是将任意输入的文本转换成相应语音的技术。例如,在金融领域中,语音合成相当于智能客服的“嘴巴”,通过智能客服能够对银行客户进行催收外呼及银行业务推广外呼,可以更好的维护客户并实现业务的迅速推广。
2、现有的语音合成方法是根据声学语料库将待合成的语音文本转化为语音。但是,这种方法需要提供符合语音合成要求的参考语音。在金融领域中,声学语料库的样本数量不够,因此,在模型训练时需要耗费大量时间调节合成语音的信息,使得智能客服的语音合成效率较低,且调节合成语音时的智能客服人声效果较差,使得智能客服的语音合成准确率较低;另一方面,由于普通的声学语料库中包含大量与风格提示无关的词元信息,这些词元作为噪声影响了金融领域中智能客服的语音合成效果。
技术实现思路
1、本发明提供一种语音合成方法、装置、设备及存储介质,其主要目的是提高金融领域中智能客服的语音合成效率、准确率及效果。
2、为实现上述目的,本发明提供了一种语音合成方法,包括:
3、获取待合成的语音文本集、语音风格文本集及训练完成的语音合成模型,其中,所述语音合成模型包括风格编码层、内容编码层及语音解码层;
4、利用所述风格编码层对所述语音风格文本集进行特征提取,得到风格文本特征集;
5、利用所述内容编码层对所述语音文本集进行特征提取,得到语音文本特征集,并对所述语音文本特征集进行音素编码,得到语音音素序列,将所述语音音素序列与所述风格文本特征集进行编码,得到混合特征集,提取所述混合特征集的音高特征集、能量特征集及时长特征集;
6、利用所述语音解码层将所述音高特征集、所述能量特征集及所述时长特征集转化为所述语音音素序列的梅尔频谱;
7、将所述梅尔频谱进行音频转换,得到所述语音文本集的合成语音。
8、可选地,所述利用所述风格编码层对所述语音风格文本集进行特征提取,得到风格文本特征集,包括:
9、利用所述风格编码层中情绪网络对所述语音风格文本集进行情绪分类,得到风格情绪特征集;
10、利用所述风格编码层中响度网络对所述语音风格文本集进行响度分类,得到风格响度特征集;
11、利用所述风格编码层中性别网络对所述语音风格文本集进行性别分类,得到风格性别特征集;
12、将所述风格情绪特征集、所述风格响度特征集及所述风格性别特征集进行拼接,得到所述风格文本特征集。
13、可选地,所述提取所述混合特征集的音高特征集、能量特征集及时长特征集,包括:
14、利用所述内容编码层中的方差适配网络对所述混合特征集进行音素的持续时长预测,得到所述语音音素序列的时长特征集;
15、获取所述混合特征集中人声的每个音素对应的能量参数,并计算所述能量参数的平均值,得到所述语音音素序列的能量特征集;
16、获取所述混合特征集中人声的每个音素对应的音高参数,并计算所述音高参数的平均值,得到所述语音音素序列的音高特征集。
17、可选地,所述利用所述语音解码层将所述音高特征集、所述能量特征集及所述时长特征集转化为所述语音音素序列的梅尔频谱,包括:
18、利用所述解码层对所述音高特征集、所述能量特征集及所述时长特征集进行联合采样,得到联合特征集;
19、对所述联合特征集进行傅里叶变换,得到帧频谱;
20、对所述帧频谱进行梅尔滤波操作,得到所述语音音素序列的梅尔频谱。
21、可选地,所述将所述梅尔频谱进行音频转换,得到所述语音文本集的合成语音,包括:
22、利用预设的声码器对所述梅尔频谱进行并行语音波形转换,得到目标语音波形;
23、对所述目标语音波形进行音频转换,得到合成语音。
24、可选地,所述对所述语音文本特征集进行音素编码,得到语音音素序列,包括:
25、对所述语音文本特征集进行语种分析,确定所述语音文本特征集的语种类别;
26、根据所述语种类别对所述语音文本特征集进行语句切分处理,得到切分文本集;
27、提取所述切分文本集中的单词集,根据预设的音素映射词典将所述单词集进行映射,得到所述语音音素序列。
28、为了解决上述问题,本发明还提供一种语音合成装置,所述装置包括:
29、数据获取模块,用于获取待合成的语音文本集、语音风格文本集及训练完成的语音合成模型,其中,所述语音合成模型包括:风格编码层、内容编码层及语音解码层;
30、风格特征提取模块,用于利用所述风格编码层对所述语音风格文本集进行特征提取,得到风格文本特征集;
31、内容特征提取模块,用于利用所述内容编码层对所述语音文本集进行特征提取,得到语音文本特征集,并对所述语音文本特征集进行音素编码,得到语音音素序列,将所述语音音素序列与所述风格文本特征集进行编码,得到混合特征集,提取所述混合特征集的音高特征集、能量特征集及时长特征集;
32、解码模块,用于利用所述语音解码层将所述音高特征集、所述能量特征集及所述时长特征集转化为所述语音音素序列的梅尔频谱;
33、音频转换模块,用于将所述梅尔频谱进行音频转换,得到所述语音文本集的合成语音。
34、为了解决上述问题,本发明还提供一种电子设备,所述电子设备包括:
35、存储器,存储至少一个计算机程序;及
36、处理器,执行所述存储器中存储的计算机程序以实现上述所述的语音合成方法。
37、为了解决上述问题,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一个计算机程序,所述至少一个计算机程序被电子设备中的处理器执行以实现上述所述的语音合成方法。
38、本发明实施例中,通过利用语音合成风格编码层对语音合成语音风格文本集进行特征提取,得到风格文本特征集,能够剔除与风格提示文本无关的风格提示词,准确从人声性别、响度及情绪三个维度提取风格文本特征,提高后续智能客服的语音合成效果;其次,通过内容编码层提取语音文本集特征,对该特征进行音素转换,并将语音音素序列与风格文本特征集进行编码,得到混合特征集,提取混合特征集的音高特征集、能量特征集及时长特征集,能够实现基于语音风格需求自动调节待合成智能客服人声的音高、时长及能量,以提高智能客服的语音合成效率及准确性;最后,通过语音解码层对将人声特征转化为梅尔频谱,并将梅尔频谱进行音频转换,得到合成语音,无需耗费大量时间调节合成语音的信息,提高了智能客服语音合成效率。因此本发明实施例提出的语音合成方法、装置、设备及存储介质可以提高金融领域中智能客服的语音合成效率、准确率及效果。
技术特征:1.一种语音合成方法,其特征在于,所述方法包括:
2.如权利要求1所述的语音合成方法,其特征在于,所述利用所述风格编码层对所述语音风格文本集进行特征提取,得到风格文本特征集,包括:
3.如权利要求1所述的语音合成方法,其特征在于,所述提取所述混合特征集的音高特征集、能量特征集及时长特征集,包括:
4.如权利要求1所述的语音合成方法,其特征在于,所述利用所述语音解码层将所述音高特征集、所述能量特征集及所述时长特征集转化为所述语音音素序列的梅尔频谱,包括:
5.如权利要求1-4中任一项所述的语音合成方法,其特征在于,所述将所述梅尔频谱进行音频转换,得到所述语音文本集的合成语音,包括:
6.如权利要求1-4中任一项所述的语音合成方法,其特征在于,所述对所述语音文本特征集进行音素编码,得到语音音素序列,包括:
7.一种语音合成装置,其特征在于,所述装置包括:
8.如权利要求7所述的语音合成装置,其特征在于,所述风格特征提取模块具体用于:
9.一种电子设备,其特征在于,所述电子设备包括:
10.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述的语音合成方法。
技术总结本发明涉及金融领域的人工智能技术,揭露一种语音合成方法、装置、设备以及介质,可用于金融产品在业务推广时对目标用户进行智能客服外呼。所述方法包括:获取语音文本集、语音风格文本集及语音合成模型;利用语音合成模型提取语音风格文本集的风格文本特征集;提取语音文本集的语音文本特征集,并对语音文本特征集进行音素编码,得到语音音素序列,将语音音素序列与风格文本特征集进行编码,得到混合特征集,提取混合特征集的音高特征集、能量特征集及时长特征集;将音高特征集、能量特征集及时长特征集转化为语音音素序列的梅尔频谱;将梅尔频谱进行音频转换,得到语音文本集的合成语音。本发明可以提高语音合成的效率、准确率及效果。技术研发人员:张旭龙,王健宗,程宁,季圣鹏受保护的技术使用者:平安科技(深圳)有限公司技术研发日:技术公布日:2024/6/5本文地址:https://www.jishuxx.com/zhuanli/20240618/24623.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表