语音转换方法、装置、设备及存储介质与流程
- 国知局
- 2024-06-21 10:40:16
本发明涉及人工智能技术,尤其涉及一种语音转换方法、装置、电子设备及存储介质。
背景技术:
1、在金融保险客服领域,为了提升用户的客服通话体验,可以将普通客服坐席音色转换为金牌客服坐席音色,即对普通客服的语音进行语音转换。
2、语音转换旨在将源说话人的语音音色转换为目标说话人的语音音色,同时保证语言内容不变。其主要思路是先解耦源说话人语音为内容信息和音色信息,再利用内容信息和目标说话人音色信息重构转换后的语音。
3、目前的语音转换主要基于变分自编码器模型,利用编码器直接解耦提取源说话人语音的内容特征,特征提取的维度单一,提取的内容特征不准确,导致重构转换后的转换语音的准确率较低。
技术实现思路
1、本发明提供一种语音转换方法、装置、电子设备及存储介质,其主要目的在于提高了语音转换的准确率。
2、获取待转换保险客服语音及目标转换语音标签;
3、利用预构建的语音转换模块中的编码器对所述待转换保险客服语音进行内容特征提取,得到初始内容特征,其中,所述语音转换模块基于变分自编码器构建;
4、基于所述待转换保险客服语音,利用预构建的内容特征增强模块对所述初始内容特征进行特征增强,得到目标内容特征,其中,所述内容特征增强模块包含:波形语言模型、残差块、流模型;
5、提取所述目标转换语音标签的音色特征,得到转换音色特征;
6、基于所述目标内容特征与所述转换音色特征,利用所述语音转换模块中的解码器进行语音映射,得到转换语音。
7、可选地,所述利用预构建的语音转换模块中的编码器对所述待转换保险客服语音进行内容特征提取,得到初始内容特征,包括:
8、对所述待转换保险客服语音进行数模转换,得到待转换语音信号;
9、将所述待转换语音信号预加重,并对预加重后的待转换语音信号进行分帧加窗,得到多个待转换语音帧;
10、将所有所述待转换语音帧输入所述语音转换模块中的编码器,得到所述初始内容特征。
11、可选地,所述利用预构建的内容特征增强模块对所述初始内容特征进行特征增强,得到目标内容特征,包括:
12、利用所述波形语言模型对所述待转换保险客服语音进行特征提取,得到增强语音特征;
13、利用所述残差块对所述增强语音特征进行残差映射,得到映射特征;
14、计算所述映射特征的特征均值及特征方差;
15、利用所述流模型将所述初始内容特征映射为以所述特征均值及所述特征方差作为分布参数的高斯分布,得到所述目标内容特征。
16、可选地,所述利用所述波形语言模型对所述待转换保险客服语音进行特征提取,得到增强语音特征,包括:
17、对所述待转换语音信号进行预加重滤波,得到目标待转换语音信号;
18、将所述目标待转换语音信号输入所述波形语言模型,得到所述增强语音特征。
19、可选地,所述提取所述目标转换语音标签的音色特征,得到转换音色特征,包括:
20、对所述目标转换语音标签进行数模转换,得到标签语音信号;
21、对所述标签语音信号预加重,并对预加重后的标签语音信号进行分帧加窗,得到多个标签语音帧;
22、对每个所述标签语音帧进行快速傅里叶变换,得到每个所述标签语音帧的频谱;
23、基于所述频谱计算每个所述标签语音帧的功率谱;
24、将每个所述功率谱映射到梅尔频率尺度,得到对应的梅尔功率谱;
25、利用预设的多个三角形滤波器组对所述梅尔功率谱进行滤波,并对每个所述三角形滤波器组内的能量进行积分,得到梅尔滤波器组能量;
26、对所述梅尔滤波器组能量取对数,得到对应的梅尔倒谱;
27、对所有所述梅尔倒谱进行离散余弦变换,得到梅尔倒谱系数,提取所述梅尔倒谱系数中预设系数范围的系数构建为向量形式,得到初始音色特征向量;
28、对所述初始音色特征向量进行均值归一化,得到所述转换音色特征。
29、可选地,所述基于所述频谱计算每个所述标签语音帧的功率谱,包括:
30、计算每个所述标签语音帧的频谱的平方或绝对值,得到每个所述标签语音帧的功率谱。
31、可选地,所述内容特征增强模块由所述波形语言模型、所述残差块及所述流模型依次串联得到。
32、为了解决上述问题,本发明还提供一种语音转换装置,所述装置包括:
33、内容特征增强模块,用于获取待转换保险客服语音及目标转换语音标签;利用预构建的语音转换模块中的编码器对所述待转换保险客服语音进行内容特征提取,得到初始内容特征,其中,所述语音转换模块基于变分自编码器构建;基于所述待转换保险客服语音,利用预构建的内容特征增强模块对所述初始内容特征进行特征增强,得到目标内容特征,其中,所述内容特征增强模块包含:波形语言模型、残差块、流模型;
34、音色特征提取模块,用于提取所述目标转换语音标签的音色特征,得到转换音色特征;
35、语音映射模块,用于基于所述目标内容特征与所述转换音色特征,利用所述语音转换模块中的解码器进行语音映射,得到转换语音。
36、为了解决上述问题,本发明还提供一种电子设备,所述电子设备包括:
37、存储器,存储至少一个计算机程序;及
38、处理器,执行所述存储器中存储的计算机程序以实现上述所述的语音转换方法。
39、为了解决上述问题,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一个计算机程序,所述至少一个计算机程序被电子设备中的处理器执行以实现上述所述的语音转换方法。
40、本发明实施例利用预构建的语音转换模块中的编码器对所述待转换保险客服语音进行内容特征提取,得到初始内容特征;基于所述待转换保险客服语音,利用预构建的内容特征增强模块对所述初始内容特征进行特征增强,得到目标内容特征,对编码器提取的内容特征进行二次的特征解耦增强,与只用编码器进行内容特征提取特征提取的维度更加多元,内容提取的更加准确,进而提高语音转换的准确率,因此本发明实施例提出的语音转换方法、装置、电子设备及可读存储介质提高了语音转换的效率。
技术特征:1.一种语音转换方法,其特征在于,所述方法包括:
2.如权利要求1所述的语音转换方法,其特征在于,所述利用预构建的语音转换模块中的编码器对所述待转换保险客服语音进行内容特征提取,得到初始内容特征,包括:
3.如权利要求2中所述的语音转换方法,其特征在于,所述利用预构建的内容特征增强模块对所述初始内容特征进行特征增强,得到目标内容特征,包括:
4.如权利要求2所述的语音转换方法,其特征在于,所述利用所述波形语言模型对所述待转换保险客服语音进行特征提取,得到增强语音特征,包括:
5.如权利要求1所述的语音转换方法,其特征在于,所述提取所述目标转换语音标签的音色特征,得到转换音色特征,包括:
6.如权利要求5所述的语音转换方法,其特征在于,所述基于所述频谱计算每个所述标签语音帧的功率谱,包括:
7.如权利要求1至6中任意一项所述的语音转换方法,其特征在于,所述内容特征增强模块由所述波形语言模型、所述残差块及所述流模型依次串联得到。
8.一种语音转换装置,其特征在于,包括:
9.一种电子设备,其特征在于,所述电子设备包括:
10.一种计算机可读存储介质,存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的语音转换方法。
技术总结本发明涉及人工智能技术,揭露一种语音转换方法,可用于金融保险客服领域客服语音的语音转换,包括:获取待转换保险客服语音及目标转换语音标签;利用预构建的语音转换模块中的编码器对所述待转换保险客服语音进行内容特征提取,得到初始内容特征;基于所述待转换保险客服语音,利用预构建的内容特征增强模块对所述初始内容特征进行特征增强,得到目标内容特征;提取所述目标转换语音标签的音色特征,得到转换音色特征;基于所述目标内容特征与所述转换音色特征,利用所述语音转换模块中的解码器进行语音映射,得到转换语音。本发明还提出一种语音转换装置、设备以及介质。本发明可以提高了语音转换的准确率。技术研发人员:郭洋,王健宗,程宁受保护的技术使用者:平安科技(上海)有限公司技术研发日:技术公布日:2024/1/22本文地址:https://www.jishuxx.com/zhuanli/20240618/21078.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。