一种语音合成方法和系统与流程
- 国知局
- 2024-06-21 11:27:20
本申请涉及语音合成,尤其涉及一种语音合成方法和系统。
背景技术:
1、语音合成系统是一种用于将文本信息转换为声音信息的系统。语音合成系统通过文本分析、语音合成和音频处理等技术,将输入的文本转化成自然流畅的语音并输出,实现人机交互。
2、目前的语音合成系统采用一次性将所有的文本转化成语音后输出的方式。即,用户在问完问题后需要等待一段时间,直到语音合成系统将所有的文本处理完成后,一次性输出全部的语音(称为非流式语音),用户才能得到回复。在一些场景中,用户在与语音合成系统交互的过程中,需要实时听到正在合成的语音(称为流式语音)。
3、然而,目前的语音合成系统无法生成流式语音。
技术实现思路
1、本申请提供了一种语音合成方法和系统,能够实现流式语音的输出,以及流式语音和非流式语音之间的切换。
2、第一方面,提供了一种语音合成方法,包括:
3、将输入文本转换成音素序列;
4、使用编码器对音素序列进行特征提取,获取编码特征;
5、若输出流式语音,根据编码特征确定输入文本的每一片段的第一声学特征,使用声码器不断将每一片段的第一声学特征转换为语音波形;
6、若输出非流式语音,根据编码特征确定输入文本的完整的第二声学特征,使用声码器将完整的第二声学特征转换为语音波形。
7、在一种可行的设计中,若输出流式语音,根据编码特征确定输入文本的每一片段的第一声学特征,包括:
8、获取用户需求;
9、根据用户需求,确定使用自回归模型或非自回归模型,根据编码特征确定输入文本的每一片段的第一声学特征,其中,非自回归模型的第一结构被替换为第二结构,第一结构为基于全局信息计算输出向量的结构,第二结构为基于局部感受野计算输出向量的结构。
10、在一种可行的设计中,若使用非自回归模型,根据编码特征确定输入文本的每一片段的第一声学特征,包括:
11、对编码特征进行切片处理,获取至少一个编码特征切片;
12、对每一编码特征切片使用相邻的编码特征切片的部分特征进行填充处理,获取填充后的每一编码特征切片;
13、使用非自回归模型的解码器对填充后的每一编码特征切片进行解码,获取至少一个解码特征切片,至少一个解码特征切片构成输入文本的相应片段的第一声学特征。
14、在一种可行的设计中,在获取至少一个解码特征切片之后,方法还包括:
15、删除每一解码特征切片中填充部分对应的特征。
16、在一种可行的设计中,若使用自回归模型,自回归模型包括第一缓存结构和第二缓存结构,根据编码特征确定输入文本的每一片段的第一声学特征,包括:
17、使用自回归模型的解码器逐帧对编码特征进行解码,不断获取梅尔帧并存入第一缓存结构;
18、每在第一缓存结构新存储预设数量的梅尔帧后,将预设数量的梅尔帧确定为输入文本的相应片段的第一声学特征。
19、在一种可行的设计中,自回归模型还包括第一多层卷积网络。
20、在一种可行的设计中,每在第一缓存结构新存储预设数量的梅尔帧后,将预设数量的梅尔帧确定为输入文本的相应片段的第一声学特征,包括:
21、每在第一缓存结构新存储预设数量的梅尔帧后,对预设数量的梅尔帧中每一梅尔帧使用相邻的梅尔帧的部分特征进行填充处理,获取填充后的每一梅尔帧;
22、将填充后的每一梅尔帧依次输入第一多层卷积网络;
23、将第一多层卷积网络依次输出的梅尔帧存储于第二缓存结构;
24、每在第二缓存结构新存储预设数量的梅尔帧后,将预设数量的梅尔帧确定为输入文本的相应片段的第一声学特征。
25、在一种可行的设计中,将第一多层卷积网络依次输出的梅尔帧存储于第二缓存结构,包括:
26、删除第一多层卷积网络依次输出的梅尔帧中填充部分对应的特征后,将每一梅尔帧存储于第二缓存结构。
27、在一种可行的设计中,第二结构包括至少一个一维卷积神经网络、一维批归一化层和修正线性单元。
28、第二方面,提供了一种语音合成系统,包括文本前端模块、至少一个声学模型和声码器,至少一个声学模型包括第一声学模型和第二声学模型;
29、文本前端模块用于将输入文本转换成音素序列;
30、第一声学模型或第二声学模型的编码器用于对音素序列进行特征提取,获取编码特征;
31、若输出流式语音,第一声学模型用于根据编码特征确定输入文本的每一片段的第一声学特征,声码器用于不断将每一片段的第一声学特征转换为语音波形;
32、若输出非流式语音,第二声学模型用于根据编码特征确定输入文本的完整的第二声学特征,声码器用于将完整的第二声学特征转换为语音波形。
33、输出非流式语音的优势在于输出的语音质量较高,缺点是需要等待一段时间才能听到语音输出。输出流式语音的优势在于,用户可以在语音合成的过程中,实时听到正在合成的语音,而不需要等待所有文本信息处理完毕后再输出全部语音。输出流式语音的速度较快,能够提高用户的使用体验。
34、输出流式语音的语音合成系统可应用于用户需要快速、准确地获取信息的场景。例如语音客服和语音导航等场景。此外,在人机对话和虚拟主播等场景中,语音合成系统通过自然、流畅的输出流式语音,能够提高人机交互的质量和效果。
35、基于此,本申请实施例通过对输出流式语音和输出非流式语音进行切换,增加语音合成系统可适用的场景。具体地,首先将输入文本转换成音素序列。使用编码器对音素序列进行特征提取,获取编码特征。若需要输出流式语音,根据编码特征确定输入文本的每一片段的第一声学特征,使用声码器不断将每一片段的所述第一声学特征转换为语音波形,从而实现流式语音的输出。若需要输出非流式语音,根据所述编码特征确定所述输入文本的完整的第二声学特征,使用声码器将完整的所述第二声学特征转换为语音波形。
36、另外,本申请输出流式语音的方案中,可以做到边合成边播放音频,从而对合成耗时有更大的容忍空间。使得应用本申请语音合成方法的语音合成系统能够在中央处理器(central processing unit,cpu)上运行,无需在图形处理器(graphics processingunit,gpu)上运行,能够节省gpu资源。
技术特征:1.一种语音合成方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,若输出流式语音,所述根据所述编码特征确定所述输入文本的每一片段的第一声学特征,包括:
3.根据权利要求2所述的方法,其特征在于,若使用非自回归模型,所述根据所述编码特征确定所述输入文本的每一片段的第一声学特征,包括:
4.根据权利要求3所述的方法,其特征在于,在获取至少一个解码特征切片之后,方法还包括:
5.根据权利要求2所述的方法,其特征在于,若使用自回归模型,所述自回归模型包括第一缓存结构和第二缓存结构,所述根据所述编码特征确定所述输入文本的每一片段的第一声学特征,包括:
6.根据权利要求5所述的方法,其特征在于,所述自回归模型还包括第一多层卷积网络。
7.根据权利要求6所述的方法,其特征在于,每在所述第一缓存结构新存储预设数量的所述梅尔帧后,将预设数量的所述梅尔帧确定为所述输入文本的相应片段的第一声学特征,包括:
8.根据权利要求7所述的方法,其特征在于,所述将所述第一多层卷积网络依次输出的所述梅尔帧存储于所述第二缓存结构,包括:
9.根据权利要求2所述的方法,其特征在于,所述第二结构包括至少一个一维卷积神经网络、一维批归一化层和修正线性单元。
10.一种语音合成系统,其特征在于,包括文本前端模块、至少一个声学模型和声码器,至少一个声学模型包括第一声学模型和第二声学模型;
技术总结本申请提供了一种语音合成方法和系统,方法包括:将输入文本转换成音素序列;使用编码器对所述音素序列进行特征提取,获取编码特征;若输出流式语音,根据所述编码特征确定所述输入文本的每一片段的第一声学特征,使用声码器不断将每一片段的所述第一声学特征转换为语音波形;若输出非流式语音,根据所述编码特征确定所述输入文本的完整的第二声学特征,使用声码器将完整的所述第二声学特征转换为语音波形。输出流式语音可应用于用户需要快速、准确地获取信息的场景,输出非流式语音适用于语音质量需求高的场景,基于此,本申请不仅能够实现流式语音的输出,还通过切换输出流式语音和非流式语音,增加语音合成系统可适用的场景。技术研发人员:姚树杰,赵言受保护的技术使用者:鼎富智能科技有限公司技术研发日:技术公布日:2024/2/8本文地址:https://www.jishuxx.com/zhuanli/20240618/21629.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表