技术新讯 > 乐器声学设备的制造及制作,分析技术 > 语音合成方法、系统、电子设备及介质与流程  >  正文

语音合成方法、系统、电子设备及介质与流程

  • 国知局
  • 2024-06-21 11:39:23

本申请属于语音处理,涉及一种语音合成方法、系统、电子设备及介质。

背景技术:

1、语音合成(text to speech),简称tts,通常是指处理文本输入并生成旨在模仿人类语音的输出语音。在语音合成技术中,主要分为语言分析部分和声学系统部分,也称为前端部分和后端部分,语言分析部分主要是根据输入的文字信息进行分析,生成对应的语言学规格书,想好该怎么读;声学系统部分主要是根据语音分析部分提供的语音学规格书,生成对应的音频,实现发声的功能。在声学系统部分,目前主要有有三种技术实现方式,分别为波形拼接,参数合成以及端到端的语音合成技术。但是,这些技术都存在缺点,例如通过端到端的语音合成技术合成的音频不能认为调优等。

技术实现思路

1、本申请提供一种语音合成方法、系统、电子设备及介质,用于解决现有技术缺少一种简单且自然的语音合成方法的技术问题。

2、第一方面,本申请提供一种语音合成方法,所述方法包括:输入文本内容以获取文本词元;获取参考语音以对所述参考语音进行编码获取语音嵌入数据;对所述语音嵌入数据进行特征转换以获取语音特征矩阵;基于所述文本词元和所述语音特征矩阵获取声学词元序列;基于所述文本词元、所述语音特征矩阵和所述声学词元序列获取声学特征以进行语音合成。

3、在第一方面的一种实现方式中,获取参考语音以对所述参考语音进行编码获取语音嵌入数据包括:基于语音编码器对所述参考语音进行特征抽取与采样,以获取语音嵌入数据。

4、在第一方面的一种实现方式中,所述语音编码器由两层卷积层和四个编码块串联构成;所述编码块由三层直连层和一层卷积层串联构成;所述直连层包括两层卷积层;所述卷积层为一维卷积。

5、在第一方面的一种实现方式中,对所述语音嵌入数据进行特征转换以获取语音特征矩阵包括:构建标签向量矩阵;将所述语音嵌入数据与所述标签向量矩阵作为所述转换模块的输入以获取余弦相似度计算结果;基于所述语音嵌入数据和所述余弦相似度计算结果的独热编码更新所述转换模块的输入,以获取多个所述余弦相似度计算结果;基于多个所述余弦相似度计算结果获取所述语音特征矩阵。

6、在第一方面的一种实现方式中,基于所述文本词元和所述语音特征矩阵获取声学词元序列包括:基于所述文本词元和所述语音特征矩阵获取解码模块的输入,以通过所述解码模块获取声学词元;基于所述声学词元更新所述解码模块的输入以获取多个所述声学词元;基于多个所述声学词元获取所述声学词元序列。

7、在第一方面的一种实现方式中,基于所述文本词元、所述语音特征矩阵和所述声学词元序列获取声学特征包括:基于所述文本词元、所述语音特征矩阵和所述声学词元序列获取编码模块的输入,以通过所述编码模块获取新的声学词元序列;基于所述新的声学词元序列更新所述编码模块的输入以获取多个所述声学词元序列;基于多个所述声学词元序列获取声学特征。

8、在第一方面的一种实现方式中,基于声学特征进行语音合成包括:基于所述语音解码器对所述声学特征进行采样以进行语音合成。

9、第二方面,本申请提供一种语音合成系统,包括第一获取模块,用于输入文本内容以获取文本词元;第二获取模块,用于获取参考语音以对所述参考语音进行编码获取语音嵌入数据;第三获取模块,用于对所述语音嵌入数据进行特征转换以获取语音特征矩阵;第四获取模块,用于基于所述文本词元和所述语音特征矩阵获取声学词元序列;第五获取模块,用于基于所述文本词元、所述语音特征矩阵和所述声学词元序列获取声学特征以进行语音合成。

10、第三方面,本申请提供一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现本申请第一方面所述的语音合成方法。

11、第四方面,本申请提供一种电子设备,包括:存储器,被配置为存储计算机程序;以及处理器,与所述存储器通信相连,所述处理器被配置为调用所述计算机程序以执行本申请第一方面所述的语音合成方法。

12、本申请所述的一种语音合成的方法、系统、电子设备及介质,具有以下有益效果:能够同时接受文本内容和参考语音,进行语音合成,合成后的语音说话内容为文本内容,风格为参考语音风格,包括说话风格、声音和环境。本申请有效降低了语音合成的难度,并且提高了合成语言的人化程度,情感真实且自然。

技术特征:

1.一种语音合成方法,其特征在于,包括:

2.根据权利要求1所述的语音合成方法,其特征在于,获取参考语音以对所述参考语音进行编码获取语音嵌入数据包括:

3.根据权利要求2所述的语音合成方法,其特征在于,所述语音编码器由两层卷积层和四个编码块串联构成;所述编码块由三层直连层和一层卷积层串联构成;所述直连层包括两层卷积层;所述卷积层为一维卷积。

4.根据权利要求1所述的语音合成方法,其特征在于,对所述语音嵌入数据进行特征转换以获取语音特征矩阵包括:

5.根据权利要求1所述的语音合成方法,其特征在于,基于所述文本词元和所述语音特征矩阵获取声学词元序列包括:

6.根据权利要求1所述的语音合成方法,其特征在于,基于所述文本词元、所述语音特征矩阵和所述声学词元序列获取声学特征包括:

7.根据权利要求1所述的语音合成方法,其特征在于,基于声学特征进行语音合成包括:

8.一种语音合成系统,其特征在于,包括:

9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于:该计算机程序被处理器执行时实现权利要求1至7中任一项所述的语音合成方法。

10.一种电子设备,其特征在于,所述电子设备包括:

技术总结本申请提供一种语音合成方法、系统、电子设备及介质,所述方法包括:输入文本内容以获取文本词元;获取参考语音以对所述参考语音进行编码获取语音嵌入数据;对所述语音嵌入数据进行特征转换以获取语音特征矩阵;基于所述文本词元和所述语音特征矩阵获取声学词元序列;基于所述文本词元、所述语音特征矩阵和所述声学词元序列获取声学特征以进行语音合成。本申请能够同时接受文本内容和参考语音,进行语音合成,合成后的语音说话内容为文本内容,风格为参考语音风格,包括说话风格、声音和环境。本申请有效降低了语音合成的难度,并且提高了合成语言的人化程度,情感真实且自然。技术研发人员:孔欧受保护的技术使用者:上海蜜度科技股份有限公司技术研发日:技术公布日:2024/3/27

本文地址:https://www.jishuxx.com/zhuanli/20240618/22704.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。