技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种音频合成方法、音频装置、设备及存储介质与流程  >  正文

一种音频合成方法、音频装置、设备及存储介质与流程

  • 国知局
  • 2024-06-21 10:38:24

本申请涉及,具体涉及一种音频合成方法、音频装置、设备及存储介质。

背景技术:

1、现有技术中,通过语音合成软件来实现人工智能(artificial intelligence,ai)合成语音。语音合成软件合成语音的步骤包括:将需要输出语音的文本输入语音合成软件,通过语音合成软件内配置的文本解析方式进行文本的解析以获取解析内容,并通过语音合成软件内配置的语音音色以获取音色,最后对解析内容和音色进行合成以获取语音合成结果,并对语音合成结果进行输出。

2、现有技术中的语音合成软件合成语音的缺点如下:

3、(1)每个语音合成软件内配置的语音音色为固定的,因此在最终生成语音合成结果时,只能选择该语音合成软件所指定的音色来生成语音,局限性较大;

4、(2)由于配置的文本解析方式和语音音色均在语音合成之前配置完成,因此在语音合成过程中无法干涉其生成结果,因此只能合成指定的语音,适用性较小。因此,如何解决现有的语音合成软件的缺点是目前亟待解决的问题。

技术实现思路

1、鉴于此,本申请提供一种音频合成方法、音频装置、设备及存储介质,以解决现有的语音合成软件只能合成指定的语音、局限性较大、适用性较小的问题。

2、本申请提供一种音频合成方法,包括步骤:

3、配置软件并在所述软件上训练模型以获取音频处理模型和音频合成输出模型;

4、对输入音频进行预处理以获取模型输入特征,并将所述模型输入特征输入所述音频处理模型;

5、所述音频处理模型对所述模型输入特征进行转换操作以获取第一语音特征,对所述第一语音特征进行编码调整操作以获取第二语音特征,并将所述第二语音特征输入所述音频合成输出模型;

6、所述音频合成输出模型对所述第二语音特征进行合成输出操作以获取音频波形。

7、可选地,所述音频处理模型包括tacotron 2模型,所述音频合成输出模型包括waveglow模型。

8、可选地,对输入音频进行预处理以获取模型输入特征的步骤包括:

9、设置前处理函数,所述前处理函数对所述输入音频依次进行文本解析操作和语义解析操作以获取所述模型输入特征。

10、可选地,所述第一语音特征包括音色、音调和音波。

11、可选地,对所述第一语音特征进行编码调整操作以获取第二语音特征的步骤包括:

12、对所述第一语音特征进行编码操作以获取第一编码,对所述第一编码进行调整操作以获取第二编码,对所述第二编码进行解码操作以获取所述第二语音特征,其中,所述第二语音特征包括梅尔频谱特征。

13、本申请还提供一种音频装置,包括:

14、建立模型模块,用于配置软件并在所述软件上训练模型以获取音频处理模型和音频合成输出模型;

15、预处理模块,用于对输入音频进行预处理以获取模型输入特征,并将所述模型输入特征输入所述音频处理模型;

16、编码调整模块,用于控制所述音频处理模型对所述模型输入特征进行转换操作以获取第一语音特征,并对所述第一语音特征进行编码调整操作以获取第二语音特征,并将所述第二语音特征输入所述音频合成输出模型;

17、音频合成模块,用于控制所述音频合成输出模型对所述第二语音特征进行合成输出操作以获取音频波形。

18、可选地,所述编码调整模块包括:

19、编码单元,用于对所述第一语音特征进行编码操作以获取第一编码;

20、调整单元,用于对所述第一编码进行调整操作以获取第二编码;

21、解码单元,用于对所述第二编码进行解码操作以获取所述第二语音特征,其中,所述第二语音特征包括梅尔频谱特征。

22、可选地,所述音频装置还包括存储模块,用于存储所述音频波形。

23、本申请还提供一种设备,包括存储器和处理器,所述存储器内存储有程序,当所述程序被所述处理器执行时实现所述音频合成方法。

24、本申请还提供一种存储介质,所述存储介质中存储有程序,当所述程序被处理器执行时实现所述音频合成方法。

25、本申请的音频合成方法、音频装置、设备及存储介质的有益效果在于:

26、通过配置软件并在所述软件上训练模型以获取音频处理模型和音频合成输出模型,以便于后续对文本进行解析和语音的合成;通过对输入音频进行预处理以获取模型输入特征以使其能顺利进入音频处理模型;通过所述音频处理模型对所述模型输入特征进行转换操作以获取第一语音特征,并对所述第一语音特征进行编码调整操作以获取第二语音特征,并将所述第二语音特征输入所述音频合成输出模型,编码调整操作可以调整合成语音过程中的语音特征,即可调整合成语音的音色、音调或音波中的一种或多种,从而提高了语音合成方法合成语音的适用性,即可以合成多种音色、音调和音波的语音,合成语音局限性小,适用性广;解决了现有的语音合成软件只能合成指定的语音、局限性较大、适用性较小的问题。

技术特征:

1.一种音频合成方法,其特征在于,包括步骤:

2.如权利要求1所述的音频合成方法,其特征在于,所述音频处理模型包括tacotron 2模型,所述音频合成输出模型包括waveglow模型。

3.如权利要求2所述的音频合成方法,其特征在于,对输入音频进行预处理以获取模型输入特征的步骤包括:

4.如权利要求1所述的音频合成方法,其特征在于,所述第一语音特征包括音色、音调和音波。

5.如权利要求2所述的音频合成方法,其特征在于,对所述第一语音特征进行编码调整操作以获取第二语音特征的步骤包括:

6.一种音频装置,其特征在于,包括:

7.如权利要求6所述的音频装置,其特征在于,所述编码调整模块包括:

8.如权利要求6所述的音频装置,其特征在于,还包括存储模块,用于存储所述音频波形。

9.一种设备,其特征在于,包括存储器和处理器,所述存储器内存储有程序,当所述程序被所述处理器执行时实现如权利要求1至5任意一项所述的音频合成方法。

10.一种存储介质,其特征在于,所述存储介质中存储有程序,当所述程序被处理器执行时实现如权利要求1至5任意一项所述的音频合成方法。

技术总结本申请公开一种音频合成方法、音频装置、设备及存储介质,本申请的音频合成方法通过配置软件并在软件上训练模型以获取音频处理模型和音频合成输出模型,以便于后续对音频和文本进行解析和语音的合成;通过对输入音频进行预处理以获取模型输入特征以使其能顺利进入音频处理模型;通过音频处理模型对模型输入特征进行转换操作以获取第一语音特征,并对第一语音特征进行编码调整操作以获取第二语音特征,编码调整操作可以调整合成语音过程中的语音特征,即可调整合成语音的音色、音调或音波中的一种或多种,从而提高了语音合成方法合成语音的适用性,即可以合成多种音色、音调和音波的语音,合成语音局限性小,适用性广。技术研发人员:张维受保护的技术使用者:爱集微咨询(厦门)有限公司技术研发日:技术公布日:2024/1/15

本文地址:https://www.jishuxx.com/zhuanli/20240618/20858.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。