技术新讯 > 乐器声学设备的制造及制作,分析技术 > 基于标准化流的音频生成方法、装置、设备及存储介质与流程  >  正文

基于标准化流的音频生成方法、装置、设备及存储介质与流程

  • 国知局
  • 2024-06-21 11:36:49

本发明涉及深度学习,尤其涉及一种基于标准化流的音频生成方法、装置、计算机设备及存储介质。

背景技术:

1、近年来,随着人工智能技术的不断发展,越来越多的智能化场景需要应用到音频生成技术。

2、目前常见的用于音频生成的生成式模型框架有生成式对抗网络(gan:generativeadversarial network)、标准化流模型(nf:normalizing flow)等等,其中,标准化流模型由于常使用仿射耦合层(affine coupling layer),运算过程中需要对数据进行维度分解(dimensional partition)。因此在处理维度低的数据,尤其一维的音频波形点时,需要对数据进行维度压缩操作:通过将每n个点组成一个n维的向量,使一个维度为1、长度为t的原始数据,压缩为维度为n、长度t/n的序列。但这种周期性的操作使得生成的音频有明显的周期性噪声,导致生成音频的质量较低。

3、因此,基于标准化流模型的语音生成模型生成的音频存在质量较低的问题。

技术实现思路

1、本发明实施例提供一种基于标准化流的音频生成方法、装置、计算机设备及存储介质,以解决基于标准化流模型的语音生成模型生成的音频存在质量较低的问题。

2、一种基于标准化流的音频生成方法,所述方法包括:

3、对标准高斯分布进行随机采样,得到第一变量向量;

4、将所述第一变量向量输入到音频生成模型中的先验网络进行逆变换,得到第一隐变量向量;

5、将所述第一隐变量向量输入到音频生成模型中的降噪解码器进行解码,得到音频数据。

6、上述方法,可选的,所述音频生成模型通过如下方式训练得到:

7、获取到训练所需的样本音频;

8、对所述样本音频添加随机高斯噪声,得到噪声音频样本;

9、将所述噪声音频样本分别输入到待训练的所述音频生成模型的第一网络结构和第二网络结构进行训练,得到训练完成的所述音频生成模型。

10、上述方法,可选的,所述将所述噪声音频样本分别输入到待训练的所述音频生成模型的第一网络结构和第二网络结构进行训练,得到训练完成的所述音频生成模型,包括:

11、将所述噪声音频样本输入到所述第一网络结构,得到第二变量向量;

12、根据所述第二变量向量,计算得到第一损失值;

13、将所述噪声音频样本输入到所述第二网络结构,得到还原音频;

14、根据所述还原音频和所述样本音频,计算得到第二损失值;

15、在所述第一损失值和所述第二损失值满足模型训练条件时,得到训练完成的所述音频生成模型。

16、上述方法,可选的,所述第一网络结构包括降噪编码器和所述先验网络;

17、所述将所述噪声音频样本输入到所述第一网络结构,得到第二变量向量,包括:

18、将所述噪声音频样本输入到所述降噪编码器,得到第二隐变量向量;

19、将所述第二隐变量向量输入到待训练的所述先验网络进行正变换,得到第二变量向量。

20、上述方法,可选的,所述第二网络结构包括降噪编码器和所述降噪解码器;

21、所述将所述噪声音频样本输入到所述第二网络结构,得到还原音频,包括:

22、将所述噪声音频样本输入到降噪编码器,得到第二隐变量向量;

23、将所述第二隐变量向量输入到待训练的所述降噪解码器进行解码,得到还原音频。

24、上述方法,可选的,所述降噪编码器采用双向的自回归流模型结构。

25、上述方法,可选的,所述先验网络采用体积不变的流结构。

26、一种基于标准化流的音频生成装置,所述装置包括:

27、采样单元,用于对标准高斯分布进行随机采样,得到第一变量向量;

28、逆变换单元,用于将所述第一变量向量输入到音频生成模型中的先验网络进行逆变换,得到第一隐变量向量;

29、解码单元,用于将所述第一隐变量向量输入到音频生成模型中的降噪解码器进行解码,得到音频数据。

30、一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述任一项所述基于标准化流的音频生成方法。

31、一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现如上述任一项所述基于标准化流的音频生成方法。

32、上述基于标准化流的音频生成方法、装置、计算机设备及存储介质,通过标准高斯分布采样得到第一变量向量,然后通过先验网络对第一变量向量进行逆变换,得到第一隐变量向量,再通过降噪解码器将第一隐变量向量解码为音频数据。可见,虽然先验网络需要对第一变量向量进行压缩操作,得到存在周期性噪声的第一隐变量向量,但通过降噪解码器,能有效的中和这部分噪声,最终生成清晰无噪声的高质量音频数据,可以达到提高音频质量的目的。

技术特征:

1.一种基于标准化流的音频生成方法,其特征在于,所述方法包括:

2.如权利要求1所述的基于标准化流的音频生成方法,其特征在于,所述音频生成模型通过如下方式训练得到:

3.如权利要求2所述的基于标准化流的音频生成方法,其特征在于,所述将所述噪声音频样本分别输入到待训练的所述音频生成模型的第一网络结构和第二网络结构进行训练,得到训练完成的所述音频生成模型,包括:

4.如权利要求3所述的基于标准化流的音频生成方法,其特征在于,所述第一网络结构包括降噪编码器和所述先验网络;

5.如权利要求3所述的基于标准化流的音频生成方法,其特征在于,所述第二网络结构包括降噪编码器和所述降噪解码器;

6.如权利要求1-5任一所述的基于标准化流的音频生成方法,其特征在于,所述降噪编码器采用双向的自回归流模型结构。

7.如权利要求1-5任一所述的基于标准化流的音频生成方法,其特征在于,所述先验网络采用体积不变的流结构。

8.一种基于标准化流的音频生成装置,其特征在于,所述装置包括:

9.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至7任一项所述基于标准化流的音频生成方法。

10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述基于标准化流的音频生成方法。

技术总结本发明涉及深度学习技术领域,公开了一种基于标准化流的音频生成方法、装置、计算机设备及存储介质,包括:对标准高斯分布进行随机采样,得到第一变量向量;将所述第一变量向量输入到音频生成模型中的先验网络进行逆变换,得到第一隐变量向量;将所述第一隐变量向量输入到音频生成模型中的降噪解码器进行解码,得到音频数据。可见,虽然先验网络需要对第一变量向量进行压缩操作,得到存在周期性噪声的第一隐变量向量,但通过降噪解码器,能有效的中和这部分噪声,最终生成清晰无噪声的高质量音频数据,可以达到提高音频质量的目的。技术研发人员:朱清影,缪陈峰,陈闽川,马骏,王少军,肖京受保护的技术使用者:平安科技(深圳)有限公司技术研发日:技术公布日:2024/3/17

本文地址:https://www.jishuxx.com/zhuanli/20240618/22417.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。