技术新讯 > 乐器声学设备的制造及制作,分析技术 > 音频合成模型的训练方法、音频合成方法及装置与流程  >  正文

音频合成模型的训练方法、音频合成方法及装置与流程

  • 国知局
  • 2024-06-21 11:26:02

本申请涉及音频处理,尤其涉及一种音频合成模型的训练方法、音频合成方法及装置。

背景技术:

1、随着多媒体及人工智能技术的不断发展,音频处理是当前的主要研究方向之一。音频合成又是音频处理的一个重要部分,其中,音频合成是将音频特征合成为人耳可听的音频。由于模型具有强大的学习能力,因此基于模型进行音频合成是当前音频合成的主要方式。然而,当前用于进行音频合成的模型往往忽略了音频信号的周期性特征,因而合成的音频会偶现听觉异常、失真等现象,即存在合成音频的质量不佳等问题。

技术实现思路

1、本申请提供了一种音频合成模型的训练方法、音频合成方法及装置,以提升音频合成模型的精度,从而提升合成音频的音质。

2、第一方面,本申请实施例提供了一种音频合成模型的训练方法,包括:

3、若确定n个第一样本音频满足音高变换条件,则对所述n个样本音频进行音高变换处理,得到待训练的n个第二样本音频;所述n为大于1的整数,所述n个第二样本音频的音高范围大于所述n个第一样本音频的音高范围;

4、提取所述n个第二样本音频的音频特征,并将所述n个第二样本音频的音频特征输入待训练的生成对抗网络模型,得到n个合成音频以及每个所述合成音频的音频特征;

5、基于所述n个第二样本音频的音频特征和所述n个合成音频的音频特征,确定第一损失和第二损失;所述第一损失包括音高损失、发音损失、相位损失和高频加权损失中的至少一个;所述第二损失包括对抗生成损失、中间特征损失和梅尔损失;

6、根据所述第一损失和所述第二损失确定目标损失,并根据所述目标损失对所述待训练的对抗生成网络进行训练,在所述目标损失满足训练结束条件的情况下,将当前训练周期的所述待训练的对抗生成网络模型确定为音频合成模型;所述音频合成模型用于对输入的音频特征进行合成处理,得到合成音频。

7、可以看出,本申请实施例中,当确定n个第一样本音频满足音高变换条件时,对n个第一样本音频进行音高变换处理,得到待训练的n个第二样本音频;提取n个第二样本音频的音频特征并输入待训练的生成对抗网络模型,得到n个合成音频以及每个合成音频的音频特征;基于n个第二样本音频的音频特征和n个合成音频的音频特征,确定第一损失和第二损失;根据第一损失和第二损失确定目标损失,并根据目标损失对待训练的对抗生成网络进行训练;以及,在目标损失满足训练结束条件的情况下,将当前训练周期的待训练的对抗生成网络模型确定为音频合成模型;其中,n个第二样本音频的音高范围大于n个第一样本音频的音高范围;第一损失包括音高损失、发音损失、相位损失和高频加权损失中的至少一个。该训练方式中,通过对n个第一样本音频进行音高变换处理,得到音高范围更大的第二样本音频,并将第二样本音频的音频特征输入待训练的生成对抗网络模型,使得模型在训练过程中可以学习到更大的频带范围,提升在极高频带和极低频带上的音频合成效果,从而提升模型的泛化能力和精度,进而提升合成音频的音质。再者,基于与音频周期性特点相关的音高损失、发音损失、相位损失和高频加权损失中的至少一个,确定目标损失,能够基于音频信号的周期性特点,在模型训练过程中进行有效监督,从而提升模型对周期性音频信号的合成能力,进而提升合成音频的音质。

8、第二方面,本申请实施例提供了一种音频合成方法,包括:

9、获取待合成的音频特征;

10、将所述音频特征输入音频合成模型中进行音频合成处理,得到合成音频;所述音频合成模型是根据第一方面所述的训练方法训练得到。

11、可以看出,本申请实施例中,在获取到待合成的音频特征时,将音频特征输入音频合成模型中进行音频合成处理,得到目标音频。由于音频合成处理所使用的音频合成模型在训练过程中,对满足音高变换条件的n个第一样本音频进行了音高变换处理,并将得到的音高范围更大的第二样本音频的音频特征输入待训练的生成对抗网络模型中,因此使得模型在训练过程中可以学习到更大的频带范围,提升在极高频带和极低频带上的音频合成效果,从而提升了模型的泛化能力和精度。并且是基于与音频周期性特点相关的音高损失、发音损失、相位损失和高频加权损失中的至少一个,确定目标损失,因此,能够基于音频信号的周期性特点,在模型训练过程中进行有效监督,从而提升模型对周期性音频信号的合成能力。进而,基于该精度高、合成能力好的音频合成模型进行音频合成处理,极大的提升了得到的合成音频的音质。

12、第三方面,本申请实施例提供了一种音频合成模型的训练装置,包括:

13、变换模块,用于若确定n个第一样本音频满足音高变换条件,则对所述n个第一样本音频进行音高变换处理,得到待训练的n个第二样本音频;所述n为大于1的整数,所述n个第二样本音频的音高范围大于所述n个第一样本音频的音高范围;

14、提取模块,用于提取所述n个第二样本音频的音频特征,并将所述n个第二样本音频的音频特征输入待训练的生成对抗网络模型,得到n个合成音频以及每个所述合成音频的音频特征;

15、确定模块,用于基于所述n个第二样本音频的音频特征和所述n个合成音频的音频特征,确定第一损失和第二损失;所述第一损失包括音高损失、发音损失、相位损失和高频加权损失中的至少一个;所述第二损失包括对抗生成损失、中间特征损失和梅尔损失;

16、训练模块,用于根据所述第一损失和所述第二损失确定目标损失,并根据所述目标损失对所述待训练的对抗生成网络进行训练,在所述目标损失满足训练结束条件的情况下,将当前训练周期的所述待训练的对抗生成网络模型确定为音频合成模型;所述音频合成模型用于对输入的音频特征进行合成处理,得到合成音频。

17、第四方面,本申请实施例提供了一种音频合成装置,包括:

18、获取模块,用于获取待合成的音频特征;

19、生成模块,用于将所述音频特征输入音频合成模型中进行音频合成处理,得到合成音频;所述音频合成模型是根据前述第一方面所述的训练方法训练得到。

20、第五方面,本申请实施例提供了一种电子设备,包括:

21、处理器;以及,被安排成存储计算机可执行指令的存储器,所述可执行指令被配置由所述处理器执行,所述可执行指令包括用于执行上述第一方面提供的音频合成模型的训练方法中的步骤,或者所述可执行指令包括用于执行上述第二方面提供的音频合成方法中的步骤。

22、第六方面,本申请实施例提供了一种存储介质,所述存储介质用于存储计算机可执行指令,所述可执行指令使得计算机执行上述第一方面提供的音频合成模型的训练方法中的步骤,或者所述可执行指令使得计算机执行上述第二方面提供的音频合成方法中的步骤。

技术特征:

1.一种音频合成模型的训练方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述n个第二样本音频的音频特征包括第一梅尔频谱,所述生成对抗网络模型包括生成器和判别器;所述将所述n个第二样本音频的音频特征输入待训练的生成对抗网络模型,得到n个合成音频以及每个所述合成音频的音频特征,包括:

3.根据权利要求2所述的方法,其特征在于,所述基于所述n个第二样本音频的音频特征和所述n个合成音频的音频特征,确定第一损失和第二损失,包括:

4.根据权利要求3所述的方法,其特征在于,所述第一损失包括所述音高损失,所述第二样本音频的音频特征包括第一音高特征;所述从所述n个第二样本音频的音频特征和所述n个合成音频的音频特征中,获取与所述第一损失相匹配的第一目标音频特征包括:

5.根据权利要求3所述的方法,其特征在于,所述判别器包括多周期判别器,所述n个第二样本音频的音频特征及所述n个合成音频的音频特征包括周期特征;所述第一目标损失包括所述高频加权损失,所述高频加权损失包括梅尔频谱高频加权损失、相位谱高频加权损失和周期特征高频加权损失中的至少一个;

6.根据权利要求1所述的方法,其特征在于,所述对所述n个第一样本音频进行音高变换处理,得到待训练的n个第二样本音频,包括:

7.根据权利要求6所述的方法,其特征在于,所述确定所述n个第一样本音频中待进行音高变换处理的目标第一样本音频,包括:

8.根据权利要求2所述的方法,其特征在于,所述n个第二样本音频的音频特征和所述n个合成音频的音频特征包括周期特征和尺度特征,所述根据所述第一损失和所述第二损失确定目标损失之前,所述方法还包括:

9.根据权利要求3所述的方法,其特征在于,所述从所述n个第二样本音频的音频特征和所述n个合成音频的音频特征中,获取与所述第一损失和所述第二损失相匹配的目标音频特征,包括:

10.一种音频合成方法,其特征在于,包括:

11.一种音频合成模型的训练装置,其特征在于,包括:

12.一种音频合成装置,其特征在于,包括:

13.一种电子设备,其特征在于,包括:

14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储计算机可执行指令,所述可执行指令使得计算机执行如1-9任一项所述的音频合成模型的训练方法,或者所述可执行指令使得计算机执行如权利要求10所述的音频合成方法。

技术总结本申请实施例提供了一种音频合成模型的训练方法、音频合成方法及装置,其中训练方法包括:若确定N个第一样本音频满足音高变换条件,则对第一样本音频进行音高变换处理,得到第二样本音频;提取第二样本音频的音频特征并输入待训练的生成对抗网络模型,得到N个合成音频以及合成音频的音频特征;基于第二样本音频和合成音频的音频特征,确定第一损失和第二损失;根据第一损失和第二损失确定目标损失,在目标损失满足训练结束条件时,将当前训练周期的对抗生成网络模型确定为音频合成模型;第一损失包括音高损失、发音损失、相位损失和高频加权损失中的至少一个。通过本申请实施例,提升了音频合成模型的精度,进而提升了合成音频的音质。技术研发人员:乔宏利,刘敏,夏粉,蒋宁,吴海英受保护的技术使用者:马上消费金融股份有限公司技术研发日:技术公布日:2024/2/6

本文地址:https://www.jishuxx.com/zhuanli/20240618/21497.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。