音频合成模型的训练方法、音频合成方法及装置与流程
- 国知局
- 2024-06-21 11:26:30
本技术涉及音频处理,尤其涉及一种音频合成模型的训练方法、音频合成方法及装置。
背景技术:
1、tts(text to speech,文本到语音)文本语音合成系统是常见的音频处理系统之一,该系统包括文本预处理模块、声学模型和声码器。其中,文本预处理模块用于对文本进行预处理,声学模型用于将预处理后的文本转换为声学特征,声码器用于根据声学模型转换的声学特征合成人耳可听的音频。然而,目前的声码器合成的音频会偶现听觉异常、失真等现象,因此,如何提升声码器合成的音频的质量是急需解决的技术问题。
技术实现思路
1、本技术提供了一种音频合成模型的训练方法、音频合成方法及装置,以提升音频合成模型的精度,从而提升合成音频的音质。
2、第一方面,本技术实施例提供了一种音频合成模型的训练方法,包括:
3、对n个样本音频进行第一特征提取处理,得到n个第一音频特征;
4、将所述n个样本音频和所述n个第一音频特征输入待训练的生成对抗网络模型,得到n个合成音频,以及每个所述样本音频的第二音频特征和每个所述合成音频的第三音频特征,所述第二音频特征为和所述第一音频特征种类不相同的音频特征;
5、从所述样本音频、所述合成音频、所述第二音频特征和所述第三音频特征中,获取与所述待训练的生成对抗网络模型的目标损失函数相匹配的目标音频特征组,并根据所述目标损失函数计算所述目标音频特征组对应的目标损失;所述目标音频特征组中包括从所述样本音频或所述第二音频特征中提取出的第一目标音频特征,以及从所述合成音频或所述第三音频特征中提取的与所述第一目标音频特征相对应的第二目标音频特征;所述目标损失包括所述第一目标音频特征和所述第二目标音频特征的相似度损失和/或不相似度损失,所述相似度损失包括时域相似度损失和频域相似度损失中的至少一个,所述不相似度损失包括时域不相似度损失和频域不相似度损失中的至少一个;
6、在所述目标损失满足训练结束条件的情况下,将当前训练周期的所述待训练的生成对抗网络模型确定为音频合成模型;所述音频合成模型用于对输入的第一音频特征进行合成处理,得到合成音频。
7、可以看出,本技术实施例中,通过将n个样本音频及n个样本音频的第一音频特征输入待训练的生成对抗网络模型,得到n个合成音频,以及每个样本音频的第二音频特征和每个合成音频的第三音频特征;并从样本音频、合成音频、第二音频特征和第三音频特征中,获取与待训练的生成对抗网络模型的目标损失函数相匹配的目标音频特征组,根据目标损失函数计算每个目标音频特征组对应的目标损失;以及在目标损失满足训练结束条件的情况下,将当前训练周期的待训练的生成对抗网络模型确定为音频合成模型;其中,目标损失包括相似度损失和/或不相似度损失,相似度损失包括时域相似度损失和频域相似度损失中的至少一个,不相似度损失包括时域不相似度损失和频域不相似度损失中的至少一个。该训练方式中,由于目标损失包括与音频周期性特点相关的时域相似度损失、频域相似度损失、时域不相似度损失及频域不相似度损失中的至少一个,因此,能够基于音频信号的周期性特点,在模型训练过程中进行有效监督,使得模型能够学习到音频信号在时频域上的分布特点,从而使模型得到的合成音频的音频信号在时频域上的分布,更贴近样本音频的音频信号在时频域上的分布,避免合成音频的高频失真以及相位断裂等问题;也就是说,提升了模型对周期性音频信号的合成能力,进而提升了合成音频的音质。
8、第二方面,本技术实施例提供了一种音频合成方法,包括:
9、获取待合成的第一音频特征;
10、将所述第一音频特征输入音频合成模型中进行音频合成处理,得到目标音频;所述音频合成模型是根据前述第一方面提供的训练方法训练得到。
11、可以看出,本技术实施例中,在获取到待合成的第一音频特征时,将第一音频特征输入音频合成模型中进行音频合成处理,得到目标音频。由于音频合成处理所使用的音频合成模型在训练过程中,目标损失包括时域相似度损失、频域相似度损失、时域不相似度损失及频域不相似度损失中的至少一个,因此,能够基于音频信号的周期性特点,在模型训练过程中进行有效监督,使得模型能够学习到音频信号在时频域上的分布特点,从而使模型得到的合成音频的音频信号在时频域上的分布,更贴近真实音频的音频信号在时频域上的分布,避免了合成音频的高频失真以及相位断裂等问题,即提升了模型对周期性音频信号的合成能力。进而,基于该合成能力好的音频合成模型进行音频合成处理,极大的提升了合成音频的音质。
12、第三方面,本技术实施例提供了一种音频合成模型的训练装置,包括:
13、提取模块,用于对n个样本音频进行第一特征提取处理,得到n个第一音频特征;
14、训练模块,用于将所述n个样本音频和所述n个第一音频特征输入待训练的生成对抗网络模型,得到n个合成音频,以及每个所述样本音频的第二音频特征和每个所述合成音频的第三音频特征,所述第二音频特征为和所述第一音频特征种类不相同的音频特征;
15、获取模块,用于从所述样本音频、所述合成音频、所述第二音频特征和所述第三音频特征中,获取与所述待训练的生成对抗网络模型的目标损失函数相匹配的目标音频特征组,并根据所述目标损失函数计算所述目标音频特征组对应的目标损失;所述目标音频特征组中包括从所述样本音频或所述第二音频特征中提取出的第一目标音频特征,以及从所述合成音频或所述第三音频特征中提取的与所述第一目标音频特征相对应的第二目标音频特征;所述目标损失包括所述第一目标音频特征和所述第二目标音频特征的相似度损失和/或不相似度损失,所述相似度损失包括时域相似度损失和频域相似度损失中的至少一个,所述不相似度损失包括时域不相似度损失和频域不相似度损失中的至少一个;
16、确定模块,用于在所述目标损失满足训练结束条件的情况下,将当前训练周期的所述待训练的生成对抗网络模型确定为音频合成模型;所述音频合成模型用于对输入的第一音频特征进行合成处理,得到合成音频。
17、第四方面,本技术实施例提供了一种音频合成装置,包括:
18、获取模块,用于获取待合成的第一音频特征;
19、合成模块,用于将所述第一音频特征输入音频合成模型中进行音频合成处理,得到合成音频;所述音频合成模型是根据权前述第一方面提供的训练方法训练得到。
20、第五方面,本技术实施例提供了一种电子设备,包括:
21、处理器;以及,被安排成存储计算机可执行指令的存储器,所述可执行指令被配置由所述处理器执行,所述可执行指令包括用于执行上述第一方面提供的音频合成模型的训练方法中的步骤,或者所述可执行指令包括用于执行上述第二方面提供的音频合成方法中的步骤。
22、第六方面,本技术实施例提供了一种存储介质,所述存储介质用于存储计算机可执行指令,所述可执行指令使得计算机执行上述第一方面提供的音频合成模型的训练方法中的步骤,或者所述可执行指令使得计算机执行上述第二方面提供的音频合成方法中的步骤。
本文地址:https://www.jishuxx.com/zhuanli/20240618/21545.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表