技术新讯 > 乐器声学设备的制造及制作,分析技术 > 音频多场景化加噪处理方法、装置、设备及介质  >  正文

音频多场景化加噪处理方法、装置、设备及介质

  • 国知局
  • 2024-10-15 09:40:40

本技术涉及音频处理领域,尤其涉及一种音频多场景化加噪处理方法、相应的装置、电子设备及计算机可读存储介质。

背景技术:

1、随着市场的不断发展,各种音频任务模型层出不穷,提供语音唤醒、语音识别等服务,然而,大多数训练数据集直接处理音频信号,仅能起到数据增强的作用,无法确保在特定应用场景中的效果。因此,急需一种能够针对特定应用场景的音频场景化方法,音频场景化需要在音频信号中添加场景噪声,以模拟真实的声学环境,这就是音频信号处理中的音频加噪方法。

2、在生产进入市场后,大多数音频任务模型在实际应用中受场景因素影响,逐渐偏向不同噪声环境的需求。在内容不变的情况下,声学场景发生了演变,导致模型的实际执行效果与预期效果出现偏差,用户的使用体验得不到保障。

3、随着硬件算力的快速发展,场景化加噪技术也有了很大的进步,场景化加噪方法主要分为两类:一类是通过实际搭建场景进行声音录制,另一类是通过软件仿真模拟声学场景。由于实际搭建需要消耗大量人力资源和时间,越来越多的研究者倾向于对软件仿真进行进一步探索。由于场景化加噪方法基于记录的实际噪声,并根据已有的场景信息进行构建或模拟,又称为非生成式场景化加噪方法。尽管非生成式方法能够针对性地提高模型在目标声学场景中的效果,但其应用场景仅限于已知或可预见的场景。在实际应用中,复刻声学场景耗时耗力,研究人员很难收集到足够的场景化音频来训练模型。

4、综上所述,适应现有技术中实际搭建需要消耗大量人力资源和时间,以及应用场景仅限于已知或可预见的场景,在实际应用中,复刻声学场景耗时耗力,研究人员很难收集到足够的场景化音频来训练模型等问题,本技术人出于解决该问题的考虑作出相应的探索。

技术实现思路

1、本技术的目的在于解决上述问题而提供一种音频多场景化加噪处理方法、相应的装置、电子设备及计算机可读存储介质。

2、为满足本技术的各个目的,本技术采用如下技术方案:

3、适应本技术的目的之一而提出的一种音频多场景化加噪处理方法,包括:

4、响应音频多场景化加噪处理指令,音频服务系统获取目标声学场景中的噪声类型以及需要进行音频多场景化加噪处理的原始音频;

5、所述音频服务系统将每种噪声类型作为文本嵌入传输至噪声生成系统中的潜在扩散模型,在所述潜在扩散模型中采用高斯噪声分布和所述文本嵌入作为起点,逐步生成噪声音频样本;

6、所述音频服务系统将每条噪声音频样本按照多个预设音量倍数阈值进行复制,以确定所述多个预设音量倍数阈值相对应的噪声音频样本;

7、所述音频服务系统在每种噪声类型中随机选取一个或多个预设音量倍数阈值相对应的噪声音频样本,并与需要进行音频多场景化加噪处理的原始音频进行合成,得到加噪音频。

8、可选的,所述音频服务系统将每种噪声类型作为文本嵌入传输至噪声生成系统中的潜在扩散模型,在所述潜在扩散模型中采用高斯噪声分布和所述文本嵌入作为起点,逐步生成噪声音频样本的步骤,包括:

9、在所述潜在扩散模型中生成基于对比文本音频预训练的音频先验;

10、采用变分自编码器作为解码器,并根据所述音频先验重构出梅尔频谱图;

11、采用预设的对抗生成网络作为声码器,根据所述梅尔频谱图生成高质量的所述噪声音频样本。

12、可选的,所述音频服务系统将每种噪声类型作为文本嵌入传输至噪声生成系统中的潜在扩散模型,在所述潜在扩散模型中采用高斯噪声分布和所述文本嵌入作为起点,逐步生成噪声音频样本的步骤,包括:

13、所述潜在扩散模型包括扩散过程以及逆扩散过程;

14、在所述扩散过程中,文本嵌入在每个时间步n∈[1,...,n],转移概率由如下公式给出:

15、

16、其中,βn是预定义的噪声尺度,且满足0<β1<···<βn<...<βn<1,αn是1-βn的重新参数化,表示每一步的噪声水平,表示注入的标准高斯分布噪声,在最后的时间步n,具有标准的各向同性高斯分布;

17、对于模型优化,采用重新加权的噪声估计训练目标:

18、

19、其中,θ是当前参数情况,表示计算∈和∈θ(zn,n,ey)的相似度,∈是注入噪声,∈θ(zn,n,ey)是预测噪声,zn是预测噪声的高斯分布,n是时间步,ex是对比文本音频预训练中的预训练音频编码器faudio(·)生成的音频波形x的嵌入;

20、在逆扩散过程中,从高斯噪声分布和文本嵌入ey开始,以所述文本嵌入ey为条件的去噪过程,通过以下过程逐渐生成音频先验z0,包括:

21、

22、均值和方差参数化为:

23、

24、其中,∈θ(zn,n,ey)是预测噪声,在训练阶段,根据音频样本x的音频嵌入ex学习生成音频先验z0,在预测阶段,提供文本嵌入ey来预测噪声∈θ(zn,n,ey)。

25、可选的,所述音频服务系统将每种噪声类型作为文本嵌入传输至噪声生成系统中的潜在扩散模型,在所述潜在扩散模型中采用高斯噪声分布和所述文本嵌入作为起点,逐步生成噪声音频样本的步骤,包括:

26、在对比文本音频预训练中,噪声音频样本表示为x,文本描述表示为y,其使用文本编码器ftext(·)和音频编码器faudio(·)分别提取文本嵌入ey和音频嵌入ex。

27、可选的,所述音频服务系统将每种噪声类型作为文本嵌入传输至噪声生成系统中的潜在扩散模型,在所述潜在扩散模型中采用高斯噪声分布和所述文本嵌入作为起点,逐步生成噪声音频样本的步骤,包括:

28、在变分自编码器中,所述变分自编码器由一个编码器和一个带有堆叠卷积模块的解码器组成;

29、所述编码器将所述梅尔频谱图x压缩到潜在空间其中,r表示压缩比;

30、所述解码器从所述潜在扩散模型中生成的音频先验表示构建梅尔频谱图采用预设的对抗生成网络作为声码器,从所述梅尔频谱图成噪声音频样本

31、可选的,所述音频服务系统在每种噪声类型中随机选取一个或多个预设音量倍数阈值相对应的噪声音频样本,并与需要进行音频多场景化加噪处理的原始音频进行合成的步骤,包括:

32、所述音频服务系统打开并读取每个音频文件,将其转换为numpy数组;

33、确定所有音频数据中的最大长度,并对长度不足的数据用零进行填充;

34、将所有音频数据按列堆叠为一个二维数组,然后展平为一维数组;

35、创建一个新的wav音频文件,并将展平后的音频数据写入其中。

36、可选的,所述对抗生成网络的基础网络架构为hifi-gan对抗生成网络。

37、适应本技术的另一目的而提供的一种音频多场景化加噪处理装置,包括:

38、音频获取模块,设置为响应音频多场景化加噪处理指令,音频服务系统获取目标声学场景中的噪声类型以及需要进行音频多场景化加噪处理的原始音频;

39、噪声音频生成模块,设置为所述音频服务系统将每种噪声类型作为文本嵌入传输至噪声生成系统中的潜在扩散模型,在所述潜在扩散模型中采用高斯噪声分布和所述文本嵌入作为起点,逐步生成噪声音频样本;

40、音频样本复制模块,设置为所述音频服务系统将每条噪声音频样本按照多个预设音量倍数阈值进行复制,以确定所述多个预设音量倍数阈值相对应的噪声音频样本;

41、音频合成模块,设置为所述音频服务系统在每种噪声类型中随机选取一个或多个预设音量倍数阈值相对应的噪声音频样本,并与需要进行音频多场景化加噪处理的原始音频进行合成,得到加噪音频。

42、适应本技术的另一目的而提供的一种电子设备,包括中央处理器和存储器,所述中央处理器用于调用运行存储于所述存储器中的计算机程序以执行本技术所述音频多场景化加噪处理方法的步骤。

43、适应本技术的另一目的而提供的一种计算机可读存储介质,其以计算机可读指令的形式存储有依据所述音频多场景化加噪处理方法所实现的计算机程序,该计算机程序被计算机调用运行时,执行相应的方法所包括的步骤。

44、相对于现有技术,本技术针对现有技术中实际搭建需要消耗大量人力资源和时间,以及应用场景仅限于已知或可预见的场景,在实际应用中,复刻声学场景耗时耗力,研究人员很难收集到足够的场景化音频来训练模型等问题,本技术包括但不限于如下有益效果:

45、本技术的音频多场景化加噪处理方法,能够在多种声学场景下,通过音频多场景化加噪处理大大提高模型训练和学习提高模型的准确性,能够显著提高模型鲁棒性和评估模型性能,通过将真实世界中的各种噪声添加到训练数据中,使模型更好地适应实际环境,提高其鲁棒性,通过在测试数据中添加噪声,评估模型在实际应用中的表现。

46、进一步的,本技术的音频多场景化加噪处理方法,能够同时添加不同类型的噪声,操作简单,耗时较短,显著提升了音频添加噪声的处理效率。

本文地址:https://www.jishuxx.com/zhuanli/20241015/314977.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。