技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种音频数据自动化增强方法、装置、设备及存储介质  >  正文

一种音频数据自动化增强方法、装置、设备及存储介质

  • 国知局
  • 2024-06-21 10:39:40

本发明涉及音频处理领域,特别涉及一种音频数据自动化增强方法、装置、设备及存储介质。

背景技术:

1、音频分类是基于音频数据的内容或特征对其进行分类或标记。近年来,已经开发出各种方法来自动识别或辨别不同类型的声音,比如语音、音乐、环境声音和其他音频信号。音频分类的潜在应用十分广泛,涵盖了从说话人识别到音乐风格分类、声音事件检测以及需要自动化分析和处理音频数据的其他领域。由于可用音频数据的数量不断增加,音频分类的重要性越来越大,这进一步需要使用自动化方法进行分析和处理。尽管近年来取得了显著进展,音频分类方法仍面临一些挑战,包括多样的声音类别、噪音环境、弱标签以及有限的标记数据集。无论是监督学习还是自监督学习,都需要有良好标记的数据来训练高性能的音频分类器。然而,与图像标注相比,音频类别的手动注释可能更加昂贵,因为音频信号更加复杂,可能包含多个声源,这增加了准确标注的难度。

2、现有的音频领域公共数据集中的音频样本数量难以满足模型训练的需求,且现有技术中对于增强策略参数的设计,大多依靠手动设计来实现,并在不同任务中进行调整,尽管在音频数据增强方面专家做出了持续的手工设计的努力,自动增强技术也应用于文本和图像分类中,但还尚未开发出自动化的音频数据增强策略。

技术实现思路

1、有鉴于此,本发明的目的在于提供一种音频数据自动化增强方法、装置、设备及存储介质,可以自动搜索和组合有效的音频数据增强策略以提高模型性能,减少对标注数据的需求,在无需手动设计的情况下实现泛化。其具体方案如下:

2、第一方面,本技术公开了一种音频数据自动化增强方法,包括:

3、基于预设增强操作构建增强操作集,通过所述增强操作集得到若干候选操作,并生成与所述若干候选操作对应的策略参数,以基于所述若干候选操作以及所述策略参数得到候选策略集;

4、基于预设准确度匹配函数对所述候选策略集进行筛选,以得到目标策略集;

5、为预设模型设置模型检查点,并通过所述目标策略集对预设模型进行一轮模型循环迭代,以基于所述模型检查点从当前轮次循环迭代中确定目标模型和用于下一轮模型训练的当前更新策略;

6、将所述当前更新策略添加至所述目标策略集,以基于得到的更新后策略集对预设音频样本集中的音频样本进行音频增强,并通过所述更新后策略集对所述目标模型进行下一轮循环迭代。

7、可选的,所述基于预设增强操作构建增强操作集,通过所述增强操作集得到若干候选操作,并生成与所述若干候选操作对应的策略参数,以基于所述若干候选操作以及所述策略参数得到候选策略集,包括:

8、基于波形增强操作、频谱增强操作以及混合增强操作构建增强操作集;所述波形增强操作以及所述频谱增强操作分别用于对音频数据的波形以及频谱进行增强;所述混合增强操作为基于所述波形增强操作以及频谱增强对音频数据的波形和/或频谱进行增强的操作;

9、通过期望改进准则以及hyperopt库对所述增强操作集进行处理,以得到若干候选操作并生成与所述若干候选操作对应的策略参数,以基于所述若干候选操作以及所述策略参数生成候选策略集。

10、可选的,所述基于预设准确度匹配函数对所述候选策略集进行筛选,以得到目标策略集,包括:

11、基于预设准确度匹配函数对所述候选策略集进行筛选,以从所述候选策略集中确定出若干目标增强策略,并基于所述若干目标增强策略得到目标策略集。

12、可选的,所述基于预设准确度匹配函数对所述候选策略集进行筛选,以从所述候选策略集中确定出若干目标增强策略,包括:

13、确定所述候选策略集中每一条候选策略的准确度值以及预设模型的模型准确度值,以通过所述每一条候选策略的准确度值以及所述预设模型的模型准确度值确定若干目标增强策略。

14、可选的,所述为预设模型设置模型检查点,并通过所述目标策略集对预设模型进行一轮模型循环迭代,以基于所述模型检查点从当前轮次循环迭代中确定目标模型和用于下一轮模型训练的当前更新策略,包括:

15、为预设模型设置模型检查点;所述模型检查点用于对每轮模型训练的初始模型进行保存;

16、通过所述目标策略集对预设模型进行一轮模型循环迭代,并基于所述模型检查点保存每轮模型训练时模型的初始数据;

17、基于所述初始数据确定若干轮模型训练中确定用于下一轮循环迭代的目标模型,并确定用于生成所述目标模型的训练策略,以得到当前更新策略。

18、可选的,所述将所述当前更新策略添加至所述目标策略集,以基于得到的更新后策略集对预设音频样本集中的音频样本进行音频增强,包括:

19、将所述当前更新策略添加至所述目标策略集,以得到更新后策略集;

20、从预设音频样本集中随机抽取若干待增强音频样本,并基于所述更新后策略集对所述若干待增强音频样本进行数据增强,以得到若干增强后音频样本;

21、将所述若干增强后音频样本添加至所述预设音频样本集,以得到更新后音频样本集。

22、可选的,所述基于所述更新后策略集对所述若干待增强音频样本进行数据增强,以得到若干增强后音频样本,包括:

23、基于所述更新后策略集中的更新后增强策略对所述若干待增强音频样本进行的波形和/或频谱进行偏移操作和/或噪声添加操作,以得到若干增强后音频样本。

24、第二方面,本技术公开了一种音频数据自动化增强装置,包括:

25、策略集生成模块,用于基于预设增强操作构建增强操作集,通过所述增强操作集得到若干候选操作,并生成与所述若干候选操作对应的策略参数,以基于所述若干候选操作以及所述策略参数得到候选策略集;

26、策略集筛选模块,用于基于预设准确度匹配函数对所述候选策略集进行筛选,以得到目标策略集;

27、第一模型迭代模块,用于为预设模型设置模型检查点,并通过所述目标策略集对预设模型进行一轮模型循环迭代,以基于所述模型检查点从当前轮次循环迭代中确定目标模型和用于下一轮模型训练的当前更新策略;

28、音频增强模块,用于将所述当前更新策略添加至所述目标策略集,以基于得到的更新后策略集对预设音频样本集中的音频样本进行音频增强;

29、第二模型迭代模块,用于通过所述更新后策略集对所述目标模型进行下一轮循环迭代。

30、第三方面,本技术公开了一种电子设备,包括:

31、存储器,用于保存计算机程序;

32、处理器,用于执行所述计算机程序以实现如前述的音频数据自动化增强方法。

33、第四方面,本技术公开了一种计算机可读存储介质,用于保存计算机程序,所述计算机程序被处理器执行时实现如前述的音频数据自动化增强方法。

34、本技术中,首先基于预设增强操作构建增强操作集,通过所述增强操作集得到若干候选操作,并生成与所述若干候选操作对应的策略参数,以基于所述若干候选操作以及所述策略参数得到候选策略集然后基于预设准确度匹配函数对所述候选策略集进行筛选,以得到目标策略集,为预设模型设置模型检查点,并通过所述目标策略集对预设模型进行一轮模型循环迭代,以基于所述模型检查点从当前轮次循环迭代中确定目标模型和用于下一轮模型训练的当前更新策略,最后将所述当前更新策略添加至所述目标策略集,以基于得到的更新后策略集对预设音频样本集中的音频样本进行音频增强,并通过所述更新后策略集对所述目标模型进行下一轮循环迭代。由此可见,通过本技术所述音频数据自动化增强方法,可以基于预设的增强操作构建用于模型首轮训练的增强操作集,并且在生成增强操作集之后,为了避免过拟合,需要从增强操作集中确定出若干候选操作,并构建候选策略集,以对候选策略集进行筛选,并通过得到的目标策略集对确定的训练过程中性能最好的模型进行下一轮循环迭代,然后确定出用于下一轮模型训练的当前更新策略,以将当前更新策略添加至目标策略集,实现对策略集的更新,并且可以通过更新后的策略集对音频样本进行增强,以丰富音频样本。这样一来,一方面可以自动搜索和组合有效的音频数据增强策略以提高模型性能,减少对标注数据的需求,在无需手动设计的情况下实现泛化;另一方面,可以实现音频策略的自动化更新,以实现对模型持续的循环迭代,提高模型循环的效率;再一方面,可以利用不断更新的增强策略对音频样本进行更新,以丰富音频样本集,避免出现音频样本数量难以满足模型训练的需求的情况。

本文地址:https://www.jishuxx.com/zhuanli/20240618/21026.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。