技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种音频事件检测方法、系统、设备及存储介质与流程  >  正文

一种音频事件检测方法、系统、设备及存储介质与流程

  • 国知局
  • 2024-06-21 11:51:46

本申请实施例涉及音频处理,尤其涉及一种音频事件检测方法、系统、设备及存储介质。

背景技术:

1、目前,在直播和短视频应用场景中,经常需要对一段音频信号进行音频事件的检测。例如,当检测到输入的音频信号为音乐信号时,可以使降噪模块减轻降噪力度,从而避免对音乐信号造成损伤,提升音频体验。在进行音频事件检测时,通常会使用不同类别的音频样本预先训练的神经网络进行音频事件检测,对输入网络的音频信号添加相应的音频事件标签后输出。

2、但是,相关的用于音频事件检测的神经网络通常使用预定义的一定数量音频类别样本进行训练,对于在某些频点处存在相似性的音乐和噪声,神经网络模型难以准确区分这部分易于混淆的音频信号,导致音频事件检测误差,进而影响候选音频信号处理效果。

技术实现思路

1、本申请实施例提供一种音频事件检测方法、系统、设备及存储介质,能够提升音频事件检测的准确率,解决音频事件的检测误差问题。

2、在第一方面,本申请实施例提供了一种音频事件检测方法,包括:

3、获取待检测音频信号,将待检测音频信号输入预先训练的音频事件检测模型,音频事件检测模型预先基于不同标注类别的音频数据以及音频数据的混合数据构建训练样本,将训练样本拆分为长时信号和短时信号进行混合训练;

4、基于音频事件检测模型确定待检测音频信号的深层特征;

5、对深层特征进行能量预测,基于能量预测结果输出待检测音频信号的音频事件标签。

6、在第二方面,本申请实施例提供了一种音频事件检测系统,包括:

7、输入模块,配置为获取待检测音频信号,将待检测音频信号输入预先训练的音频事件检测模型,音频事件检测模型预先基于不同标注类别的音频数据以及音频数据的混合数据构建训练样本,将训练样本拆分为长时信号和短时信号进行混合训练;

8、确定模块,配置为基于音频事件检测模型确定待检测音频信号的深层特征;

9、输出模块,配置为对深层特征进行能量预测,基于能量预测结果输出待检测音频信号的音频事件标签。

10、在第三方面,本申请实施例提供了一种音频事件检测设备,包括:

11、存储器以及一个或多个处理器;

12、存储器,配置为存储一个或多个程序;

13、当一个或多个程序被一个或多个处理器执行,使得一个或多个处理器实现如第一方面的音频事件检测方法。

14、在第四方面,本申请实施例提供了一种计算机可读存储介质,计算机可读存储介质存储有计算机可执行指令,计算机可执行指令在由计算机处理器执行时配置为执行如第一方面的音频事件检测方法。

15、在第五方面,本申请实施例提供了一种计算机程序产品,计算机程序产品中包含有指令,当指令在计算机或处理器上运行时,使得计算机或处理器执行如第一方面的音频事件检测方法。

16、本申请实施例通过获取待检测音频信号,将待检测音频信号输入预先训练的音频事件检测模型,音频事件检测模型预先基于不同标注类别的音频数据以及音频数据的混合数据构建训练样本,将训练样本拆分为长时信号和短时信号进行混合训练;基于音频事件检测模型确定待检测音频信号的深层特征;对深层特征进行能量预测,基于能量预测结果输出待检测音频信号的音频事件标签。采用上述技术手段,通过不同标注类别的音频数据以及音频数据的混合数据构建训练样本,可以提升训练样本的多样性和均匀性,使得模型能够挖掘更深层次的音频特征,并在训练过程中采用长、短时信号混合训练的方式,使得音频事件检测模型能够兼顾输入信号的短时和长时特征,进而提升音频事件检测的准确率和鲁棒性。

技术特征:

1.一种音频事件检测方法,其特征在于,包括:

2.根据权利要求1所述的音频事件检测方法,其特征在于,所述基于所述音频事件检测模型确定所述待检测音频信号的深层特征,包括:

3.根据权利要求2所述的音频事件检测方法,其特征在于,所述检测所述待检测音频信号的编码特征和帧间信息,包括:

4.根据权利要求2所述的音频事件检测方法,其特征在于,所述基于所述帧间信息和注意力机制对所述编码特征进行特征抽取与融合,得到所述深层特征,包括:

5.根据权利要求4所述的音频事件检测方法,其特征在于,所述基于时域和频域的双注意力机制对所述编码特征进行特征抽取,还包括:

6.根据权利要求1-5任一所述的音频事件检测方法,其特征在于,所述基于能量预测结果输出所述待检测音频信号的音频事件标签,包括:

7.根据权利要求1-5任一所述的音频事件检测方法,其特征在于,所述将所述待检测音频信号输入预先训练的音频事件检测模型,包括:

8.一种音频事件检测系统,其特征在于,包括:

9.一种音频事件检测设备,其特征在于,包括:

10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机可执行指令,所述计算机可执行指令在由计算机处理器执行时配置为执行如权利要求1-7任一所述的音频事件检测方法。

11.一种计算机程序产品,其特征在于,所述计算机程序产品中包含有指令,当所述指令在计算机或处理器上运行时,使得所述计算机或处理器执行如权利要求1-7任一所述的音频事件检测方法。

技术总结本申请实施例公开了一种音频事件检测方法、系统、设备及存储介质。本申请实施例提供的技术方案,获取待检测音频信号,将待检测音频信号输入预先训练的音频事件检测模型,音频事件检测模型预先基于不同标注类别的音频数据以及音频数据的混合数据构建训练样本,将训练样本拆分为长时信号和短时信号进行混合训练;基于音频事件检测模型确定待检测音频信号的深层特征;对深层特征进行能量预测,基于能量预测结果输出待检测音频信号的音频事件标签。采用上述技术手段,可以提升训练样本的多样性和均匀性,使得模型能够挖掘更深层次的音频特征,并兼顾输入信号的短时和长时特征,提升音频事件检测的准确率和鲁棒性。技术研发人员:陈建非,谭淞濒,刘梁受保护的技术使用者:百果园技术(新加坡)有限公司技术研发日:技术公布日:2024/5/12

本文地址:https://www.jishuxx.com/zhuanli/20240618/24057.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。