音频标记方法、音频标记网络训练方法及相关装置与流程
- 国知局
- 2024-06-21 10:42:23
本申请涉及音频处理,特别是涉及音频标记方法、音频标记网络训练方法及相关装置。
背景技术:
1、音频标记(audio tagging,at)任务旨在从音频信号中识别出属于目标声音事件的事件类别。音频标记技术目前已被广泛应用,例如在智能城市化服务领域,用于广场异常事件检测报警,音视频检测系统等。在智能家居领域,可以实时监测房间的异常情况,例如火烧,水流,各种报警器报警声,婴儿啼哭声,宠物异常声等等。此外,还可应用在便携的智能手机、智能耳机以及助听器上,用于识别不需要的异常噪音或监测异常高频噪音,以便为后续音频降噪以及音频增强的任务提供参考依据或减轻对人耳的损害。因此,提高音频标记的准确率至关重要。
技术实现思路
1、本申请主要解决的技术问题是提供一种音频标记方法、音频标记网络训练方法及相关装置,能够提高音频数据的标签预测的准确度。
2、为解决上述技术问题,本申请第一方面提供了一种音频标记方法,该方法包括:对待标记音频数据进行预处理,得到第一音频特征;利用音频标记网络对第一音频特征进行特征提取,得到第二音频特征;利用音频标记网络对第二音频特征进行门控注意力处理,得到门控注意力特征;利用音频标记网络基于门控注意力特征,得到待标记音频数据的目标标签数据。
3、为解决上述技术问题,本申请第二方面提供了一种音频标记网络训练方法,该训练方法包括:对样本音频数据进行预处理,得到第一样本音频特征;利用音频标记网络对第一样本音频特征进行特征提取,得到第二样本音频特征,对第二样本音频特征进行门控注意力处理,得到门控注意力特征,并基于门控注意力特征,预测得到样本标签数据;基于样本音频数据的标注标签数据和样本标签数据,调整音频标记网络的网络参数。
4、为解决上述技术问题,本申请第三方面提供了一种电子设备,该电子设备包括相互耦接的存储器和处理器,存储器中存储有程序指令,处理器用于执行存储器中存储的程序指令,以实现上述第一方面或第二方面提供的方法。
5、为解决上述技术问题,本申请第四方面提供了一种计算机可读存储介质,该计算机可读存储介质用于存储程序指令,程序指令能够被执行以实现上述第一方面或第二方面提供的方法。
6、本申请的有益效果是:区别于现有技术的情况,本申请对待标记音频数据进行预处理,得到第一音频特征;利用经过训练的音频标记网络对第一音频特征进行特征提取,得到第二音频特征,并利用音频标记网络对第二音频特征进行门控注意力处理,得到门控注意力特征,进而使音频标记网络基于门控注意力特征,得到待标记音频数据的目标标签数据。通过对第二音频特征进行门控注意力处理,能够对第二音频特征中不同时间点上的特征施加不同的关注度,使得到的门控注意力特征能够考虑待标记音频数据的上下文信息,进而提高音频数据的标签预测的准确度。
技术特征:1.一种音频标记方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述基于所述第二音频特征进行门控注意力处理,得到门控注意力特征,包括:
3.根据权利要求2所述的方法,其特征在于,所述第一线性变换是利用第一线性层实现的;
4.根据权利要求2所述的方法,其特征在于,在所述对所述第二音频特征进行第一线性变换,得到第三音频特征之后,还包括:
5.根据权利要求4所述的方法,其特征在于,所述对所述第三音频特征进行第二线性处理,得到所述第四音频特征,包括:
6.根据权利要求1所述的方法,其特征在于,所述对所述第一音频特征进行特征提取,得到第二音频特征,包括:
7.根据权利要求6所述的方法,其特征在于,所述基于所述第一音频特征进行自注意力处理,得到自注意力特征,包括:
8.根据权利要求1所述的方法,其特征在于,所述音频标记网络包括特征提取网络、门控注意力层和预测模块,所述特征提取网络用于对所述第一音频特征进行特征提取,得到所述第二音频特征;所述门控注意力层用于基于所述第二音频特征进行门控注意力处理,得到门控注意力特征,所述预测模块用于基于所述门控注意力特征,得到所述待标记音频数据的目标标签数据。
9.根据权利要求1所述的方法,其特征在于,所述方法包括如下对所述音频标记网络的训练步骤:
10.根据权利要求1所述的方法,其特征在于,在所述利用音频标记网络对所述第一音频特征进行特征提取,得到第二音频特征之前,所述方法还包括:
11.根据权利要求1所述的方法,其特征在于,所述对待标记音频数据进行预处理,得到第一音频特征,包括:
12.根据权利要求11所述的方法,其特征在于,所述基于各帧所述音频数据的梅尔频谱,得到所述第一音频特征,包括:
13.一种音频标记网络训练方法,其特征在于,包括:
14.根据权利要求13所述的方法,其特征在于,所述音频标记网络包括学生音频标记网络和教师音频标记网络,所述学生音频标记网络和教师音频标记网络采用相同的网络结构;
15.根据权利要求13所述的方法,其特征在于,所述对样本音频数据进行预处理,得到第一样本音频特征,包括:
16.一种电子设备,其特征在于,包括相互耦接的存储器和处理器,
17.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质用于存储程序指令,所述程序指令能够被执行以实现如权利要求1-15任一项所述的方法。
技术总结本申请公开了一种音频标记方法、音频标记网络训练方法及相关装置,该方法包括:对待标记音频数据进行预处理,得到第一音频特征;利用音频标记网络对第一音频特征进行特征提取,得到第二音频特征;利用音频标记网络基于第二音频特征进行门控注意力处理,得到门控注意力特征;利用音频标记网络基于门控注意力特征,得到待标记音频数据的目标标签数据。通过上述方式,本申请能够提高音频数据的标签预测的准确度。技术研发人员:唐钰武,马子昂受保护的技术使用者:杭州华橙软件技术有限公司技术研发日:技术公布日:2024/2/1本文地址:https://www.jishuxx.com/zhuanli/20240618/21358.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表