技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种高效低延迟的声音事件检测的模型及其训练方法与流程 > 正文

一种高效低延迟的声音事件检测的模型及其训练方法与流程

国知局
2024-06-21 11:37:19

本发明涉及人工智能，尤其是一种高效低延迟的声音事件检测的模型及其训练方法。

背景技术：

1、声音事件检测(audio event detection，aed)，主要目的是检测连续的音频流之中有无出现目标声音事件，比如检测设备故障异常发出的声音，事故现场发出的声音，野生动物的声音等等。具体的，就是使用神经网络，以一段声学特征作为输入，并以该声学片段中可能包含的声学事件作为输出，从而标定音频流中包含的声音事件。

2、现有技术中，业界对于声音事件检测的通用做法是将该任务视为分类任务进行训练并加以优化，为应对复杂多变的应用环境，其骨干网络尺寸较大，这不利于模型的推理部署。

3、并且，基于分类的任务的训练方式不利于模型学习提取通用声学表征的能力，造成模型的泛化性不足、容易造成误检。

4、此外，对于aed的训练数据，细粒度(标注事件边界)的音频事件标注非常耗时费力，这造成aed的训练数据制作获取困难、大量无细粒度标注的训练数据无法有效利用。

技术实现思路

1、为解决上述问题，本发明提供一种结构合理的高效低延迟的声音事件检测的模型及其训练方法，从而产出小、推理效率高的模型，极大地减小模型的延迟，提升推理效率，并具有良好的泛化性，无需进行细粒度标注，省时省力。

2、本发明所采用的技术方案如下：

3、一种高效低延迟的声音事件检测的模型，所述模型采用vit作为模型骨干，包括：

4、输入音频对应的声学特征，利用二维卷积对声学特征的时间、频率维度进行降采样；

5、将频率轴与时间轴进行合并，依次送入transformer模型得到帧级别的声音事件表征；

6、将帧级别的声音事件表征在时频轴取平均，得到段级别的声音事件表征；

7、利用分类层将段级别的声音事件表征投影至n类事件的空间；

8、将分类层输出的动态范围进行归一化，以表征n类事件在音频中的概率。

9、作为上述技术方案的进一步改进：

10、所述二维卷积的卷积核输出通道数为192、卷积核为16×16、跳步为16×16。

11、对降采样加上位置编码，以表征时频输入的顺序关系。

12、所述transformer模型设置为12层。

13、将分类层输出的动态范围归一化至[0,1]。

14、一种高效低延迟的声音事件检测的模型的训练方法，包括教师模型，由教师模型指导学生模型，教师模型与学生模型的输出均对应每条输入音频中可能包含的事件的概率；还包括预训练数据集，预训练数据集海量涵盖所有常见声音事件的音频数据，预训练数据集中标注每条音频内包含的声音事件标签；

15、所述训练方法的步骤为：

16、利用预训练数据集训练尺寸较大的教师模型，最小化事件概率与标签之间的bce；

17、固定教师模型，蒸馏学生模型，采用kl散度约束教师模型的指导与学生模型输出的事件概率尽可能一致，采用bce约束学生模型输出的音频中的事件概率与标签尽可能一致；

18、将目标事件数据加入预训练数据集，对学生模型进行微调，得到检测目标事件的模型。

19、作为上述技术方案的进一步改进：

20、所述预训练数据集中有n种事件类别，目标事件中有k种新的事件类别；待微调的学生模型采用vit骨干，vit骨干之后有两个分支，分支一输出节点数为n+k类，分支二输出节点数为k+1类；对两个分支同时优化，两个分支的损失函数均为bce。

21、所述教师模型包含了多重不同结构的分类网络，教师模型的结构与vit相似或者由纯卷积网络构成。

22、对送入教师模型的声学特征进行数据增强，数据增强包括而不限于specaugment、相位翻转、加噪。

23、所述教师模型有m个，在指导学生模型时，将m个教师模型输出的事件概率进行加权。

24、与现有技术相比，本发明具有以下有益效果：

25、本发明的模型采用vit作为模型骨干，具有更强的信息抽取能力，相较于卷积结构具有更高效的矩阵运算效率，对声学表征的时域、频域进行独立建模，可以根据设备性能灵活选定输入序列的长度，极大地减小模型的延迟，提升推理效率；采用知识蒸馏的方式进行预训练，产出小、推理效率高的模型，并通过预训练使模型获得抽取声音事件表征的能力，利用先验知识使得模型具有良好的泛化性；在预训练模型的基础上，在少量目标事件的数据集上进行微调，产出目标事件的检测模型，而无需进行细粒度标注，省时省力。

技术特征：

1.一种高效低延迟的声音事件检测的模型，其特征在于：所述模型采用vit作为模型骨干，包括：

2.如权利要求1所述的一种高效低延迟的声音事件检测的模型，其特征在于：所述二维卷积的卷积核输出通道数为192、卷积核为16×16、跳步为16×16。

3.如权利要求1所述的一种高效低延迟的声音事件检测的模型，其特征在于：对降采样加上位置编码，以表征时频输入的顺序关系。

4.如权利要求1所述的一种高效低延迟的声音事件检测的模型，其特征在于：所述transformer模型设置为12层。

5.如权利要求1所述的一种高效低延迟的声音事件检测的模型，其特征在于：将分类层输出的动态范围归一化至[0,1]。

6.一种高效低延迟的声音事件检测的模型的训练方法，其特征在于：包括教师模型，由教师模型指导学生模型，教师模型与学生模型的输出均对应每条输入音频中可能包含的事件的概率；还包括预训练数据集，预训练数据集海量涵盖所有常见声音事件的音频数据，预训练数据集中标注每条音频内包含的声音事件标签；

7.如权利要求6所述的一种高效低延迟的声音事件检测的模型的训练方法，其特征在于：所述预训练数据集中有n种事件类别，目标事件中有k种新的事件类别；待微调的学生模型采用vit骨干，vit骨干之后有两个分支，分支一输出节点数为n+k类，分支二输出节点数为k+1类；对两个分支同时优化，两个分支的损失函数均为bce。

8.如权利要求6所述的一种高效低延迟的声音事件检测的模型的训练方法，其特征在于：所述教师模型包含了多重不同结构的分类网络，教师模型的结构与vit相似或者由纯卷积网络构成。

9.如权利要求6所述的一种高效低延迟的声音事件检测的模型的训练方法，其特征在于：对送入教师模型的声学特征进行数据增强，数据增强包括而不限于specaugment、相位翻转、加噪。

10.如权利要求6所述的一种高效低延迟的声音事件检测的模型的训练方法，其特征在于：所述教师模型有m个，在指导学生模型时，将m个教师模型输出的事件概率进行加权。

技术总结本发明涉及一种高效低延迟的声音事件检测的模型及其训练方法，采用Vit作为模型骨干，具有更强的信息抽取能力，相较于卷积结构具有更高效的矩阵运算效率，对声学表征的时域、频域进行独立建模，可以根据设备性能灵活选定输入序列的长度，极大地减小模型的延迟，提升推理效率；采用知识蒸馏的方式进行预训练，产出小、推理效率高的模型，并通过预训练使模型获得抽取声音事件表征的能力，利用先验知识使得模型具有良好的泛化性；在预训练模型的基础上，在少量目标事件的数据集上进行微调，产出目标事件的检测模型，而无需进行细粒度标注，省时省力。技术研发人员：王飞,王欢良,马殿昌,谢勇受保护的技术使用者：苏州奇梦者科技有限公司技术研发日：技术公布日：2024/3/21