技术新讯 > 乐器声学设备的制造及制作,分析技术 > 基于自适应学习的小样本海洋声音事件检测方法 > 正文

基于自适应学习的小样本海洋声音事件检测方法

国知局
2024-06-21 11:54:31

本发明涉及智慧海洋和计算机智能语音信号处理，具体地指一种基于自适应学习的小样本海洋声音事件检测方法。

背景技术：

1、随着科技的不断发展，海洋声音事件检测成为海洋监测与资源管理领域的重要研究方向。海洋环境中存在着丰富多样的声音事件，包括但不限于海豚鸣叫、鲸鱼歌唱、水下地壳活动等。这些声音事件携带着丰富的信息，可为海洋学、生态学、资源管理等领域提供宝贵的数据。

2、海洋声音事件检测利用声学传感器和机器学习技术，对海洋中的声音进行实时监测和分类。这一技术在海洋生物学研究、资源管理和环境监测等方面具有广泛应用前景，为科学研究和生态保护提供了重要的数据支持，有助于深入了解海洋生态系统的状态和变化。

3、然而，传统的海洋声音事件检测方法面临一系列挑战，其中之一是样本数量有限的问题。海洋环境中的声音事件通常是少量且高度多样的，这导致传统监督学习方法在建模和检测上存在局限性。因此，如何有效地利用有限的标注数据，并将其应用于不同的海洋环境，提高系统的泛化性能，成为海洋声音事件检测中非常重要的一个任务。

技术实现思路

1、为了解决上述技术问题，本发明提出了一种基于自适应学习的小样本海洋声音事件检测方法，所述方法具体包括：

2、步骤s1）获取数据集：收集涵盖不同海洋声音事件类型的相关音频数据，以构建小样本海洋声音事件检测数据集；

3、步骤s2）数据预处理：将海洋声音事件检测数据集中带标注的音频筛选出来，并将数据集中带标注的音频和待检测的音频进行分片处理；

4、步骤s3）构建模型：构建基于自适应学习的小样本海洋声音事件检测模型，所述模型包括教师模型和学生模型，每个模型都包括音频表示模块和分类器模块；

5、步骤s4）音频表示模块训练：将检测数据集中的音频数据输入到教师音频表示模块和学生音频表示模块中，分别得到音频特征，并基于检测数据集对音频表示模块进行训练得到最终的海洋声音事件检测模型的音频表示模块；

6、步骤s5）构建分类器：确定构建分类器的正负样本数据，然后构建分类器；

7、步骤s6）自适应更新分类器：引入自适应学习机制，通过教师模型引导学生模型进行知识迁移，自适应调整学生模型分类器的参数，以适应不同海洋环境中的声音事件特征；

8、步骤s7）检测海洋声音事件：对海洋环境下的声音事件进行检测，将待检测音频的查询集输入到学生模型中，得到检测结果。

9、进一步地，步骤s2）中将数据集中带标注的音频和待检测的音频进行分片处理包括：对于检测数据集，设置分片长度为0.2秒；对于待检测的音频，设置分片长度为 seg_len，每间隔 seg_len/4取一个片段， seg_len的取值为：持续时长中位数(秒) 0-0.2 0.2-1.0 1.0-2.0 2.0-4.0 >4.0 片段长度(秒) 0.2 /2 /4 /8

10、。

11、进一步地，步骤s4）中将检测数据集中的音频数据输入到教师音频表示模块和学生音频表示模块中，分别得到音频特征包括：将原始音频转化为梅尔倒谱系数mfcc特征，接着将得到的mfcc特征输入到用audioset预训练的beats模型中以模拟声音内容，得到教师模型的音频特征；

12、步骤s4）中将检测步骤s4）中将检测数据集中的音频数据输入到学生音频表示模块中，得到音频特征包括：将原始音频转化为梅尔倒谱系数mfcc特征，将得到的mfcc特征输入到4层cnn网络中以模拟声音内容，得到学生模型的音频特征。其中，4层cnn网络由4个卷积神经网络组成，卷积核大小分别为1×128，128×128，128×128，128×128。

13、步骤s4）中mfcc特征的提取过程如下：

14、步骤s41）依次对原始音频进行预加重、分帧和加窗得到短时分析窗；

15、步骤s42）将每一个短时分析窗进行短时傅里叶变换得到对应的频谱；

16、步骤s43）将得到的频谱通过mel滤波器组得到mel频谱；

17、步骤s44）在mel频谱上面进行倒谱分析，进行取对数操作，利用dct离散余弦变换做逆变换，取逆变换后的第2个到第13个系数当作mel频率倒谱系数mfcc，即得到原始音频对应的mfcc特征。

18、进一步地，步骤s4）中基于检测数据集对音频表示模块进行训练得到最终的海洋声音事件检测模型的音频表示模块包括：

19、在音频表示模块后接一个临时的全连接层，将所述检测数据集中的样本数据输入模型的音频表示模块后，经过全连接层，计算总的损失函数值，进行反向传播，通过选定的优化器和相应参数对音频表示模块和全连接层的权重进行优化，训练多轮后得到最终的海洋声音事件检测模型的音频表示模块。

20、进一步地，步骤s5）所述的构建分类器，过程如下：

21、步骤s51）确定用于构建分类器的正负类的样本：将待检测音频的支持集中目标声音标注的音频片段为正样本，不带目标声音标注的音频片段为负样本，并用负样本选择策略从查询集中选择新的负样本，来增加负样本的数量，增强负类原型的代表性；

22、步骤s52）将某类事件的所有音频片段输入到音频表示模块得到音频特征；

23、步骤s53）取的均值作为该类事件的类原型，所有类的类原型连接起来，构成分类器。

24、进一步地，s51）中用负样本选择策略从查询集中选择新的负样本包括：

25、；

26、其中为新选择的负样本，是查询集中的声学特征，和分别代表正类原型和负类原型，是查询片段的总数，是正负类原型之间的欧氏距离，表示求欧氏距离；

27、和分别代表正样本和负样本的原始数量，表示新的负样本数，满足以下条件：

28、。

29、进一步地，步骤s6）中自适应更新分类器包括：

30、步骤s61）将查询集的音频分别输入到教师模型和学生模型的语音表示模块，得到教师模型语音特征表示和学生模型语音特征表示；

31、步骤s62）分别计算和到分类器中各个类原型的距离，经过归一化指数函数，得到查询集音频片段属于各个类别的概率分布，当一个片段属于正类的概率大于0.5时，这个片段的预测结果就是正类；

32、步骤s63）当同一个片段在教师模型和学生模型预测的结果不同时，计算一个自适应损失函数，公式如下：

33、；

34、；

35、其中，为相对熵，为学生模型在查询样本与其潜在标签之间的互信息熵，表示控制互信息熵占比的超参数值，这里设置为0.5，表示自适应学习的权重参数，表示片段长度，是一个常数，这里设置为150，和的计算公式如下：

36、；

37、；

38、其中表示学生模型的预测概率，而表示教师模型的预测概率，是查询片段的总数，k表示类别的数量，k=2；是经验标签边际熵，其计算公式为：

39、；

40、其中，是边缘分布，定义为：

41、；

42、是给定的声学特征的标签条件熵的经验估计值，其计算公式为：

43、。

44、s64）根据损失函数值，进行反向传播，通过选定的优化器和相应参数对学生模型的分类器权重进行优化，进行多轮更新，得到最终的海洋声音事件检测模型的分类器。

45、进一步地，步骤s7）中进一步包括：对海洋环境下的声音事件进行检测，将待检测音频的查询集输入到学生模型中获得这些音频片段属于正类的概率，去除概率低于 0.5的声音片段。进一步地，将相邻的区段合并为事件，得到目标事件的开始和结束时间。

46、本技术提出了一种基于自适应学习的小样本海洋声音事件检测方法，该方法通过构建包括教师模型和学生模型的复合模型，并通过使用负样本选择策略，构建更具代表性的负样本原型，使模型能够更好的完成分类任务完成检测，通过引入自适应学习机制，使模型能够应对目标事件持续时间不同所带来的挑战，在海洋声音事件检测领域具有显著的实用价值，为智慧海洋和生态保护领域带来了新的可能性。