基于深度迁移学习的混合鸟鸣识别方法与流程
- 国知局
- 2024-06-21 11:37:23
本发明涉及语音处理,具体涉及基于深度迁移学习的混合鸟鸣识别方法。
背景技术:
1、鸟类是自然生态系统中的重要成员,通过对鸟类活动、种群行为的监测能够从一定程度生反应生态区域内生态系统的循环流畅程度和生态平衡的稳定性。因此通过对生态区内鸟类物种的识别与监测,能够反应生态区内的生态适宜性,辅助生态区的管理人员更好的维护生态区内的生态环境。
2、迁移学习的目的在于通过将源域中的数据、特征、知识等迁移到目标域中,丰富目标域,提高神经网络模型对目标域中数据的学习能力。迁移学习的具体方法包括权重迁移、知识蒸馏、fine-tuning等,特征迁移是现阶段迁移学习常用的迁移方式,但是由于源域和目标域中的数据种类、数据量本身就不相同,即在鸟鸣识别的过程中,源域中的数据可能与目标域中的数据并不属于同一种数据,这种情况就会导致在迁移过程中通常忽视了源领域与目标领域数据的特征分布可能存在差异,此时源领域数据的特征无法被目标领域充分利用,迁移学习的效果较差,导致迁移后识别模型对生态区内混合鸟鸣信号的识别效果较差。
技术实现思路
1、本发明提供基于深度迁移学习的混合鸟鸣识别方法,以解决源领域与目标领域数据的特征分布差异对迁移效果的影响过大,导致混合鸟鸣识别率过低的问题,所采用的技术方案具体如下:
2、本发明一个实施例提供了基于深度迁移学习的混合鸟鸣识别方法,该方法包括以下步骤:
3、采集生态区内的混合鸟鸣信号;
4、将每个混合鸟鸣信号的频谱图划分成相同尺度的频谱子图,基于每个频谱子图上每一帧处谐波成分的相关性和衰减特征确定每个频谱子图上每一帧的鸟鸣帧识别概率;
5、基于每个频谱子图上所有帧的鸟鸣帧识别概率的分布特征确定每个频谱子图上每一帧的帧扩展尺度;基于每个频谱子图上每一帧的帧扩展尺度确定每一帧的鸟鸣特征图;
6、将预训练的识别模型中的权重参数迁移到混合鸟鸣识别模型,基于混合鸟鸣识别模型确定所述鸟鸣特征图的识别结果。
7、优选的,所述基于每个频谱子图上每一帧处谐波成分的相关性和衰减特征确定每个频谱子图上每一帧的鸟鸣帧识别概率的方法为:
8、基于每个频谱子图上两帧的最大谐波成分向量、以及两帧中所有采样点的帧内稳定向量确定两帧之间的谐波分量相关性;
9、基于每个频谱子图上两帧上相同次序采样点处能量的变化情况确定两帧之间的鸣叫衰减相关性;
10、基于每个频谱子图上每一帧与其余帧之间的谐波分量相关性、鸣叫衰减相关性确定每个频谱子图上每一帧的鸟鸣帧识别概率。
11、优选的,所述基于每个频谱子图上两帧的最大谐波成分向量、以及两帧中所有采样点的帧内稳定向量确定两帧之间的谐波分量相关性的方法为:
12、将每个频谱子图上每一帧内的每个采样点的振幅与每一帧内其余采样点振幅差值的绝对值组成的向量作为每个采样点的帧内稳定向量;
13、将两帧上任意一个相同次序采样点的帧内稳定向量之间的度量距离在每帧内所有采样点上的累加结果作为第一乘积因子;
14、将每个频谱子图上每一帧中所有谐波成分中能量最大值按照谐波频率升序顺序组成的向量作为每一帧的最大谐波成分向量;
15、将第一乘积因子与两帧的最大谐波成分向量之间的度量距离的乘积作为两帧之间的谐波分量相关性。
16、优选的,所述基于每个频谱子图上两帧上相同次序采样点处能量的变化情况确定两帧之间的鸣叫衰减相关性的方法为:
17、将每个频谱子图上每一帧上的任意一个采样点作为一个目标采样点,统计每个目标帧上谐波分量的数量;
18、将每个谐波分量在每一帧上每个目标采样点处的能量值作为分子;将每个谐波分量在其余任意一帧上相同次序目标采样点处的能量值与预审参数之和作为分母,将分子与分母的比值作为所述每个目标采样点的能量波动量;
19、将所述每个目标采样点其相邻下一个目标采样点之间能量波动量差值的绝对值作为第一差值;将第一差值在每个频谱子图内两帧上所有谐波分量上的累加结果作为两帧之间的鸣叫衰减相关性。
20、优选的,所述基于每个频谱子图上每一帧与其余帧之间的谐波分量相关性、鸣叫衰减相关性确定每个频谱子图上每一帧的鸟鸣帧识别概率的方法为:
21、将每个频谱子图上每一帧作为一个目标帧,将每个目标帧与其余任意一帧之间的谐波分量相关性的映射结果与每个目标帧与其余任意一帧之间的鸣叫衰减相关性的映射结果之和作为第一累加因子;
22、将第一累加因子在每个频谱子图上所有帧上累加结果的均值作为每个目标帧的鸟鸣帧识别概率。
23、优选的,所述基于每个频谱子图上所有帧的鸟鸣帧识别概率的分布特征确定每个频谱子图上每一帧的帧扩展尺度的方法为:
24、将每个频谱子图中所有帧的鸟鸣帧识别概率作为输入,采样突变点检测算法获取每个频谱子图中所有帧的鸟鸣帧识别概率中的突变点,将每个所述突变点对应的帧记为一个突变帧;
25、基于每个频谱子图上与每一帧之间的时间间隔最短的突变帧确定每个频谱子图上每一帧的左侧边界帧、右侧边界帧,将每一帧的左侧边界帧、右侧边界帧之间帧的数量作为每一帧的帧扩展尺度。
26、优选的,所述基于每个频谱子图上与每一帧之间的时间间隔最短的突变帧确定每个频谱子图上每一帧的左侧边界帧、右侧边界帧的方法为:
27、分别将每个频谱子图上与每一帧之间的时间间隔最短且位于每一帧左侧、右侧的突变帧作为每一帧的左临界突变帧、右临界突变帧;
28、将每一帧与其左临界突变帧的鸟鸣帧识别概率之间差值的绝对值与第一预设参数之和作为左侧识别差值,将左侧识别差值的倒数与第二预设参数之和作为左侧扩展比;
29、将每一帧与其左临界突变帧之间帧的数量与左侧扩展比乘积取整的结果作为每一帧的左侧边界帧;
30、将每一帧与其右临界突变帧的鸟鸣帧识别概率之间差值的绝对值与第一预设参数之和作为右侧识别差值,将右侧识别差值的倒数与第二预设参数之和作为右侧扩展比;
31、将每一帧与其右临界突变帧之间帧的数量与右侧扩展比乘积取整的结果作为每一帧的右侧边界帧。
32、优选的,所述基于每个频谱子图上每一帧的帧扩展尺度确定每一帧的鸟鸣特征图的方法为:
33、将每个频谱子图上每一帧的左侧边界帧至右侧边界帧之间所有帧组成的频谱图作为每一帧的识别帧;
34、分别将每一帧的识别帧、mel倒谱图、chirplet语谱图的尺度调整至预设尺度,将尺度调整后的每一帧的识别帧、mel倒谱图、chirplet语谱图进行拼接得到每一帧的鸟鸣特征图。
35、优选的,所述将预训练的识别模型中的权重参数迁移到混合鸟鸣识别模型的方法为:
36、将利用imagenet训练的vgg16模型作为预训练的识别模型;
37、将利用鸟鸣特征图作为训练样本训练的vgg16网络的裁剪结果作为混合鸟鸣识别模型中的特征提取网络;
38、将预训练的识别模型中卷积层以及全连接层的权重参数迁移到混合鸟鸣识别模型中的特征提取网络。
39、优选的,所述混合鸟鸣识别模型的裁剪方式为:去除vgg16模型的最后两个全连接层和最后一个softmax输出层,保留第一个全连接层。
40、本发明的有益效果是:本发明通过基于每个频谱子图内帧与帧之间的谐波成分在频率方向,时间方向上的结构特征和衰减程度确定每一帧的鸟鸣帧识别概率;并基于每个频谱子图内每一帧的鸟鸣帧识别概率以及相邻突变帧的鸟鸣帧识别概率自适应确定每一帧的帧扩展尺度,帧扩展尺度考虑了帧扩展时的端点问题,其有益效果在于避免仅通过突变点检测确定帧扩展尺度时,忽略频谱子图中的突变帧同样包含有用的鸟鸣特征的问题,能够根据每一帧上的鸟鸣特征自适应的确定帧扩展时的尺度;并基于每一帧的识别帧、mel倒谱图、chirplet语谱图构建每一帧的鸟鸣特征图作为混合鸟鸣识别模型的输入,提高了权重迁移后混合鸟鸣识别模型对混合鸟鸣信号的识别能力。
本文地址:https://www.jishuxx.com/zhuanli/20240618/22500.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表