技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种基于EC-EfficientNet的轻量化鸟鸣识别方法  >  正文

一种基于EC-EfficientNet的轻量化鸟鸣识别方法

  • 国知局
  • 2024-06-21 11:44:10

本发明涉及鸟类识别,具体而言,涉及一种基于ec-efficientnet的轻量化鸟鸣识别方法。

背景技术:

1、随着工业化的发展,越来越多的研究人员开始关注生态环境的变化。鸟类作为生态环境的重要组成部分,对生态环境的监测和维护起着十分重要的作用。

2、鸟类识别是鸟类监测的重要手段之一,识别的方法主要分为影像识别和声音识别两种。然而,影像识别的方法在采集的过程中容易受到树叶遮挡及天气的影响,而利用鸟鸣声进行鸟类识别可以缓解该局限性。鸟鸣声作为鸟类重要的识别特征之一,包含丰富的生态学信息,并且不同物种间的鸟鸣声具有独特性,存在生殖隔离的鸟类种群间鸟鸣声具有明显的差异性。因此,通过收集到的鸟鸣数据,可以了解鸟类的分布状态、分析鸟群的迁徙动向,为生态环境的监测提供依据。而现有的野外鸟鸣监测识别中,常采用相对传统的深度学习模型,而此类模型往往具有较大参数量,计算精度不适于野外噪声干扰的环境,同时计算成本较高,不适用于嵌入式的野外监测设备。

技术实现思路

1、本发明要解决的技术问题是:

2、现有的鸟鸣识别模型往往具有较大参数量,计算精度不适于野外噪声干扰的环境,同时计算成本较高,不适用于嵌入式的野外监测设备。

3、本发明为解决上述技术问题所采用的技术方案:

4、本发明提供了一种基于ec-efficientnet的轻量化鸟鸣识别方法,包括如下步骤:

5、步骤1:获取鸟鸣音频数据并对鸟鸣音频数据进行预处理;

6、步骤2:对预处理后的鸟鸣音频数据进行特征提取,得到mel倒谱系数;

7、步骤3:基于得到的mel倒谱系数进行动态差分参数的提取,然后与原mel倒谱系数融合得到mel动态融合特征的鸟鸣数据;

8、步骤4:构建ec-efficientnet鸟鸣识别模型,所述模型引入eca注意力机制,以捕获跨通道的交互信息,同时模型引入cbam注意力机制,分别从通道和空间两个维度对特征图的各部分赋予不同的权重,以将注意力集中在更为重要的信息上;

9、步骤5:基于所述ec-efficientnet鸟鸣识别模型对mel动态融合特征的鸟鸣数据进行分类识别。

10、进一步地,步骤1中所述的对鸟鸣音频数据进行预处理,具体包括:

11、步骤1-1:针对获取到的鸟鸣音频数据,通过高通滤波器进行预加重;

12、步骤1-2:将预加重后的信号分成短时帧进行分帧处理;

13、步骤1-3:针对于每一个帧使用汉明窗进行加窗处理。

14、进一步地,步骤1-3中所述针对于每一个帧使用汉明窗进行加窗处理,其中窗公式为:

15、

16、其中a为窗公式参数,n为帧的大小,加窗后的信号为:

17、s′(n)=s(n)×w(n)

18、式中,s(n)表示分帧后的信号,n=0,1,…,n-1。

19、进一步地,步骤2中所述对预处理后的鸟鸣音频数据进行特征提取,其具体过程为:

20、步骤2-1:对分帧加窗后的各帧信号进行快速傅里叶变换得到各帧的频谱;

21、步骤2-2:将得到的各帧频谱输入到三角带通滤波器中进行mel滤波,取模平方后得到鸟鸣信号功率谱;

22、步骤2-3:通过对功率谱进行取绝对值和对数运算,计算出每个滤波器组输出的对数能量;

23、步骤2-4:将对数能量带入离散余弦变换,通过dct分离得到mel倒谱系数。

24、进一步地,步骤2-2中所述鸟鸣信号功率谱为:

25、

26、式中,m为滤波器的个数,f(m)为中心频率;

27、

28、当k<f(m-1)和k>f(m+1)时,hm(k)取0。

29、进一步地,步骤2-4中所述dct分离的计算方法为:

30、

31、式中,l为mel系数阶数,m为三角滤波器个数。

32、进一步地,步骤3包括如下步骤:

33、步骤3-1:对mel倒谱系数进行动态一阶差分参数提取,得到一阶mel动态差分特征;

34、步骤3-2:对得到的一阶mel动态差分特征进行动态二阶差分参数提取,得到二阶mel动态差分特征;

35、步骤3-3:将mel倒谱系数、一阶mel动态差分特征和二阶mel动态差分特征进行融合,得到mel动态融合特征。

36、进一步地,步骤4所述ec-efficientnet鸟鸣识别模型,以efficientnet-b0作为模型的基础网络结构,主干结构包括7个conv-bn-swish模块,各conv-bn-swish模块依次分别包括:一层eca-mbconv模块、两层eca-mbconv模块、一层cbam-mbconv模块和一层eca-mbconv模块、一层cbam-mbconv模块和两层eca-mbconv模块、一层cbam-mbconv模块和两层eca-mbconv模块、四层eca-mbconv模块、一层eca-mbconv模块。

37、进一步地,所述eca-mbconv模块由升维卷积模块、深度可分离卷积、eca注意力模块、降维卷积模块组成,其中升维卷积模块和降维卷积模块的卷积核为1×1,深度可分离卷积的卷积核为3×3,升维卷积模块和深度可分离卷积后设有bn层,使用swish激活函数,降维卷积模块后设有bn层,然后为dropout层;

38、所述cbam-mbconv模块由升维卷积模块、深度可分离卷积、cbam注意力模块和降维卷积模块组成,其中升维卷积模块和降维卷积模块的卷积核为1×1,深度可分离卷积的卷积核为3×3;升维卷积模块和深度可分离卷积后设有bn层,使用swish激活函数,降维卷积模块后设有bn层,然后为dropout层。

39、进一步地,cbam注意力模块的cam中mlp的缩放参数r设置为8。

40、相较于现有技术,本发明的有益效果是:

41、本发明一种基于ec-efficientnet的轻量化鸟鸣识别方法,在轻量化模型efficientnet-b0的基础上引入eca注意力机制,以减少模型参数量并提高特征表达能力,并进一步在中间层引入cbam注意力机制,加强识别任务中对位置信息的学习以提高模型性能。cbam注意力机制对于任意卷积神经网络生成的中间特征图,分别可以从通道和空间两个维度为特征图的各部分赋予不同的权重,将注意力集中在更为重要的信息上。本发明还通过对模型主干mbconv结构中的卷积核进行调整,进一步提高模型的准确率。

42、与传统的鸟鸣识别方法相比,本发明所提的方法具有更好的准确性和较少的参数量。

技术特征:

1.一种基于ec-efficientnet的轻量化鸟鸣识别方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的基于ec-efficientnet的轻量化鸟鸣识别方法,其特征在于,步骤1中所述的对鸟鸣音频数据进行预处理,具体包括:

3.根据权利要求2所述的基于ec-efficientnet的轻量化鸟鸣识别方法,其特征在于,步骤1-3中所述针对于每一个帧使用汉明窗进行加窗处理,其中窗公式为:

4.根据权利要求1所述的基于ec-efficientnet的轻量化鸟鸣识别方法,其特征在于,步骤2中所述对预处理后的鸟鸣音频数据进行特征提取,其具体过程为:

5.根据权利要求4所述的基于ec-efficientnet的轻量化鸟鸣识别方法,其特征在于,步骤2-2中所述鸟鸣信号功率谱为:

6.根据权利要求4所述的基于ec-efficientnet的轻量化鸟鸣识别方法,其特征在于,步骤2-4中所述dct分离的计算方法为:

7.根据权利要求1所述的基于ec-efficientnet的轻量化鸟鸣识别方法,其特征在于,步骤3包括如下步骤:

8.根据权利要求1所述的基于ec-efficientnet的轻量化鸟鸣识别方法,其特征在于,步骤4所述ec-efficientnet鸟鸣识别模型,以efficientnet-b0作为模型的基础网络结构,主干结构包括7个conv-bn-swish模块,各conv-bn-swish模块依次分别包括:一层eca-mbconv模块、两层eca-mbconv模块、一层cbam-mbconv模块和一层eca-mbconv模块、一层cbam-mbconv模块和两层eca-mbconv模块、一层cbam-mbconv模块和两层eca-mbconv模块、四层eca-mbconv模块、一层eca-mbconv模块。

9.根据权利要求8所述的基于ec-efficientnet的轻量化鸟鸣识别方法,其特征在于,所述eca-mbconv模块由升维卷积模块、深度可分离卷积、eca注意力模块、降维卷积模块组成,其中升维卷积模块和降维卷积模块的卷积核为1×1,深度可分离卷积的卷积核为3×3,升维卷积模块和深度可分离卷积后设有bn层,使用swish激活函数,降维卷积模块后设有bn层,然后为dropout层;

10.根据权利要求9所述的基于ec-efficientnet的轻量化鸟鸣识别方法,其特征在于,cbam注意力模块的cam中mlp的缩放参数r设置为8。

技术总结本发明一种基于EC‑EfficientNet的轻量化鸟鸣识别方法,涉及鸟类识别领域,为解决现有的鸟鸣识别模型往往具有较大参数量,计算精度不适于野外噪声干扰的环境,同时计算成本较高的问题。包括:步骤1:获取鸟鸣音频数据并进行预处理;步骤2:对鸟鸣音频数据进行特征提取,得到Mel倒谱系数;步骤3:基于得到的Mel倒谱系数进行动态差分参数的提取,然后与原Mel倒谱系数融合得到Mel动态融合特征的鸟鸣数据;步骤4:构建EC‑EfficientNet鸟鸣识别模型,模型引入ECA注意力机制,以捕获跨通道的交互信息,同时模型引入CBAM注意力机制,分别从通道和空间两个维度对特征图的各部分赋予不同的权重,以将注意力集中在更为重要的信息上;步骤5:对Mel动态融合特征的鸟鸣数据进行分类。技术研发人员:罗辉,贺浩伦受保护的技术使用者:东北林业大学技术研发日:技术公布日:2024/4/17

本文地址:https://www.jishuxx.com/zhuanli/20240618/23220.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。