基于特征融合的鸟类声音智能识别方法与流程
- 国知局
- 2024-06-21 11:37:46
本技术涉及语音处理,具体涉及基于特征融合的鸟类声音智能识别方法。
背景技术:
1、鸟类是自然生态系统中的重要成员,通过对鸟类鸟叫数据的监测能够从一定程度生反应生态区域内生态系统的循环流畅程度和生态平衡的稳定性。因此通过对生态区内鸟鸣数据的识别与监测,能够反应生态区内的生态适宜性,辅助生态区的管理人员更好的维护生态区内的生态环境。
2、鸟鸣识别的过程涉及多个步骤,包括采集鸟鸣数据、鸟鸣数据的预处理、数据特征的提取、鸟鸣识别等。数据特征的提取是指从鸟鸣信号中提取有意义的特征来表示语音,对鸟类声音的识别至关重要,现阶段常用的音频特征包括梅尔倒谱系数mfcc(mel frequencycepstral coefficients)、线性预测倒谱系数lpcc(linear predictive cepstralcoefficients)、谱线频率lsf(line spectral frequencies)等等,每种音频特征对音频数据的表达能力不同,例如的优点是具有很好的人类感知属性,能够有效地抽取语音信号的关键特征,lpcc与mfcc相比,在抗噪能力和特征表达能力方面具有一定优势,但是mfcc反映的是通常是语音信号的静态特征,不能反映鸟鸣过程中的动态特征;而lpcc易受到噪声的干扰,因此需要从鸟鸣信号中提取不同的特征进行融合,提高鸟类智能识别的精度。
技术实现思路
1、本技术提供基于特征融合的鸟类声音智能识别方法,以解决单一音频特征不能充分反映鸟鸣过程中动态变化的问题,所采用的技术方案具体如下:
2、本技术一个实施例提供了基于特征融合的鸟类声音智能识别方法,该方法包括以下步骤:
3、采集生态区内不同鸟类的鸟鸣数据;
4、基于每个鸟鸣数据的频谱图采样均匀分块的方式确定每个鸟鸣数据的频谱向量;基于每个鸟鸣数据的频谱向量在自编码器潜在空间中每个维度上的投影长度确定每个鸟鸣数据的频谱向量与每个潜在空间维度之间的音频信息相关系数;
5、基于不同鸟类下鸟鸣数据的频谱向量与相同潜在空间维度之间的音频信息相关系数确定自编码器潜在空间中每个维度关于不同种鸟类的维度区分系数;
6、根据不同鸟类下鸟鸣数据的频谱向量以及每个潜在空间维度的维度区分系数确定不同种鸟类之间的鸟鸣特征向量;
7、基于不同种鸟类之间的鸟鸣特征向量以及图像识别模型所提取特征向量的特征融合结果确定鸟鸣数据的鸟类识别结果。
8、优选的,所述基于每个鸟鸣数据的频谱图采样均匀分块的方式确定每个鸟鸣数据的频谱向量的方法为:
9、将每个鸟鸣数据的频谱图上所有相邻振幅峰值之间时间间隔的均值作为每个鸟鸣数据的频谱图上的分割时长;
10、利用所述分割时长将每个鸟鸣数据的频谱图划分为不同的图像块,利用预设尺度的滑动窗口以预设滑动步长在每个图像块内沿着频率上升的方向滑动,将每个滑动窗口内所有采样点的能量值组成的矩阵作为每个滑动窗口的能量矩阵;
11、利用局部二值算法获取每个滑动窗口的能量矩阵中每个元素的lbp值,将每个图像块内每种不相等的lbp值作为一类lbp值,将每个图像块内所有类lbp值按照每类lbp出现频率降序顺序排列得到的向量作为每个图像块的能力二值向量;
12、将每个鸟鸣数据的频谱图上所有图像块的能力二值向量按照时间顺序组成的向量作为每个鸟鸣数据的频谱向量。
13、优选的,所述基于每个鸟鸣数据的频谱向量在自编码器潜在空间中每个维度上的投影长度确定每个鸟鸣数据的频谱向量与每个潜在空间维度之间的音频信息相关系数的方法为:
14、基于所有种鸟类下所有鸟鸣数据的频谱向量确定自编码器中每个潜在空间维度的显著向量;
15、将每个鸟鸣数据的频谱向量与每个潜在空间维度的显著向量之间的度量距离与预设参数之和作为分母;
16、将每个鸟鸣数据的频谱向量在每个潜在空间维度上的投影长度与分母的比值作为每个鸟鸣数据与每个潜在空间维度之间的音频信息相关系数。
17、优选的,所述基于所有种鸟类下所有鸟鸣数据的频谱向量确定自编码器中每个潜在空间维度的显著向量的方法为:
18、将每种鸟类下每个鸟鸣数据的频谱向量作为矩阵的一个行向量,将所有种鸟类下所有鸟鸣数据的频谱向量按照种类排列组成的矩阵作为多种类频谱矩阵;
19、利用生态区数据中心已有鸟鸣信号的声音数据对应的频谱向量训练神经网络自编码器,提取训练后的神经网络自编码器中的编码器部分,将多种类频谱矩阵作为输入,采用所述编码部分将多种类频谱矩阵中每个行向量都映射为相应的低维表示;
20、将神经网络自编码器中潜在空间中距离每个维度欧式距离最小的低维数据点组成的向量作为每个潜在空间维度的显著向量。
21、优选的,所述基于不同鸟类下鸟鸣数据的频谱向量与相同潜在空间维度之间的音频信息相关系数确定自编码器潜在空间中每个维度关于不同种鸟类的维度区分系数的方法为:
22、根据所有鸟鸣数据与相同潜在空间维度之间的音频信息相关系数的聚类结果确定每种鸟类下每个鸟鸣数据的同类映射密度;
23、根据每种鸟类下鸟鸣数据与每个潜在空间维度之间的音频信息相关系数删除前后对另一种鸟类下每个鸟鸣数据的同类映射密度的影响程度确定两种鸟类下两个鸟鸣数据的信息成分区分度;
24、将两种鸟类下两个鸟鸣数据的信息成分区分度在量子鸟类下所有鸟鸣数据上累加结果的均值作为每个潜在空间维度关于两种鸟类的维度区分系数。
25、优选的,所述根据所有鸟鸣数据与相同潜在空间维度之间的音频信息相关系数的聚类结果确定每种鸟类下每个鸟鸣数据的同类映射密度的方法为:
26、将所有鸟鸣数据的频谱向量与每个潜在空间维度之间的音频信息相关系数作为输入,采用数据聚类算法获取所述音频信息相关系数的聚类结果;
27、将每种鸟类下每个鸟鸣数据与每个潜在空间维度之间的信息相关系数所在聚类簇中元素的数量作为分母;
28、将每种鸟类下每个鸟鸣数据与每个潜在空间维度之间的信息相关系数所在聚类簇中对应同种鸟类的元素数量与分母的比值作为每种鸟类下每个鸟鸣数据的同类映射密度。
29、优选的,所述根据每种鸟类下鸟鸣数据与每个潜在空间维度之间的音频信息相关系数删除前后对另一种鸟类下每个鸟鸣数据的同类映射密度的影响程度确定两种鸟类下两个鸟鸣数据的信息成分区分度的方法为:
30、
31、式中,是第1个潜在空间维度对a、b两种鸟类中第c、p个鸟鸣数据之间的信息成分区分度,是第a种鸟类中第c个鸟鸣数据的同类映射密度,是删除第b种鸟类与第1个潜在空间维度之间的音频信息相关系数后第a种鸟类中第c个鸟鸣数据的同类映射密度;是第b种鸟类中第p个鸟鸣数据的同类映射密度、是删除第a种鸟类与第1个潜在空间维度之间的音频信息相关系数后,第b种鸟类中第p个鸟鸣数据的同类映射密度;是调参因子。
32、优选的,所述根据不同鸟类下鸟鸣数据的频谱向量以及每个潜在空间维度的维度区分系数确定不同种鸟类之间的鸟鸣特征向量的方法为:
33、将关于两种鸟类的维度区分系数中最大值对应的潜在空间维度组成的坐标系作为两种鸟类鸟鸣数据的目标映射坐标系;
34、根据每种鸟类与其余任意一种鸟类鸟鸣数据在两种鸟类鸟鸣数据的目标映射坐标系中的映射向量确定每种鸟类的类代表向量;
35、将每种鸟类的类代表向量与所述目标映射坐标系的维度数量的乘积作为每种鸟类关于其余任意一种鸟类的鸟鸣特征向量。
36、优选的,所述根据每种鸟类与其余任意一种鸟类鸟鸣数据在两种鸟类鸟鸣数据的目标映射坐标系中的映射向量确定每种鸟类的类代表向量的方法为:
37、获取两种鸟类下每个鸟鸣数据在两种鸟类鸟鸣数据的目标映射坐标上的映射结果作为每个鸟鸣数据的映射向量;
38、将每种鸟类下任意一个鸟鸣数据的映射向量作为一个目标向量,将每种鸟类下所有鸟鸣数据的映射向量与其余任意一种鸟类下所有目标向量之间度量距离的最大值对应的映射向量作为每种鸟类的类代表向量。
39、优选的,所述基于不同种鸟类之间的鸟鸣特征向量以及图像识别模型所提取特征向量的特征融合结果确定鸟鸣数据的鸟类识别结果的方法为:
40、将每种鸟类关于其余任意一种鸟类的鸟鸣特征向量作为一个行向量,将利用每种鸟类关于其余所有种鸟类的鸟鸣特征向量组成的矩阵作为每种鸟类的区分特征矩阵;
41、利用神经网络模型分别获取每种鸟类下每个鸟鸣数据mel语谱图、chirplet语谱图的图像特征向量;
42、采用首尾拼接的方式将所述图像特征向量分别与每种鸟类的区分特征矩阵中每个行向量进行拼接得到多维鸟鸣融合向量,将多维鸟鸣融合向量输入分类器得到鸟类识别结果。
43、本技术的有益效果是:本技术利用神经网络自编码器对多种鸟类的频谱向量组成的多种类频谱矩阵进行维度分析确定每个鸟的频谱向量与每个潜在空间维度之间的音频信息相关系数,根据音频信息相关系数构建不同维度的坐标系以及维度区分系数,用于评估不同潜在空间维度对不同鸟类的区分能力;并基于不同种鸟类的目标映射坐标系确定每种鸟类相较于其余种鸟类的鸟鸣特征向量,其有益效果在于能够利用不同潜在空间维度作为坐标系维度,并通过维度递增的方式对相似度较高的鸟鸣数据准确区分;并通过与resnet50网络提取的图像特征向量拼接完成特征融合,提高分类器输入数据的质量,使得识别模型对鸟鸣声音的识别结果更准确。
本文地址:https://www.jishuxx.com/zhuanli/20240618/22534.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表