一种面向复杂声景的鸟声特征提取和识别的方法与系统
- 国知局
- 2024-06-21 11:43:42
本发明涉及音频信号识别,特别是涉及一种面向复杂声景的鸟声特征提取和识别的方法与系统。
背景技术:
1、“声景”作为一个声音、环境、人三者合一的声环境概念,逐渐受到人们的关注。不同的声景环境可以唤起不同的情绪,产生不同的效果和不同的影响。声音在各个领域的应用也越来越多,诸如自然保护、安防监控、人机交互等。全球大约有近10000种鸟类,鸟鸣在生活中出现频率很高,人们也对不同的鸟类叫声很感兴趣。
2、鸟类的声音不仅仅是美妙的音乐,更是当地生态系统状况和鸟类生活状态的重要反映。通过倾听鸟鸣,可以获取很多关于当地自然环境的信息。对生物多样性保护、环境监测和研究来说,这些信息的作用和价值无可比拟。鸟鸣识别在现实生活和各类研究中也有着广阔的应用场景和深远的研究意义。
3、机器学习可以应用于鸟鸣识别,帮助识别不同种类的鸟类。相比于机器学习在图像处理领域的热度,其在声景识别领域的研究并不多。一种常见的方法是使用监督学习,通过收集大量不同种类鸟类的声音样本(野外录音或实验室录音),并且标记它们所属的种类,以训练机器学习模型。在训练过程中,机器学习模型将学习如何区分不同种类鸟类的声音特征,并将其与相应的鸟类进行匹配。训练完成后,模型可以对新的声音样本进行自动分类,从而确定它们所属的鸟类。
4、另外,还有深度学习的方法,如卷积神经网络(convolutional neural networks)可以应用于鸟鸣识别。它直接从原始声音信号中提取特征,而无需人为地提取特征。通过大规模的数据集和适当的训练策略,卷积神经网络能够学习到丰富的、不同频率的声音特征,能够更加准确地识别不同种类的鸟类。
5、但是,由于鸟类物种繁多、发声方式复杂、特征提取困难,因此在人声识别领域常采用的一些方法,例如声纹识别,难以被迁移到鸟声识别领域中来。并且,虽然神经网络能够实现通过鸟鸣实现鸟类识别的效果,但是,在采用机器学习或神经网络进行鸟鸣识别的过程中,需要鸟类学家手动标记样本,才能保证识别的精确性,大大增加了鸟鸣识别的难度和复杂性。
技术实现思路
1、为解决现有技术存在的上述问题,本发明提供了一种面向复杂声景的鸟声特征提取和识别的方法与系统。
2、为实现上述目的,本发明提供了如下方案:
3、一种面向复杂声景的鸟声特征提取和识别的方法,包括:
4、对鸟鸣音频数据进行预处理得到语谱数据;
5、对所述语谱数据进行增强处理;
6、构建鸟声探测模型,并采用所述鸟声探测模型基于增强处理后的语谱数据生成探测结果;所述探测结果为包含鸟鸣概率的语谱图;
7、构建分类模型,并采用所述分类模型基于所述探测结果生成鸟鸣概率的多标签分类结果;
8、采用lightgbm算法,从多标签分类结果中选取目标鸟类,得到鸟类目标分类值;
9、确定二分类阈值和鸟声阈值,并根据所述二分类阈值、所述鸟声阈值以及所述鸟类目标分类值确定鸟类的最终识别结果。
10、可选地,对鸟鸣音频数据进行预处理得到语谱数据,具体包括:
11、确定鸟鸣音频信号参数,并对鸟鸣音频信号进行预加重处理;
12、采用梅尔频率倒谱系数对预加重处理后的鸟鸣音频信号进行短时间窗口分割;所述短时间窗口的帧长为设定值;
13、对分割得到的每一帧鸟鸣音频信号进行窗函数加窗操作得到窗口信号;
14、对每一窗口信号进行快速傅里叶变换,并进行可视化处理得到频谱图;
15、采用一组梅尔滤波器对所述频谱图进行滤波,并对滤波后的频谱图进行对数压缩得到对数能量谱;
16、对所述对数能量谱进行离散余弦变换得到倒谱系数,保留设定个数的倒谱系数作为特征向量,得到所述语谱数据。
17、可选地,对所述语谱数据进行增强处理采用的方法包括添加形变、添加掩码、添加噪声、图片滚动、图片拉伸、图片翻转、图片裁剪、图片压缩以及图片归一化中的任意一种或多种。
18、可选地,所述鸟声探测模型的构建过程包括:
19、获取包含鸟声的数据集,并按照有鸟声、无鸟声以及鸟鸣概率对所述数据集中的音频片段进行标注得到标注数据;
20、将所述标注数据按照统一长度进行切割得到多段音频数据;
21、对每段音频数据进行数据增强处理得到训练样本集;
22、采用训练样本集训练resnext-50模型,得到训练好的resnext-50模型;
23、将训练好的resnext-50模型作为所述鸟声探测模型。
24、可选地,利用adam优化器和余弦退火算法训练resnext-50模型。
25、可选地,所述分类模型的构建过程包括:
26、对单鸟种音频进行数据预处理得到单物种音频语谱图;
27、采用鸟声探测模型确定每一单物种音频语谱图中单鸟种音频对应鸟种的鸟鸣概率,并将单鸟种音频对应鸟种的鸟鸣概率组合为多物种鸟鸣概率的多标签训练集;所述多标签训练集中一张语谱图对应一个多标签分类;
28、采用多标签训练集训练resnest模型,得到训练好的resnest模型;
29、将训练好的resnest模型作为所述分类模型。
30、可选地,采用三分查找法确定二分类阈值和鸟声阈值。
31、进一步,本发明提供了一种面向复杂声景的鸟声特征提取和识别的系统,所述系统应用于上述提供的面向复杂声景的鸟声特征提取和识别的方法;所述系统包括:
32、预处理模块,用于对鸟鸣音频数据进行预处理得到语谱数据;
33、增强处理模块,用于对所述语谱数据进行增强处理;
34、探测结果生成模块,用于构建鸟声探测模型,并采用所述鸟声探测模型基于增强处理后的语谱数据生成探测结果;所述探测结果为包含鸟鸣概率的语谱图;
35、多标签分类模块,用于构建分类模型,并采用所述分类模型基于所述探测结果生成多标签分类结果;
36、第一鸟类识别模块,采用lightgbm算法基于多标签分类结果得到鸟类目标分类值;
37、第二鸟类识别模块,用于确定二分类阈值和鸟声阈值,并根据所述二分类阈值、所述鸟声阈值和所述鸟类目标分类值确定鸟类的最终识别结果。
38、根据本发明提供的具体实施例,本发明公开了以下技术效果:
39、本发明对鸟鸣音频数据进行预处理得到语谱数据,能够对多种格式的音频进行规范统一的读取与处理。构建鸟声探测模型,能够对音频中是否存在鸟声进行检测。建立分类模型,能够给出输入音频的多标签分类结果,并采用lightgbm模型用于从中选择目标鸟种。最后,计算二分类阈值和鸟声阈值,并根据所述阈值筛选与确定鸟声识别的最终结果,才能够精确地自动识别复杂声景中的鸟声,进而解决因鸟类物种繁多、发声方式复杂、特征提取困难,而导致人声识别领域常采用方法难以迁移到鸟声识别领域中的问题,让鸟类学家从繁琐的手动标记与识别从解放出来,实现自动化鸟声识别,给鸟类研究提供更大量的数据支持。
本文地址:https://www.jishuxx.com/zhuanli/20240618/23161.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。