技术新讯 > 乐器声学设备的制造及制作,分析技术 > 基于TDNN结构的鸟鸣物种自动识别方法与流程  >  正文

基于TDNN结构的鸟鸣物种自动识别方法与流程

  • 国知局
  • 2024-06-21 11:37:23

本发明涉及语音处理,具体涉及基于tdnn结构的鸟鸣物种自动识别方法。

背景技术:

1、鸟类是生态系统中重要的食物链和食物网的一部分。鸟类通过捕食昆虫、小型哺乳动物和其他小型生物,帮助控制种群的数量,维持了生态系统的平衡,有助于维持生态系统的稳定性。鸟鸣是鸟类生存活动中的必要行为手段,鸟鸣的音调、长短随着鸟类活动的不同存在差异。因此,识别鸟鸣信息、了解鸟类活动对于维护整个生态系统的平衡和稳定具有重要意义。

2、鸟类身体较小,极易隐藏在生态区中森林内的树木上、灌木丛中等隐蔽之处,但是鸟鸣声却可以传播的很远,且不同种鸟类的鸟鸣声之间具有一定的可区分性,因此通过鸟鸣声识别鸟类是现阶段的常用方法。得益于对大量数据优异的学习能力、训练能力,深度学习的技术在鸟鸣识别中广泛应用,通过从鸟鸣数据中提取特征训练模型识别鸟类的能力。由于鸟鸣数据是多频率、多音调的混合音频,因此要求模型对时序信号具有较强的处理能力。时延神经网络tdnn(time-delay neural networks)是最早用于处理音频信号的网络之一,但是tdnn对输入序列的长度有一定的限制,且对不同长度的鸟鸣信号的处理过程较为复杂;除此之外,tdnn中存在记忆容量问题,导致每个神经元只能获取有限个时间步长之前的输入信息,对混合鸟鸣数据中不同鸟鸣特征的区分能力较弱。

技术实现思路

1、本发明提供基于tdnn结构的鸟鸣物种自动识别方法,以解决tdnn对输入序列长度限制以及记忆容量导致混合鸟鸣数据识别率低的问题,所采用的技术方案具体如下:

2、本发明一个实施例基于tdnn结构的鸟鸣物种自动识别方法,该方法包括以下步骤:

3、采集生态区内的混合鸟鸣数据;

4、将每个混合鸟鸣数据的频谱图划分成尺度相等的频谱子图;基于每个频谱子图上每一帧处信号能量的周期性以及鸟鸣音高的稳定性确定每个频谱子图上每一帧的鸟鸣音节覆盖率;

5、根据每个频谱子图上每一帧的单帧能量向量所在聚类簇中每一帧的鸟鸣音节覆盖率、信息逼近系数确定每个频谱子图上每一帧的时频掩蔽概率;

6、基于每个频谱子图上每一帧的鸟鸣音节覆盖率、时频掩蔽概率确定每个频谱子图上每一帧的频谱掩蔽值;基于每个频谱子图上所有帧的频谱掩蔽值构建每个频谱子图的时频掩蔽图;

7、采用tdnn识别模型基于每个频谱子图及其时频掩蔽图确定每个混合鸟鸣数据对应的物种识别结果。

8、优选的,所述将每个混合鸟鸣数据的频谱图划分成尺度相等的频谱子图的方法为:

9、利用预设尺度的时间窗口按照预设移动步长在每个混合鸟鸣数据的频谱图上沿着时间顺序滑动,将每个时间窗口滑动位置内的频谱图作为一个频谱子图。

10、优选的,所述基于每个频谱子图上每一帧处信号能量的周期性以及鸟鸣音高的稳定性确定每个频谱子图上每一帧的鸟鸣音节覆盖率的方法为:

11、基于每个频谱子图上每一帧上所有频率点的能量值、预测能量值确定每一帧上每个频率点的能量周期稳定性;

12、基于每个频谱子图上音高相等的频率点所在不同帧之间的时间差确定每一帧上每个频率点的音高可预测系数;

13、分别将每个频谱子图上每一帧上所有频率点的能量周期稳定性、音高可预测系数按照频率升序顺序组成的向量作为每一帧的能量稳定评估向量、音高可预测向量;

14、将每一帧的能量稳定评估向量与其余任意一帧的能量稳定评估向量之间的相似性度量结果作为分子;

15、将每一帧的音高可预测向量与其余任意一帧的音高可预测向量之间的相似性度量结果与预设参数之和作为分母;

16、将分子与分母的比值在每个频谱子图上其余所有帧上累加结果的均值作为每一帧的鸟鸣音节覆盖率。

17、优选的,所述基于每个频谱子图上每一帧上所有频率点的能量值、预测能量值确定每一帧上每个频率点的能量周期稳定性的方法为:

18、分别将每个频谱子图上每帧信号中能量最大值、最小值所在的所有频率组成的集合作为每一帧的极大频率集合、极小频率集合;采用数据预测算法基于每一帧的极大频率集合、极小频率集确定每一帧上每个频率点的预测能量值;

19、将每一帧上每一频率点的能量值与其余频率点的能量值之间的差值所组成序列的赫斯特指数作为分子;

20、将之间差值的绝对值与预设参数之和作为分母;将分子与分母的比值作为每一帧上每个频率点的能量周期稳定性。

21、优选的,所述基于每个频谱子图上音高相等的频率点所在不同帧之间的时间差确定每一帧上每个频率点的音高可预测系数的方法为:

22、将每个频谱子图上任意一个与每一帧上每个频率点的音高相等的频率点所在的帧作为每一帧上每个频率点的一个等音高帧;将每个频谱子图上每一帧上每个频率点的所有等音高帧与每一帧之间的时间差组成集合内元素的方差作为分子;

23、将每个频谱子图中每一帧上所有频率点的音高中的最大值与其余任意一帧上所有频率点的音高中的最大值之间差值作为第一音高差值;将第一音高差值在每个频谱子图中其余所有帧上的累加结果与预设参数之和作为分母;

24、将分子与分母的比值作为每一帧上每个频率点的音高可预测系数。

25、优选的,所述根据每个频谱子图上每一帧的单帧能量向量所在聚类簇中每一帧的鸟鸣音节覆盖率、信息逼近系数确定每个频谱子图上每一帧的时频掩蔽概率的方法为:

26、将每个频谱子图上每一帧上所有频率点的能量值按照频率升序顺序组成的序列作为每一帧的单帧能量向量;将每一帧的单帧能量向量中所有元素的均值作为每一帧的能量均值;

27、将每个频谱子图中所有帧的单帧能量向量作为输入,采用聚类算法得到每一帧的单帧能量向量所在的聚类簇;

28、将每一帧的短时过零率与每一帧的能量均值的比值作为第一比例因子;将每个频谱子图中所有能量均值最大值对应帧的短时过零率与能量均值最大值的比值作为最大比例因子;将第一比例因子与最大比例因子之间的差值作为每一帧的信息逼近系数;

29、将每个频谱子图上所有帧的鸟鸣音节覆盖率中的最大值与每一帧的鸟鸣音节覆盖率的差值作为分子;将每一帧的信息逼近系数与预设参数之和作为分母,将分子与分母的比值作为每一帧的单帧掩蔽概率;

30、将每一帧的单帧能量向量所在聚类簇中所有元素对应帧的单帧掩蔽概率的均值作为每一帧的时频掩蔽概率。

31、优选的,所述基于每个频谱子图上每一帧的鸟鸣音节覆盖率、时频掩蔽概率确定每个频谱子图上每一帧的频谱掩蔽值的方法为:

32、分别将每个频谱子图上所有帧的鸟鸣音节覆盖率、时频掩蔽概率的均值作为第一均值、第二均值;

33、将每个频谱子图上鸟鸣音节覆盖率大于等于、小于第一均值的任意一帧的音节决策值分别置为1、0;

34、将每个频谱子图上时频掩蔽概率大于等于、小于第二均值的任意一帧的掩蔽决策值分别置为1、0;

35、将每个频谱子图上每一帧的音节决策值、掩蔽决策值的与运算结果作为每一帧的频谱掩蔽值。

36、优选的,所述基于每个频谱子图上所有帧的频谱掩蔽值构建每个频谱子图的时频掩蔽图的方法为:

37、将每个频谱子图上频谱掩蔽值为1的任意一帧上所有频率点的掩蔽值置为1;

38、对于每个频谱子图上音节决策值、掩蔽决策值均为0的任意一帧,基于每一帧上所有频率的噪声成分贡献确定每一帧上每个频率点的掩蔽值;

39、将每个频谱子图上每一帧上所有频率点的掩蔽值按照每个频谱图上频率点的位置构建的二值图作为每个频谱子图的时频掩蔽图。

40、优选的,所述基于每一帧上所有频率的噪声成分贡献确定每一帧上每个频率点的掩蔽值的方法为:

41、将每一帧上每个频率点的能量周期稳定性与每个频率点的音高可预测系数的比值作为每个频率点的噪声成分贡献;

42、将每一帧上所有频率点的噪声成分贡献作为输入,利用阈值分割算法获取每一帧上噪声成分贡献的分割阈值;

43、将噪声成分贡献大于所述分割阈值的任意一个频率点的掩蔽值置为0,将噪声成分贡献小于所述分割阈值的任意一个频率点的掩蔽值置为1。

44、优选的,所述采用tdnn识别模型基于频谱子图的增强鸟鸣特征图确定每个混合鸟鸣数据对应的物种识别结果的方法为:

45、将每个频谱子图与其时频掩蔽图相乘的结果作为每个频谱子图的增强鸟鸣特征图;将所有混合鸟鸣数据的频谱图中所有频谱子图的增强鸟鸣特征图作为输入,采用tdnn识别模型确定每个混合鸟鸣数据对应的物种识别结果。

46、本发明的有益效果是:本发明通过对频谱子图上每一帧处能量周期性以及音高的混乱程度构建鸟鸣音节覆盖率,评估每个混合鸟鸣数据中每一帧包含鸟鸣音节的可能性;其次通过对每一帧处频率振荡特征的分析确定每一帧的时频掩蔽概率,时频掩蔽概率考虑了频谱子图中的能量重叠的现象,降低部分帧上局部能量被噪声帧的能量覆盖的现象对每一帧评估结果的影响;其次基于每一帧的频谱掩蔽值确定每个频谱子图的时频掩蔽图,实现了对混合鸟鸣数据的增强,使得后续tdnn网络的物种识别结果准确率更高。

本文地址:https://www.jishuxx.com/zhuanli/20240618/22501.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。