技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种野外鸟类鸣声音频数据增强方法与流程  >  正文

一种野外鸟类鸣声音频数据增强方法与流程

  • 国知局
  • 2024-06-21 11:58:15

本发明涉及语音处理,具体涉及一种野外鸟类鸣声音频数据增强方法。

背景技术:

1、音频数据增强的目的是改善音频数据的质量和可懂度,提高音频识别等应用的性能。在识别野外鸟鸣信号时,采集的音频信号常常受到噪声、回声、失真等干扰,导致采集数据的质量下降,影响鸟类鸣声识别模型对信号的理解。因此,需要对生态区内采集的鸟鸣音频信号进行数据增强,减少干扰,使音频信号更清晰、更易于识别。

2、传统的谱减法将无音频段噪声的平均功率谱作为整个音频信号噪声估计的功率谱,用带噪音频信号中减去估计的噪声,从而得到干净的音频信号。但是,在面对非平稳噪声,尤其是生态区内存在音频采集设备、风、机械运动等造成噪声时,由于噪声的功率谱是随机波动的,会出现估计的噪声功率谱太大,波形相减使得不能为负的信号幅度谱出现负值的情况。如果直接将负值置为零,则会过度减少音频信号的能量,导致信号的部分信息丢失或失真,出现波形中断的情况,导致野外鸟鸣音频信号中鸟类鸣声识别率较低。

技术实现思路

1、为了解决上述技术问题,本发明提供一种野外鸟类鸣声音频数据增强方法,以解决现有的问题。

2、本发明的一种野外鸟类鸣声音频数据增强方法采用如下技术方案:

3、本发明一个实施例提供了一种野外鸟类鸣声音频数据增强方法,该方法包括以下步骤:

4、采集鸟鸣信号;

5、根据各帧鸟鸣信号的光谱质心分布得到各帧鸟鸣信号的音频明亮稳定系数;根据鸟鸣信号的采样频率将鸟鸣信号的频域等间隔划分为各个子带;根据各子带内鸟鸣信号的频谱分布得到各帧鸟鸣信号的子带谱熵;结合音频明亮稳定系数及子带谱熵得到各帧鸟鸣信号的帧有效率;

6、将各帧鸟鸣信号利用伽玛滤波器组得到各帧鸟鸣信号的各个频率的伽玛频率倒谱系数;将各帧鸟鸣信号的所有伽玛频率倒谱系数按频率降序的顺序排列作为各帧鸟鸣信号的倒谱系数序列;将倒谱系数序列的一阶差分序列作为各帧鸟鸣信号的单帧频谱变化序列;根据单帧频谱变化序列中各元素的分布规律得到各帧鸟鸣信号的频谱趋势参考系数;

7、根据各帧鸟鸣信号的高频能量分布得到各帧鸟鸣信号的高频区间衰减趋势值;结合频谱趋势参考系数与高频区间衰减趋势值得到各帧鸟鸣信号的二维高频变化拟合相似系数;结合二维高频变化拟合相似系数及帧有效率得到各帧鸟鸣信号的幅度谱下限;结合幅度谱下限、谱减法及神经网络模型完成鸟类鸣声识别中的数据增强。

8、优选的,所述根据各帧鸟鸣信号的光谱质心分布得到各帧鸟鸣信号的音频明亮稳定系数,包括:

9、利用python中的函数包获取各帧鸟鸣信号的光谱质心,计算所有帧鸟鸣信号光谱质心的均值作为鸟鸣信号的全局倾向值,针对各帧鸟鸣信号,将之前所有帧鸟鸣信号的光谱质心作为arima模型的输入,输出为各帧鸟鸣信号光谱质心的预测值;

10、计算各帧鸟鸣信号的光谱质心与之前所有帧鸟鸣信号的光谱质心组成的序列的偏相关系数,计算各帧鸟鸣信号的光谱质心与所述预测值的差值绝对值,计算各帧鸟鸣信号的光谱质心与所述全局倾向值的差值绝对值,计算两个差值绝对值的乘积,计算所述乘积与预设调参因子的和值,将所述偏相关系数与所述和值的比值作为各帧鸟鸣信号的音频明亮稳定系数。

11、优选的,所述根据各子带内鸟鸣信号的频谱分布得到各帧鸟鸣信号的子带谱熵,包括:

12、将各帧鸟鸣信号的子带与各帧鸟鸣信号前一帧鸟鸣信号的后预设数值个子带、后一帧鸟鸣信号的前预设数值个子带排列作为各帧鸟鸣信号的局部蔓延子带区间;

13、针对各帧鸟鸣信号,计算其中各子带内所有频率的幅度的和值,记为第一和值,计算局部蔓延子带区间内所有频率的幅度的和值,记为第二和值,将第一和值与第二和值的比值作为各帧鸟鸣信号各子带的功率谱概率分布,将各帧鸟鸣信号内所有子带的所述功率谱概率分布的信息熵作为各帧鸟鸣信号的子带谱熵。

14、优选的,所述结合音频明亮稳定系数及子带谱熵得到各帧鸟鸣信号的帧有效率,包括:

15、利用vad端点检测算法获取鸟鸣信号的各个无声信号区间,将第一个无声信号区间作为初检无声段,计算初检无声段中所有帧鸟鸣信号的子带谱熵的均值,计算各帧鸟鸣信号的子带谱熵与所述均值的差值绝对值,计算所有帧鸟鸣信号的所述差值绝对值的最大值与预设调参因子的和值,将各帧鸟鸣信号的音频明亮稳定系数与所述和值的比值作为各帧鸟鸣信号的帧有效率。

16、优选的,所述根据单帧频谱变化序列中各元素的分布规律得到各帧鸟鸣信号的频谱趋势参考系数,包括:

17、将各帧鸟鸣信号的倒谱系数序列中所有元素利用stl序列分解算法进行分解,将分解后所有元素的趋势项作为各帧鸟鸣信号的频谱趋势序列,将与各帧鸟鸣信号的帧有效率相同的其他帧作为各帧鸟鸣信号的可参考帧集合;

18、针对各帧鸟鸣信号,计算单帧频谱变化序列中所有元素的和值,记为第三和值,计算可参考帧集合中所有帧鸟鸣信号的单帧频谱变化序列中所有元素的和值的均值,将所述第三和值与所述均值的差值作为以自然常数为底数的指数函数的指数,计算频谱趋势序列与可参考帧集合中其他所有帧鸟鸣信号的频谱趋势序列的dtw距离的和值,记为第四和值,将所述指数函数的计算结果与所述第四和值的乘积作为各帧鸟鸣信号的频谱趋势参考系数。

19、优选的,所述根据各帧鸟鸣信号的高频能量分布得到各帧鸟鸣信号的高频区间衰减趋势值,包括:

20、获取各帧鸟鸣信号频谱图中的第一高频区间与第二高频区间,分别对第一高频区间、第二高频区间中所有频率及对应的能量进行线性拟合得到第一拟合直线、第二拟合直线;

21、各帧鸟鸣信号的高频区间衰减趋势值的表达式为:

22、

23、式中,是第i帧鸟鸣信号的高频区间衰减趋势值,、分别是第一高频区间、第二高频区间的预设数据权重,、分别是第i帧、第g帧鸟鸣信号上第一拟合直线的线性回归系数,、分别是第i帧、第g帧鸟鸣信号上第二拟合直线的线性回归系数,是第i帧鸟鸣信号的可参考帧集合中帧的数量。

24、优选的,所述获取各帧鸟鸣信号频谱图中的第一高频区间与第二高频区间,包括:

25、针对各帧鸟鸣信号,将各帧鸟鸣信号中所有频率采用四分位数法获取频率的上四分位数、中位数,分别将频率的上四分位数至频率最大值之间的频率区间作为第一高频区间,将频率的中位数至频率的上四分位数之间的频率区间作为第二高频区间。

26、优选的,所述结合频谱趋势参考系数与高频区间衰减趋势值得到各帧鸟鸣信号的二维高频变化拟合相似系数,包括:

27、利用python中的函数包获取各帧鸟鸣信号的滚降系数;各帧鸟鸣信号的二维高频变化拟合相似系数的表达式为:

28、

29、式中,是第i帧鸟鸣信号的二维高频变化拟合相似系数,是第i帧鸟鸣信号的滚降系数,是归一化函数,是第i帧鸟鸣信号的高频区间衰减趋势值,是第i帧鸟鸣信号的频谱趋势参考系数,是预设调参因子,是以自然常数为底数的指数函数。

30、优选的,所述结合二维高频变化拟合相似系数及帧有效率得到各帧鸟鸣信号的幅度谱下限,表达式为:

31、

32、式中,是第i帧鸟鸣信号的幅度谱下限,、分别是第i帧鸟鸣信号的帧有效率、二维高频变化拟合相似系数,、分别是所有帧鸟鸣信号的帧有效率、二维高频变化拟合相似系数中的最大值,是鸟鸣信号中的噪声幅度谱,所述噪声幅度谱由鸟鸣信号的所有无声信号区间的平均频谱估计得到,为归一化函数。

33、优选的,所述结合幅度谱下限、谱减法及神经网络模型完成鸟类鸣声识别中的数据增强,包括:

34、将各帧鸟鸣信号的幅度谱下限作为谱减法中的下限值,利用谱减法对鸟鸣信号去噪得到增强鸟鸣信号,将增强鸟鸣信号作为神经网络模型的输入,输出为鸟类鸣声识别结果。

35、本发明至少具有如下有益效果:

36、本发明通过分析野外鸟鸣信号中每帧鸟鸣信号的光谱质心的位置分布特征以及各帧鸟鸣信号的各子带内功率谱概率分布构建帧有效率,帧有效率考虑了光谱质心的分布特征,能够有效评估每一帧鸟鸣信号中有效成分的含量;其次基于噪声能量对频谱高频区间上衰减变化的影响确定高频区间衰减趋势值;并通过各帧鸟鸣信号上声学特征的稳定特征以及高频区间上衰减特征的相似程度综合评估各帧鸟鸣信号包含噪声成分的概率,确定各帧鸟鸣信号的二维高频变化拟合相似系数,二维高频变化拟合相似系数考虑了噪声成分对高频区间内频谱衰减趋势的影响,避免高频噪声与鸟鸣信号的高频成分混合时对去噪效果的不良影响;并基于各帧鸟鸣信号的帧有效率、二维高频变化拟合相似系数自适应确定各帧鸟鸣信号的幅度谱下限,利用改进后的谱减法完成对野外鸟鸣信号的增强,提高了野外鸟鸣信号的去噪效果及鸟类鸣声识别的准确率。

本文地址:https://www.jishuxx.com/zhuanli/20240618/24793.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。