技术新讯 > 乐器声学设备的制造及制作,分析技术 > 基于声源定位的分布式场景空间声场再现方法及装置与流程 > 正文

基于声源定位的分布式场景空间声场再现方法及装置与流程

国知局
2024-06-21 11:58:06

本发明涉及语音分析，具体涉及基于声源定位的分布式场景空间声场再现方法及装置。

背景技术：

1、随着科技的进步和人们对于声音体验的需求不断提升，传统的声音再现技术已经无法满足人们在应用过程中对于高品质、沉浸式声音体验的需求。

2、分布式场景空间声场再现方法是一种利用阵元麦克风阵列进行声音的空间声场分布再现的技术。通过对自然保护区内鸟类声音的采集和声场再现，可以更好地理解鸟类行为、习性和栖息地利用等方面的信息，从而为鸟类保护研究提供数据支持，并且还能帮助研究人员模拟和预测鸟类栖息地变化对鸟类种群数量和分布的影响。

3、传统的声场再现装置通常采用模拟信号处理技术，通过模拟电路实现声音的放大、滤波等处理；然而，传统的技术存在一些局限性。方向和距离是声音的空间声场分布再现的两个重要的空间属性，根据声源定位结果和场景信息，布置多个声音反射器和声音传播媒介，以模拟出真实环境中的声场分布，鸟鸣声音声源的定位结果影响着鸟鸣声音的空间声场分布再现的效果，而在声音采集设备中各个阵元麦克风采集到的鸟鸣声音信号会受到多种因素的干扰，造成采集到的鸟鸣信号混杂着其余声音信号，而这会影响鸟鸣声音信号声源定位的精度，因此需要对各个阵元麦克风采集到的鸟鸣声音信号进行语音信号增强。

4、由于同一只鸟的鸟鸣声音的频率通常集中分布在一个固定的频率范围内，而vmd（variational mode decomposition，变分模态分解）算法能够较好地分离出混合声音信号中某一频率成分的声音信号，实现对混合声音信号中某一声音信号的语音信号增强，具有高效、高精度的优点。vmd算法中的惩罚因子决定着模态分量的带宽，模态分量的带宽过大会使得被分解的信号中包含其他的信号成分越多，模态分量的带宽过小会使得被分解的信号中某些信号的丢失，而传统的vmd算法中的惩罚因子通常是由经验选取的定值，无法进行自适应地调整。

技术实现思路

1、为了解决上述技术问题，本发明的目的在于提供基于声源定位的分布式场景空间声场再现方法及装置，所采用的技术方案具体如下：

2、第一方面，本发明实施例提供了基于声源定位的分布式场景空间声场再现方法，该方法包括以下步骤：

3、采集各声音采集设备中各阵元麦克风的声音信号和声音采集设备的空间位置数据集合；

4、根据声音信号获取各阵元麦克风的鸟鸣信号和声音采集设备的鸟鸣信号矩阵；使用一阶差分处理获取各鸟鸣信号的一阶差分梅尔语谱图，使用canny边缘检测算法和连通域分析获取一阶差分梅尔语谱图中的各时频单元聚集区域；根据时频单元聚集区域的轮廓平行程度获取各时频单元聚集区域的谐波条纹结构近似度；根据时频单元聚集区域的轮廓形状获取各时频单元聚集区域的轮廓子曲线；根据轮廓子曲线的弯曲程度获取各时频单元聚集区域的鸟鸣条纹结构疑似度；根据时频单元的频率大小获取各一阶差分梅尔语谱图的单一鸟鸣条纹结构区域；根据单一鸟鸣条纹结构区域中时频单元的频率获取各鸟鸣信号的综合鸟鸣中心频率和综合鸟鸣频率范围；

5、根据综合鸟鸣中心频率和综合鸟鸣频率范围获取鸟鸣声源空间坐标，根据鸟鸣声源空间坐标和各声音采集设备的空间位置数据集合，结合wfs波场合成技术完成鸟鸣声音的分布式场景声场再现。

6、进一步，所述获取各阵元麦克风的鸟鸣信号和声音采集设备的鸟鸣信号矩阵，包括：

7、将各阵元麦克风的声音信号作为双门限端点检测算法的输入，所述双门限端点检测算法的输出为声音信号片段；

8、获取自然保护地的数据中心的已知鸟类的鸟鸣信号的频谱图，将所述频谱图作为yolo神经网络模型的训练样本进行训练，获取鸟鸣识别模型；

9、使用傅里叶变换获取声音采集设备中各阵元麦克风的声音信号片段的频谱图，将声音采集设备的所有的声音信号片段的频谱图作为鸟鸣识别模型的输入，所述鸟鸣识别模型的输出为各鸟鸣声音信号片段集合，将鸟鸣声音信号片段集合中属于同一阵元麦克风的所有鸟鸣声音信号片段的集合作为同麦鸟鸣声音信号片段集合；

10、对于各阵元麦克风的声音信号，将声音信号中不属于同麦鸟鸣声音信号片段集合的所有声音信号片段的信号幅值赋值为0，其他信号幅值保持不变，将声音信号中所有信号幅值按照时间升序排列组成各阵元麦克风的鸟鸣信号时间序列；

11、使用数模转换技术对各阵元麦克风的鸟鸣信号时间序列进行处理，获取各阵元麦克风的鸟鸣信号；

12、对于各鸟鸣声音信号片段集合，将各阵元麦克风的鸟鸣信号时间序列按照其阵元麦克风在声音采集设备中的顺序作为矩阵的各行元素，构建鸟鸣信号矩阵。

13、进一步，所述获取各鸟鸣信号的一阶差分梅尔语谱图，使用canny边缘检测算法和连通域分析获取一阶差分梅尔语谱图中的各时频单元聚集区域，包括：

14、对于各鸟鸣声音信号片段集合中的各阵元麦克风的各鸟鸣信号，获取鸟鸣信号的梅尔语谱图，对所述梅尔语谱图进行一阶差分处理，获取鸟鸣信号的一阶差分梅尔语谱图；

15、使用canny边缘检测算法对一阶差分梅尔语谱图处理获取二值化图像，提取二值化图像中的各连通域，作为一阶差分梅尔语谱图中的各时频单元聚集区域。

16、进一步，所述获取各时频单元聚集区域的谐波条纹结构近似度，包括：

17、对于各时频单元聚集区域，计算时频单元聚集区域中所有时频单元的横坐标的最小值与最大值的差值的平方作为第一平方差，计算时频单元聚集区域内同一横坐标下任意两个时频单元的纵坐标的差值绝对值的最大值记为第一最大值，计算时频单元聚集区域内任意两个所述第一最大值的差值的平方作为第二平方差，计算时频单元聚集区域内所有所述第二平方差的和值，将所述和值与第一平方差的比值作为各时频单元聚集区域的区域纵向轮廓平行度；

18、计算时频单元聚集区域中所有时频单元的纵坐标的最小值与最大值的差值的平方作为第三平方差，计算时频单元聚集区域内同一纵坐标下所有任意两个时频单元的横坐标的差值绝对值的最大值记为第二最大值，计算时频单元聚集区域内任意两个所述第二最大值的差值的平方作为第四平方差，将时频单元聚集区域内所有所述第四平方差的和值与第三平方差的比值作为各时频单元聚集区域的区域横向轮廓平行度；

19、将区域纵向轮廓平行度与区域横向轮廓平行度的和值作为各时频单元聚集区域的谐波条纹结构近似度。

20、进一步，所述获取各时频单元聚集区域的轮廓子曲线，包括：

21、对于各时频单元聚集区域，将时频单元聚集区域的边缘上的时频单元作为轮廓时频单元；

22、以时频单元的时间为横坐标轴、频率为纵坐标轴建立时频坐标系，将时频单元聚集区域的轮廓时频单元映射到时频坐标系中，将轮廓时频单元映射后的坐标点组成的封闭曲线作为轮廓曲线，在轮廓曲线上任意选取两个不同的时频单元对轮廓曲线划分，得到的两段曲线组成一对子曲线；

23、对于轮廓曲线上的各对子曲线，计算一对子曲线中两条子曲线之间的长度的差值绝对值作为长度差，计算一对子曲线中具有相同横坐标的坐标点之间的纵坐标的差值，计算一对子曲线中所有所述纵坐标的差值的标准差，将所述长度差与所述标准差的乘积作为各一对子曲线的平行曲线长度相似度，将平行曲线长度相似度最小的一对子曲线中的两条子曲线作为各时频单元聚集区域的轮廓子曲线。

24、进一步，所述获取各时频单元聚集区域的鸟鸣条纹结构疑似度，包括：

25、对于各时频单元聚集区域的各轮廓子曲线，使用最小二乘法对轮廓子曲线进行直线拟合获取轮廓子曲线的拟合直线；

26、计算轮廓子曲线上各坐标点到轮廓子曲线的拟合直线的欧式距离，计算轮廓子曲线上所有所述欧式距离的均值，计算时频单元聚集区域中所有轮廓子曲线的所述均值的和值作为各时频单元聚集区域的轮廓线性趋势显著度；

27、计算各时频单元聚集区域的灰度共生矩阵在各预设角度方向上的能量和自相关系数，将所述能量与所述自相关系数的乘积作为各时频单元聚集区域在各预设角度方向上的一阶差分系数线性分布程度；

28、对于时频单元聚集区域的各预设角度方向，计算各预设角度方向与其他预设角度方向的一阶差分系数线性分布程度的差值的平方，计算所有所述平方的和值，计算各预设角度方向的一阶差分系数线性分布程度与所述和值的乘积，将所有预设角度方向的所述乘积中的最大值作为各时频单元聚集区域的线性纹理趋势显著系数；

29、将轮廓线性趋势显著度、线性纹理趋势显著系数和谐波条纹结构近似度三者的乘积作为各时频单元聚集区域的鸟鸣条纹结构疑似度。

30、进一步，所述获取各一阶差分梅尔语谱图的单一鸟鸣条纹结构区域，包括：

31、将各时频单元聚集区域中所有时频单元的频率值的最大值、最小值、均值和时频单元聚集区域的鸟鸣条纹结构疑似度组成的向量作为各时频单元聚集区域的单一鸟鸣识别向量；

32、对于各一阶差分梅尔语谱图，将一阶差分梅尔语谱图中所有的时频单元聚集区域的单一鸟鸣识别向量作为lstm神经网络模型的输入，所述lstm神经网络模型的输出为单一鸟鸣条纹结构区域。

33、进一步，所述获取各鸟鸣信号的综合鸟鸣中心频率和综合鸟鸣频率范围，具体包括：

34、对于各一阶差分梅尔语谱图，计算一阶差分梅尔语谱图中所有单一鸟鸣条纹结构区域中所有时频单元的频率值的均值作为各一阶差分梅尔语谱图中的综合鸟鸣中心频率；

35、将一阶差分梅尔语谱图中所有单一鸟鸣条纹结构区域中时频单元的频率值的最大值作为上限、最小值作为下限构建的频率范围作为各一阶差分梅尔语谱图的综合鸟鸣频率范围。

36、进一步，所述根据综合鸟鸣中心频率和综合鸟鸣频率范围获取鸟鸣声源空间坐标，包括：

37、采用基于盖尔圆盘定理的信源估计算法获取鸟鸣信号矩阵的声源个数；

38、将各鸟鸣信号作为vmd算法的输入，将声源个数和综合鸟鸣频率范围的极差分别作为vmd算法的模态数和惩罚因子，所述vmd算法的输出为各分解信号、分解信号对应的模态分量和模态分量的中心频率；

39、将中心频率与综合鸟鸣中心频率的差值最小的模态分量对应的分解信号，作为各阵元麦克风的纯净鸟鸣信号；

40、将纯净鸟鸣信号中所有信号幅值按照时间升序排列组成纯净鸟鸣信号时间序列，将鸟鸣声音信号片段集合中的各纯净鸟鸣信号时间序列作为鸟鸣声音信号片段的纯净鸟鸣信号矩阵的各行；

41、将纯净鸟鸣信号矩阵和声音采集设备的空间位置数据集合作为基于广义互相关时延估计的声源定位算法的输入，输出各声音采集设备的鸟鸣声音信号片段的鸟鸣声源空间坐标。

42、第二方面，本发明实施例还提供了基于声源定位的分布式场景空间声场再现装置，包括存储器、处理器以及存储在所述存储器中并在所述处理器上运行的计算机程序，所述处理器执行所述计算机程序时实现上述任意一项所述方法的步骤。

43、本发明至少具有如下有益效果：

44、基于鸟类的鸣叫声音的特点以及一阶梅尔语谱图中各个时频单元聚集区域的分布情况，构建谐波条纹结构近似度，提高鸟类的声音信号与环境噪声信号之间的区分度，基于鸟鸣信号在一阶梅尔语谱图中的条纹结构的双线性特征，构建双线性特征显著性系数，提高了鸟鸣信号在一阶梅尔语谱图中的显著性，扩大了与其余动物声音信号在一阶梅尔语谱图中的分布差异，基于谐波条纹结构近似度和双线性特征显著性系数，得到各个时频单元聚集区域的鸟鸣条纹结构疑似度，并结合鸟鸣信号的近似周期分布的特征，构建单一鸟鸣识别向量，得到声音采集设备采集的每个鸟鸣声音声源对应的鸟鸣信号的综合鸟鸣中心频率和综合鸟鸣频率范围，降低了鸟鸣信号中其余鸟鸣声音声源的鸟鸣信号频率对目标鸟鸣声音声源的鸟鸣信号频率分布的干扰，将得到的综合鸟鸣频率范围的极差作为vmd算法中各个模态分量的惩罚因子，在提高了声音采集设备采集的每个鸟鸣声音声源在其对应的纯净鸟鸣信号中鸟鸣信息保留程度的同时，降低了噪声信号在纯净鸟鸣信号中的信息残留程度，实现了vmd算法中惩罚因子的自适应地调整，进而提高了鸟鸣声音声源定位的精度，以及改善后续鸟鸣声音的空间声场分布再现的效果。