技术新讯 > 乐器声学设备的制造及制作,分析技术 > 声源定位方法、装置、介质及设备与流程 > 正文

声源定位方法、装置、介质及设备与流程

国知局
2024-06-21 10:40:39

本发明涉及信号增益的，尤其涉及一种声源定位方法、装置、介质及设备。

背景技术：

1、传统信号处理的声源定位技术使用多个麦克风组成的阵列来接收声音信号，并利用信号处理算法对麦克风阵列的信号进行时延和幅度差异的估计，以确定声源的位置和方向。这种方法在理论上具有较高的定位精度，但实际应用中面临一些挑战。

2、环境噪声、回声和语音活动均会对声源定位的准确性产生负面影响。在真实环境中，存在各种背景噪声，包括相干噪声、非相干噪声、diffuse噪声，这些噪声会与目标声源的信号相混合，使得准确提取和分析目标声源的信号变得困难，噪声的存在使得定位算法难以准确地估计声源的时延和幅度差异，从而导致定位误差；当声音在环境中反射时会产生回声，这些反射信号与直达信号相混合，导致在信号处理过程中产生额外的干扰，回声的存在使得定位算法难以准确地估计声源的时延和幅度差异，从而影响定位的准确性；在多人交流的环境中，存在多个人同时说话的情况，这些交叉谈话声会引入额外的声音成分，使得声源定位算法难以区分和定位各个声源，从而导致定位结果的不准确性。

3、因此，有必要提供一种声源定位方法、系统、转置及设备以解决上述问题。

技术实现思路

1、本发明的目的在于提供一种声源定位方法、系统、转置及设备，用于解决在复杂语音环境下，声源定位的准确性较低的问题。

2、第一方面，本发明实施例提供一种声源定位方法，该方法包括以下步骤：将原始语音信号划分为m帧子语音信号，m为正整数；计算每帧子语音信号的信噪比；计算所述每帧子语音信号不同方向上的响应能量，基于所述响应能量构建第一高斯混合模型，并计算所述第一高斯混合模型的权重；基于所述信噪比调整所述响应能量得到调整响应能量，基于所述调整响应能量构建第二高斯混合模型；计算所述第一高斯混合模型和所述第二高斯混合模型的相似度，基于所述相似度和所述第一高斯混合模型的权重计算所述第二高斯混合模型的权重；基于所述第二高斯混合模型的权重定位所述每帧子语音信号的声源方向。

3、本发明实施例提供的声源定位方法的有益效果在于：通过对原始语音信号进行分帧，根据每帧子语音信号的doa结果构建第一高斯混合模型，通过信噪比调整doa结果得到doa调整结果，根据doa调整结果构建第二高斯混合模型，计算所述第一高斯混合模型和所述第二高斯混合模型的相似度，基于所述相似度和所述第一高斯混合模型的权重计算所述第二高斯混合模型的权重，基于所述第二高斯混合模型的权重定位所述每帧子语音信号的声源方向，本发明的方法能够在复杂语音环境下，得到较准确的声源定位结果。

4、在一种可能的实施方式中，所述基于所述每帧频域信号对应的频谱能量，计算所述每帧频域信号对应的目标增益，具体包括：

5、基于所述每帧频域信号对应的频谱能量，计算所述每帧频域信号对应的中间增益；

6、对所述中间增益进行调整，得到所述每帧频域信号对应的目标增益。

7、在一种可能的实施方式中，所述响应能量与所述调整响应能量的关系满足如下公式：

8、

9、其中，为当前帧的调整响应能量，snr(l)为当前帧的信噪比，f(l)为当前帧的响应能量，为前一帧的调整响应能量。

10、在一种可能的实施方式中，所述响应能量与所述调整响应能量的关系满足如下公式：

11、

12、其中，为当前帧的调整响应能量，f(l)为当前帧的响应能量，为前一帧的调整响应能量,α的取值范围为0-1。

13、在一种可能的实施方式中，计算所述第一高斯混合模型和所述第二高斯混合模型的相似度，具体包括：基于第一概率和第二概率计算所述相似度，基于所述相似度和所述第一高斯混合模型的权重计算所述第二高斯混合模型的权重，所述第一概率为所述第一高斯混合模型在第一角度处的概率，所述第二概率为所述第二高斯混合模型在所述第一角度处的概率。

14、在一种可能的实施方式中，所述相似度满足如下公式：

15、

16、其中，为相似度，pl(x)为第一概率，为第二概率。

17、在一种可能的实施方式中，所述第二高斯混合模型的权重与所述每帧子语音信号的声源方向满足以下公式：

18、

19、其中，为第二高斯混合模型的权重，ωk为第一高斯混合模型的权重，为相似度。

20、第二方面，本发明实施例还提供一种声源定位装置，该装置包括执行上述第一方面的任意一种可能的设计的方法的模块/单元。这些模块/单元可以通过硬件实现，也可以通过硬件执行相应的软件实现。

21、第三方面，本发明实施例提供一种终端设备，包括处理器和存储器。其中，存储器用于存储一个或多个计算机程序；当存储器存储的一个或多个计算机程序被处理器执行时，使得该终端设备能够实现上述第一方面的任意一种可能的设计的方法。

22、第四方面，本发明实施例还提供一种计算机可读存储介质，所述计算机可读存储介质包括计算机程序，当计算机程序在电子设备上运行时，使得所述电子设备执行上述任一方面的任意一种可能的设计的方法。

23、第五方面，本发明实施例还提供一种包含计算机程序产品，当所述计算机程序产品在终端上运行时，使得所述电子设备执行上述任一方面的任意一种可能的设计的方法。

24、关于上述第二方面至第五方面的有益效果可以参见上述第一方面的描述。

技术特征：

1.一种声源定位方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的方法，其特征在于，所述doa结果与所述doa调整结果的关系满足如下公式：

3.根据权利要求1所述的方法，其特征在于，所述doa结果与所述doa调整结果的关系满足如下公式：

4.根据权利要求1所述的方法，其特征在于，计算所述第一高斯混合模型和所述第二高斯混合模型的相似度，具体包括：

5.根据权利要求4所述的方法，其特征在于，所述相似度满足如下公式：

6.根据权利要求1所述的方法，其特征在于，所述第二高斯混合模型的权重与所述每帧子语音信号的声源方向满足以下公式：

7.一种声源定位装置，其特征在于，包括：

8.根据权利要求7所述的装置，其特征在于，第二计算单元，用于计算所述第一高斯混合模型和所述第二高斯混合模型的相似度，基于所述相似度和所述第一高斯混合模型的权重计算所述第二高斯混合模型的权重，具体用于：

9.一种终端设备，其特征在于，包括：处理器及存储器，所述存储器用于存储计算机程序；所述处理器用于执行所述存储器存储的计算机程序，以使所述终端设备执行权利要求1至6中任一项所述的方法。

10.一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法。

技术总结本发明提供了一种声源定位方法、装置、介质及设备，所述方法包括以下步骤：将原始语音信号划分为M帧子语音信号；计算每帧子语音信号的信噪比；计算每帧子语音信号的DOA结果，基于DOA结果构建第一高斯混合模型，并计算第一高斯混合模型的权重；基于信噪比调整所述DOA结果得到DOA调整结果，基于DOA调整结果构建第二高斯混合模型；计算第一高斯混合模型和第二高斯混合模型的相似度，基于相似度和第一高斯混合模型的权重计算第二高斯混合模型的权重；基于第二高斯混合模型的权重定位每帧子语音信号的声源方向。本发明解决了解决在复杂语音环境下，声源定位的准确性较低的问题。技术研发人员：周智,王晗蓓,仇健乐,于欣,蒋寿美受保护的技术使用者：时擎智能科技（上海）有限公司技术研发日：技术公布日：2024/1/22