直达声检测方法、系统以及计算机可读存储介质与流程

2021-11-24 21:16:00 来源：中国专利 TAG：

1.本技术涉及语音信号处理技术领域，特别是涉及一种直达声检测方法、系统以及计算机可读存储介质。

背景技术：

2.在日常生活中，声学设备已经普遍应用于人们的生活中。在面对复杂的实际场景时，单麦克风的表现往往不如人意，为了达到更高质量的语音通信，我们还会采用麦克风阵列对语音信号进行处理。声源定位是麦克风阵列里一个十分重要的课题，但是声源定位的效果常常受到混响和噪声的影响，尤其是在混响环境下，声源定位的误差就会非常大，常用的声源定位方法往往无法达到理想的效果。在混响和噪声环境下进行声源定位时，如果能够取得受噪声和混响污染较小的直达声信号，那么声源定位的效果也会得到一个显著的提升。
3.目前所采用的方法为直接在功率谱上选取最大的功率点作为估计方位的候选点，但是该方法没有结合噪声谱选取频点，没有考虑实际场景中噪声和混响干扰的影响。因此，亟需一种新的直达声检测方法来解决上述问题。

技术实现要素：

4.本技术主要解决的技术问题是提供一种直达声检测方法、系统以及计算机可读存储介质，可以获得信噪比较高且受混响影响较小的频点。
5.为解决上述技术问题，本技术采用的一个技术方案是：提供一种直达声检测方法，包括：接收麦克风阵列采集获得的阵列信号，并根据所述阵列信号获取阵列频域信号；从所述阵列频域信号中筛选出信噪比高于第一门限值的第一目标频点，并从所述阵列频域信号中获得所述第一目标频点所在位置的第一目标信号；根据所述第一目标信号获得对应的协方差矩阵，并对所述协方差矩阵进行特征值分解，以获得所述协方差矩阵的所有特征值和最大特征值；根据所有所述特征值和所述最大特征值从所述第一目标频点中筛选出直达信号能量大于混响信号能量的第二目标频点，以利用所述第二目标频点进行声源定位。
6.其中，所述根据所有所述特征值和所述最大特征值从所述第一目标频点中筛选出直达信号能量大于混响信号能量的第二目标频点，以利用所述第二目标频点进行声源定位的步骤，包括：获得所述最大特征值与所有所述特征值之和的比值，将大于第二门限值的所述比值对应的第一目标频点作为第二目标频点；其中，所述比值的范围为0
‑
1。
7.其中，所述获得所述最大特征值与所有所述特征值之和的比值，将大于第二门限值的所述比值对应的第一目标频点作为第二目标频点的步骤之前，包括：根据混响时间获得语言函数的指数以及所述语言函数的值；其中，所述指数与所述混响时间成反比；响应于所述语言函数的值小于第一阈值，将所述第一阈值作为所述第二门限值；响应于所述语言函数的值大于第二阈值，将所述第二阈值作为所述第二门限值；响应于所述语言函数的值大于或等于所述第一阈值且小于或等于所述第二阈值，将所述语言函数的值作为所述第二
门限值。
8.其中，所述根据所述第一目标信号获得对应的协方差矩阵的步骤，包括：根据所述第一目标信号获得对应的共轭转置矩阵；获得所述第一目标信号和所述共轭转置矩阵的乘积的期望值，并将所述期望值作为对应的所述协方差矩阵。
9.其中，所述对所述协方差矩阵进行特征值分解，以获得所述协方差矩阵的所有特征值和最大特征值的步骤，包括：将所述协方差矩阵分解为所述协方差矩阵的特征向量矩阵、所述协方差矩阵的特征值按从大到小顺序排列所构成的对角矩阵以及所述特征向量矩阵的共轭转置矩阵；根据所述对角矩阵获得所述协方差矩阵的所有特征值和最大特征值，其中，所述特征值为所述对角矩阵的主对角线元素。
10.其中，所述接收麦克风阵列采集获得的阵列信号，并根据所述阵列信号获取阵列频域信号的步骤，包括：接收麦克风阵列采集获得的阵列信号；对所述阵列信号依次进行分帧处理和加窗运算，以获得多个时域信号；利用快速傅立叶变换将所述多个时域信号转换为多个频域信号；根据所述频域信号获得导向矢量矩阵和声源信号的乘积与噪声信号的和值，并将所述和值作为所述阵列频域信号。
11.其中，所述从所述阵列频域信号中筛选出信噪比高于第一门限值的第一目标频点，并从所述阵列频域信号中获得所述第一目标频点所在位置的第一目标信号的步骤，包括：获取所述阵列频域信号中其中一个麦克风的频域信号，并获得所述麦克风的频域信号中每个频点的功率；从所述麦克风的频域信号中筛选出所述功率大于所述第一门限值的第三目标频点；从所述阵列频域信号中筛选出与所述第三目标频点位置相同的第一目标频点，从所述阵列频域信号中获得所述第一目标频点所在位置的第一目标信号。
12.其中，所述从所述麦克风的频域信号中筛选出所述功率大于所述第一门限值的第三目标频点的步骤之前，包括：根据所述功率获得所述频点在预设时间阈值内的最小功率值，并将所述最小功率值作为噪声功率；获得第一倍数与所述噪声功率的乘积，并将所述乘积作为所述第一门限值。
13.为解决上述技术问题，本技术采用的另一个技术方案是：提供一种直达声检测系统，包括相互耦接的存储器和处理器，所述存储器内存储有程序指令，所述处理器用于执行所述程序指令以实现上述任一实施例所提及的直达声检测方法。
14.为解决上述技术问题，本技术采用的又一个技术方案是：提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序，所述计算机程序用于实现上述任一实施例所提及的直达声检测方法。
15.区别于现有技术的情况，本技术的有益效果是：本技术中接收麦克风阵列采集获得的阵列信号，并根据阵列信号获取阵列频域信号，从阵列频域信号中筛选出信噪比较高的第一目标频点，再利用对协方差矩阵进行特征值分解，以获得协方差矩阵的所有特征值和最大特征值，根据所有特征值和最大特征值从第一目标频点中筛选出受混响影响较小且直达声占主导的第二目标频点，最终可以获得信噪比较高，受混响影响较小的频点，从而提升后续声源定位的准确度。
附图说明
16.为了更清楚地说明本技术实施例中的技术方案，下面将对实施例描述中所需要使
用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本技术的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
17.其中：
18.图1是本技术直达声检测方法一实施方式的流程示意图；
19.图2是图1中步骤s1一实施方式的流程示意图；
20.图3是图1中步骤s2一实施方式的流程示意图；
21.图4是图3中步骤s21之前一实施方式的流程示意图；
22.图5是图1中步骤s3中对应的步骤一实施方式的流程示意图；
23.图6是图1中步骤s3中对应的步骤一实施方式的流程示意图；
24.图7是图1中步骤s4对应的步骤之前一实施方式的流程示意图；
25.图8是本技术直达声检测系统一实施方式的框架示意图；
26.图9是本技术直达声检测系统一实施方式的结构示意图；
27.图10是本技术计算机可读存储介质一实施方式的框架示意图。
具体实施方式
28.下面将结合本技术实施例中的附图，对本技术实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本技术一部分实施例，而不是全部实施例。基于本技术中的实施例，本领域普通技术人员在没有做出创造性的劳动前提下所获得的所有其他实施例，都属于本技术保护的范围。
29.请参阅图1，图1是本技术直达声检测方法一实施方式的流程示意图。具体而言，该直达声检测方法包括：
30.s1：接收麦克风阵列采集获得的阵列信号，并根据阵列信号获取阵列频域信号。
31.具体地，在本实施例中，请参阅图2，图2是图1中步骤s1一实施方式的流程示意图。具体而言，步骤s1包括：
32.s10：接收麦克风阵列采集获得的阵列信号。
33.s11：对阵列信号依次进行分帧处理和加窗运算，以获得多个时域信号。
34.s12：利用快速傅立叶变换将多个时域信号转换为多个频域信号。
35.s13：根据频域信号获得导向矢量矩阵和声源信号的乘积与噪声信号的和值，并将和值作为阵列频域信号。
36.具体地，在本实施例中，根据频域信号获得导向矢量矩阵、声源信号以及噪声信号，并根据导向矢量矩阵、声源信号以及噪声信号获得频域信号模型。具体而言，上述频域信号模型为：
37.阵列频域信号：x(τ,f
i
)＝a(f
i
,θ)s(τ,f
i
) n(τ,f
i
)
38.导向矢量矩阵：
39.a(f
i
,θ)＝[a
s1
(f
i
,θ1),a
s2
(f
i
,θ2),l,a
sk 1
(f
i
,θ
k 1
)]∈c
m*(k 1)
[0040]
声源信号：s(τ,f
i
)＝[s1(τ,f
i
),s2(τ,f
i
),l,s
k 1
(τ,f
i
)]
t
∈c
(k 1)*1
[0041]
噪声信号：n(τ,f
i
)＝[n1(τ,f
i
),n2(τ,f
i
),l,n
m
(τ,f
i
)]
t
∈c
m*1
[0042]
阵列流型：
[0043][0044]
其中，τ表示声源达到第一个麦克风需要经过延迟τ，θ
i
表示第i个目标位于θ
i
方向，f
i
表示第f
i
个频点，d表示阵元间距，t表示转置，总共有k 1个目标，m个阵元。
[0045]
s2：从阵列频域信号中筛选出信噪比高于第一门限值的第一目标频点，并从阵列频域信号中获得第一目标频点所在位置的第一目标信号。
[0046]
具体地，在本实施例中，请参阅图3，图3是图1中步骤s2一实施方式的流程示意图。具体而言，步骤s2包括：
[0047]
s20：获取阵列频域信号中其中一个麦克风的频域信号，并获得麦克风的频域信号中每个频点的功率。
[0048]
具体而言，获取麦克风阵列中其中给一个麦克风的频域信号，通过计算获得该麦克风的频域信号中给每个频点的功率p(t,f
i
)，其中，t和f
i
表示在t时刻频点f
i
的功率。频点的功率p(t,f
i
)的计算方法为现有技术，本技术在此不再赘述。
[0049]
s21：从麦克风的频域信号中筛选出功率大于第一门限值的第三目标频点。
[0050]
具体地，在本实施例中，请参阅图4，图4是图3中步骤s21之前一实施方式的流程示意图。具体而言，步骤s21之前，包括：
[0051]
s210：根据功率获得频点在预设时间阈值内的最小功率值，并将最小功率值作为噪声功率。
[0052]
具体而言，考虑到语音的非平稳性和噪声的平稳性，统计每个频点在过去3秒里的最小功率值作为估计的噪声功率：
[0053]
p
noise
(t,f
i
)＝min(p(t0,f
i
)),t
‑
3≤t0≤t
[0054]
当然，上述预设时间阈值也可以根据用户需求设置成其他数值，本技术在此不作限定。
[0055]
s211：获得第一倍数与噪声功率的乘积，并将乘积作为第一门限值。
[0056]
具体地，在本实施例中，第一倍数设置为3，利用噪声功率p
noise
(t,f
i
)计算第一门限值：p
th
(f
i
)＝3*p
noise
(t,f
i
)。当然，在其他实施例中，第一倍数也可以设置为其他数值，本技术在此不作限定。
[0057]
具体而言，返回至步骤s21，从上述麦克风的频域信号中筛选出功率p(t,f
i
)大于第一门限值p
th
(f
i
)的第三目标频点，记为f
j
。
[0058]
s22：从阵列频域信号中筛选出与第三目标频点位置相同的第一目标频点，从阵列频域信号中获得第一目标频点所在位置的第一目标信号。
[0059]
具体而言，从阵列频域信号x(τ,f
i
)中筛选出与第三目标频点f
j
位置相同的第一目标频点，并从阵列频域信号x(τ,f
i
)中获得第一目标频点所在位置的第一目标信号，记为x(τ,f
j
)。
[0060]
s3：根据第一目标信号获得对应的协方差矩阵，并对协方差矩阵进行特征值分解，以获得协方差矩阵的所有特征值和最大特征值。
[0061]
具体地，在本实施例中，请参阅图5，图5是图1中步骤s3中对应的步骤一实施方式的流程示意图。具体而言，步骤s3中根据第一目标信号获得对应的协方差矩阵的步骤包括：
[0062]
s30：根据第一目标信号获得第一目标信号对应的共轭转置矩阵。
[0063]
具体而言，根据第一目标信号x(τ,f
j
)获得第一目标信号x(τ,f
j
)对应的共轭转置矩阵x
h
(τ,f
j
)，其中，h表示共轭转置。
[0064]
s31：获得第一目标信号和共轭转置矩阵的乘积的期望值，并将期望值作为对应的协方差矩阵。
[0065]
具体而言，根据第一目标信号x(τ,f
j
)和共轭转置矩阵x
h
(τ,f
j
)计算获得对应的协方差矩阵r(f
j
)：
[0066]
r(f
j
)＝e{x(τ,f
j
)x
h
(τ,f
j
)}
[0067]
其中，e{}表示期望值。
[0068]
具体地，在本实施例中，请参阅图6，图6是图1中步骤s3中对应的步骤一实施方式的流程示意图。具体而言，步骤s3中对协方差矩阵进行特征值分解，以获得协方差矩阵的所有特征值和最大特征值的步骤包括：
[0069]
s40：将协方差矩阵分解为协方差矩阵的特征向量矩阵、协方差矩阵的特征值按从大到小顺序排列所构成的对角矩阵以及特征向量矩阵的共轭转置矩阵。
[0070]
具体而言，对协方差矩阵r(f
j
)进行特征值分解：
[0071]
r(f
j
)＝u(f
j
)λ(f
j
)u
h
(f
j
)
[0072]
其中，u(f
j
)表示协方差矩阵r(f
j
)的特征向量矩阵；λ(f
j
)表示协方差矩阵的特征值按从大到小顺序排列所构成的对角矩阵，u
h
(f
j
)表示特征向量矩阵u(f
j
)的共轭转置矩阵。
[0073]
s41：根据对角矩阵获得协方差矩阵的所有特征值和最大特征值。
[0074]
具体而言，协方差矩阵r(f
j
)的所有特征值为对角矩阵λ(f
j
)的主对角线元素，从所有特征值中挑选出最大特征值
[0075]
s4：根据所有特征值和最大特征值从第一目标频点中筛选出直达信号能量大于混响信号能量的第二目标频点，以利用第二目标频点进行声源定位。
[0076]
具体地，在本实施例中，步骤s4包括：获得最大特征值与所有特征值之和的比值r
j
：将大于第二门限值r
th
的比值对应的第一目标频点作为第二目标频点。具体而言，上述比值的范围为0
‑
1。
[0077]
考虑到在只有单个声源存在时，从非目标角度入射到阵列的混响信号的能量要小于直达信号，也就是第二目标频点所在位置的信号是直达信号，其余的信号都是混响产生的信号。那么直达信号的能量在一些频点上是要大于混响信号的能量，根据所有特征值和最大特征值从第一目标频点中筛选出受混响影响较小且直达声占主导的第二目标频点，该第二目标频点则是直达声占主导的频点，使用该频点进行声源定位会有更好的估计性能，这样最终可以获得信噪比较高，受混响影响较小的频点，从而提升后续声源定位的准确度。
[0078]
具体地，在本实施例中，请参阅图7，图7是图1中步骤s4对应的步骤之前一实施方
式的流程示意图。具体而言，在获得最大特征值与所有特征值之和的比值，将大于第二门限值的比值对应的第一目标频点作为第二目标频点的步骤之前，包括：
[0079]
s50：根据混响时间获得语言函数的指数以及语言函数的值。
[0080]
具体而言，上述语言函数的指数与混响时间t
60
成反比，为在本实施例中，t
60
是已知的混响时间。当然，在其他实施例中，混响时间t
60
也可以是通过其他方法计算得到。另外，在本实施例中，语言函数的值为
[0081]
s51：判断语言函数的值与第一阈值和第二阈值的大小关系。
[0082]
具体的，在本实施例中，第一阈值和第二阈值分别设置为0.1和0.8。当然，本技术对第一阈值和第二阈值的数值不作限定。判断语言函数的值与第一阈值和第二阈值的大小关系，如下公式所示：
[0083][0084]
s52：当语言函数的值小于第一阈值时，将第一阈值作为第二门限值。
[0085]
具体的，在本实施例中，当语言函数的值小于0.1时，第二门限值r
th
＝0.1。
[0086]
s53：当语言函数的值大于第二阈值时，将第二阈值作为第二门限值。
[0087]
具体的，在本实施例中，当语言函数的值大于0.8时，第二门限值r
th
＝0.8。
[0088]
s54：当语言函数的值大于或等于第一阈值且小于或等于第二阈值时，将语言函数的值作为第二门限值。
[0089]
具体的，在本实施例中，当语言函数的值大于或等于0.1且小于或等于0.8时，第二门限值
[0090]
根据混响时间t
60
计算第二门限值r
th
，当混响越重时，第二门限值r
th
就会越高；当混响越轻时，第二门限值r
th
就会越低。这样可以根据实际情况确定第二门限值r
th
，从而筛选出受混响影响较小的频点，从而提升后续声源定位的准确度。
[0091]
请参阅图8，图8是本技术直达声检测系统一实施方式的框架示意图。该直达声检测系统具体包括：
[0092]
获取模块10，用于接收麦克风阵列采集获得的阵列信号，并根据阵列信号获取阵列频域信号。
[0093]
第一筛选模块12，与获取模块10耦接，用于从阵列频域信号中筛选出信噪比高于第一门限值的第一目标频点。
[0094]
处理模块14，与第一筛选模块12耦接，用于从阵列频域信号中获得第一目标频点所在位置的第一目标信号。当然，处理模块14还用于根据第一目标信号获得对应的协方差矩阵，并对协方差矩阵进行特征值分解，以获得协方差矩阵的所有特征值和最大特征值。
[0095]
第二筛选模块16，与处理模块14耦接，用于根据所有特征值和最大特征值从第一目标频点中筛选出直达信号能量大于混响信号能量的第二目标频点，以利用第二目标频点进行声源定位。
[0096]
请参阅图9，图9是本技术直达声检测系统一实施方式的结构示意图。该直达声检测系统包括相互耦接的存储器20和处理器22。具体地，在本实施例中，存储器20内存储有程序指令，处理器22用于执行程序指令以实现上述任一实施例所提及的直达声检测方法。
[0097]
具体而言，处理器22还可以称为cpu(central processing unit，中央处理单元)。处理器22可能是一种集成电路芯片，具有信号的处理能力。处理器22还可以是通用处理器、数字信号处理器(digital signal processor,dsp)、专用集成电路(application specific integrated circuit,asic)、现场可编程门阵列(field
‑
programmable gate array,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件。通用处理器可以是微处理器或者该处理器也可以是任何常规的处理器等。另外，处理器22可以由多个集成电路芯片共同实现。
[0098]
请参阅图10，图10是本技术计算机可读存储介质一实施方式的框架示意图。该计算机可读存储介质30存储有计算机程序300，能够被计算机所读取，计算机程序300能够被处理器执行，以实现上述任一实施例中所提及的直达声检测方法。其中，该计算机程序300可以以软件产品的形式存储在上述计算机可读存储介质30中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)或处理器(processor)执行本技术各个实施方式所述方法的全部或部分步骤。具有存储功能的计算机可读存储介质30可以是u盘、移动硬盘、只读存储器(rom，read
‑
only memory)、随机存取存储器(ram，random access memory)、磁碟或者光盘等各种可以存储程序代码的介质，或者是计算机、服务器、手机、平板等终端设备。
[0099]
总而言之，区别于现有技术的情况，本技术中接收麦克风阵列采集获得的阵列信号，并根据阵列信号获取阵列频域信号，从阵列频域信号中筛选出信噪比较高的第一目标频点，再利用对协方差矩阵进行特征值分解，以获得协方差矩阵的所有特征值和最大特征值，根据所有特征值和最大特征值从第一目标频点中筛选出受混响影响较小且直达声占主导的第二目标频点，最终可以获得信噪比较高，受混响影响较小的频点，从而提升后续声源定位的准确度。
[0100]
以上所述仅为本技术的实施方式，并非因此限制本技术的专利范围，凡是利用本技术说明书及附图内容所作的等效结构或等效流程变换，或直接或间接运用在其他相关的技术领域，均同理包括在本技术的专利保护范围内。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种同步评价污水好氧工艺中有机磷酸酯去除及其毒性消减的方法与流程

直达声检测方法、系统以及计算机可读存储介质与流程

相关文献

最热文献