技术新讯 > 乐器声学设备的制造及制作,分析技术 > 用于重合立体声捕获的声道间时差（ITD）估计器的提高的稳定性的制作方法 > 正文

用于重合立体声捕获的声道间时差（ITD）估计器的提高的稳定性的制作方法

国知局
2024-06-21 11:26:22

本公开一般地涉及通信，并且更具体地，涉及支持音频编码和解码的方法以及相关的编码器和解码器。

背景技术：

1、空间或3d音频是表示各种多声道音频信号的通用表述。取决于捕获和呈现方法，音频场景由空间音频格式表示。由捕获方法(麦克风)定义的典型空间音频格式例如被表示为立体声、双耳、立体混响等。空间音频呈现系统(耳机或扬声器)能够使用立体声(左声道和右声道2.0)或更高级的多声道音频信号(2.1、5.1、7.1等)来呈现空间音频场景。

2、用于传输和操纵这种音频信号的最新技术允许最终用户具有空间质量更高的增强音频体验，这通常导致更好的可懂度以及增强现实。空间音频编码技术(例如mpegsurround或mpeg-h 3d audio)生成空间音频信号的紧凑表示，其与数据速率约束应用(例如通过互联网的流式发送)兼容。但是，当数据速率约束较强时，空间音频信号的传输受到限制，并且因此解码后的音频声道的后处理也被用于增强空间音频播放。常用的技术例如能够将解码后的单声道或立体声信号盲目上混成多声道音频(5.1声道或更多声道)。

3、为了有效地呈现空间音频场景，空间音频编码和处理技术利用多声道音频信号的空间特性。特别地，空间音频捕获的声道之间的时差和声级差被用于近似表征我们在空间中对定向声音的感知的耳间线索。因为声道间时差和声级差仅是听觉系统能够检测到的内容的近似(即，耳朵入口的耳间时差和声级差)，所以声道间时差从感知方面相关是非常重要的。声道间时差和声级差(ictd和icld)通常被用于对多声道音频信号的定向分量进行建模，而声道间互相关性(icc)(其对耳间互相关性(iacc)进行建模)被用于表征音频图像的宽度。特别是对于低频，立体声图像也可以使用声道间相位差(icpd)来建模。

4、注意，与空间听觉感知相关的双耳线索被称为耳间声级差(ild)、耳间时差(itd)以及耳间相干性或相关性(ic或iacc)。当考虑一般多声道信号时，与声道相关的对应线索是声道间声级差(icld)、声道间时差(ictd)以及声道间相干性或相关性(icc)。因为空间音频处理主要在所捕获的音频声道上进行操作，所以有时省略“c”，并且当提及音频声道时还使用术语itd、ild和ic。

5、图1示出了采用参数空间音频分析的常规设置。立体声信号对被输入到立体声编码器110。空间分析器112辅助下混频器114，下混频器114产生两个输入声道的单个声道表示。下混频过程旨在补偿声道在时间、相关性和相位上的差异，从而最大化下混频信号的能量。这实现了对立体声信号的有效编码。下混频后的信号被转发到下混频编码器116。来自空间分析的参数由参数编码器118编码，并且与编码后的下混频一起被发送到解码器。通常，一些立体声参数以感知频率标度(例如等效矩形带宽(erb)标度)上的频谱子带来表示。立体声解码器120基于来自下混频解码器124的信号和来自参数解码器122的参数，在空间合成器126中执行立体声合成。立体声合成操作旨在恢复声道在时间、声级、相关性和相位上的差异，从而产生类似于所输入的音频信号的立体声图像。

6、因为编码后的参数被用于针对人类听觉系统呈现空间音频，所以可以借助感知考虑对声道间参数进行提取和编码以最大化感知质量。

7、立体声和多声道音频信号是可能难以建模的复杂信号，尤其是当环境嘈杂或混响时，或者是当混合声中的各种音频分量在时间和频率上重叠时，即，嘈杂的语音、音乐中的语音或同时说话者等。

8、当涉及估计ictd时，常规参数方法依赖于互相关函数(ccf)rxy，其是两个波形x(n)和y(n)之间的相似性的度量，并且通常在时域中被定义为：

9、rxy(n，τ)＝e[x(n)y(n+τ)]

10、其中τ是时滞参数，e[·]是期望算子。对于长度为n的信号帧，互相关性通常被估计为：

11、

12、通常，icc被获得为ccf的最大值，其根据以下公式通过信号能量被规范化：

13、

14、对应于icc的时滞τ被确定为声道x与y之间的ictd。ccf还可以使用离散傅立叶变换被计算为：

15、rxy(τ)＝dft-1(x(k)y*(k))

16、其中x[k]是时域信号x[n]的离散傅立叶变换(dft)，y*[k]是时域信号y[n]的离散傅立叶变换(dft)的复共轭，即：

17、

18、

19、并且dft-1(·)或idft(·)表示逆离散傅立叶变换。但是应当注意，dft将分析帧复制到周期信号中，从而产生x(n)和y(n)的循环卷积。基于此，分析帧通常被用零填充以匹配真正的互相关性。

20、对于y(n)纯粹是x(n)的延迟版本的情况，互相关函数由以下公式提供

21、

22、其中*表示卷积，δ(τ-τ0)是克罗内克增量(kronecker delta)函数，即，在τ0时等于1，否则等于0。这意味着x与y之间的互相关函数是通过与rxx(τ)卷积而扩展的函数，rxx(τ)是x(n)的自相关函数。对于具有多个延迟分量(例如多个说话者)的信号帧，在信号之间存在的每个延迟处将具有峰值，并且互相关性变为：

23、rxy(τ)＝rxx(τ)*∑iδ(τ-τi)。

24、然后，这些增量函数可能扩展到彼此中，并且使得识别信号帧内的多个延迟变得困难。但是，广义互相关(gcc)函数没有这种扩展。gcc通常被定义为：

25、

26、其中ψ[k]是频率加权。对于空间音频，相位变换(phat)因其在低噪声环境中对混响的稳健性而已得到了应用。相位变换基本上是每个频率系数的绝对值，即：

27、

28、由此，这种加权将使交叉频谱(cross-spectrum)变白，以使得每个分量的功率变得相等。在信号x[n]和y[n]中具有纯延迟和不相关噪声的情况下，相位变换后的gcc(gcc-phat)恰好变成克罗内克增量函数δ(τ-τ0)，即：

29、

30、图2示出了纯延迟情况下具有声道间时差的信号对、它们的互相关性以及具有相位变换分析的广义互相关性。

31、在分析所记录的立体声信号的真实场景中，声道不只是在延迟方面不同，而是例如将具有不同的噪声、麦克风和记录设备的频率响应的变化、以及可能具有不同的混响模式。在这种情况下，通常通过查找gcc-phat的最大值来找到时滞τ。在这种情况下，分析还可能显示帧与帧之间的变化。这是短期傅立叶分析中的典型特性，但也是因为源信号的级别和频谱含量可能变化，例如对于语音记录是这种情况。为此，在时滞的最终分析中应用稳定化是有益的。这可以通过以下方式实现：当信号能量相对于背景噪声低时，减慢或阻止时滞的更新。

32、在美国申请公开号2020/0194013a1中，通过应用gcc-phat的自适应低通滤波器来稳定itd选择。通过对连续帧的互相关性进行自适应滤波，对互相关性应用低通滤波。低通滤波器还被应用于互相关性的时域表示。对于估计信噪比(snr)高的干净信号，使用更高程度的低通滤波。

33、美国申请公开号us20200211575a1描述了一种根据snr估计来重用先前存储的itd值的方法，从而获得随时间更稳定的itd参数。

34、立体声记录中的声道之间的时滞来自于麦克风之间的物理距离。如图3所示，ab麦克风配置通常在麦克风之间具有相对大的距离，约为1-1.5米。因此，取决于所捕获的音频源的位置，使用ab配置的记录通常在声道之间具有时间延迟。一些麦克风配置(例如xy和ms)尝试将麦克风膜片定位为尽可能靠近彼此，即，所谓的重合麦克风配置。这些重合麦克风配置通常在声道之间具有非常小或为零的时间延迟。xy配置主要通过声级差来捕获立体声图像。ms设置(mid-side(中侧)的缩写)具有定向到前方的中声道以及带有八字形拾音模式的麦克风，以捕获侧声道中的环境。使用以下关系将中侧表示转换成左-右表示：

35、

36、其中侧声道s以相反的符号被添加到左声道和右声道。更一般地说，可以通过将两个或更多个单声道信号转换成立体声表示来获得立体声表示，其中信号之间的时差(其与捕获的物理距离相关)应当很小。合适的捕获技术的另一个示例是使用四面体麦克风，其具有四个间隔紧密的心形，可以从中形成立体表示。

技术实现思路

1、对于ms重合麦克风配置(以下称为“重合配置”，并且缩写为“cc”)，理想情况下时滞应当始终接近零。但是，由于混响和噪声，可能检测到偶尔的时滞。如果在立体声或多声道音频编码器的上下文中对时滞进行编码，则由错误地检测到的滞后引起的时滞中的突然跳变可能给出重构音频信号的音源位置不稳定的印象。此外，错误或不稳定的时滞将对下混频信号产生负面影响，下混频信号可能由于这些错误而展现出不稳定的能量。

2、即使按照us20200194013a1中的建议对gcc-phat进行低通滤波，也可能在cc信号中检测到错误的itd。如us20200211575a1中概述的重用先前存储的itd值的能力不能防止cc信号中的错误的itd估计。事实上，所添加的稳定化可能使错误决策持续更长时间。

3、本公开的某些方面及其实施例能够提供这些或其他挑战的解决方案。本文描述的本发明概念的各种实施例检测例如ms麦克风配置的重合配置。如果检测到这种配置(例如ms麦克风配置)，则可以适配时滞检测，以使得偏向更接近零的时滞。

4、根据本发明概念的一些实施例，提供了一种在编码器或解码器中识别重合麦克风配置cc并且适配声道间时差itd搜索的方法。所述方法包括：对于多声道音频信号的每个帧m，生成所述多声道音频信号的声道对的互相关性。所述方法包括：基于所述互相关性，确定第一itd估计。所述方法包括：确定所述多声道音频信号是否是cc信号。所述方法包括：响应于确定所述多声道音频信号是cc信号，将所述itd搜索偏置为偏向接近零的itd以获得最终itd。

5、在本发明概念的其他实施例中提供了类似的装置、计算机程序和计算机程序产品。

6、可以实现的优点使得能够稳定时滞或itd检测，这提高了重合配置(例如来自ms配置)的立体声信号的重构音频的编码质量和稳定性。稳定时滞或itd检测提高了重合配置(例如来自ms配置)的立体声信号的重构音频的编码质量和稳定性。

7、配置检测可以基于gcc-phat频谱，该频谱已经被计算以估计时滞，与基线系统相比，仅需非常小的计算开销。