技术新讯 > 乐器声学设备的制造及制作,分析技术 > 用于使用宽频带滤波器生成的填充信号对已编码的多声道信号进行编码或解码的装置的制作方法 > 正文

用于使用宽频带滤波器生成的填充信号对已编码的多声道信号进行编码或解码的装置的制作方法

国知局
2024-06-21 11:36:23

本发明涉及音频处理，具体而言，涉及在用于对已编码的多声道信号进行解码的装置或方法内的多声道音频处理。

背景技术：

1、用于以低比特率对立体声信号进行参数化编译(coding)的现有技术的编解码器为mpeg编解码器xhe-aac。其特征在于基于在子频带中估计的单声道降混和立体声参数声道间电平差(ild)和声道间干扰(icc)的完全参数化立体声编译模式。输出通过在每个子频带中使子频带降混信号和该子频带降混信号的去相关版本(其是通过在qmf滤波器组内应用子频带滤波器而获得的)矩阵化而由单声道降混合成。

2、存在与用于编译语音项目的xhe-aac相关的一些缺陷。生成了合成第二信号的滤波器产生输入信号的极大混响形式，这需要避免。因此，处理随时间推移会严重破坏输入信号的频谱形状。这对于许多信号类型效果良好，但对于频谱包络快速改变的语音信号，造成不自然的音调变化和听觉伪声，诸如双重通话或重音(ghost voice)。另外，滤波器取决于基础qmf滤波器组的时间分辨率，其随采样率而改变。因此，输出信号对于不同采样率并不一致。

3、除此之外，3gpp编解码器amr-wb+的特征在于支持7至48kbit/s的比特率的半参数化立体声模式。其是基于左输入声道与右输入声道的中间/边带变换。在低频率范围中，通过中间信号m预测边带信号s以获得平衡增益，且m和预测残差两者均被编码且连同预测系数一起被传输给解码器。在中间频率范围中，仅对降混信号m进行编译，且使用低阶fir滤波器根据m预测缺失信号s，缺失信号s是在编码器处进行计算的。这与两个声道的带宽扩展相组合。对于语音，编解码器通常生成比xhe-aac更自然的声音，但面临若干问题。如果输入声道仅弱相关，如同例如回音语音信号或双重通话的情况，则通过低阶fir滤波器由m预测s的过程效果并不非常好。而且，编解码器不能处理异相信号，这可能导致质量的大量损失，且可观察到，已解码的输出的立体声图像通常高度压缩。另外，该方法并非完全参数化的，且因此在比特率方面并不高效。

4、通常，完全参数化方法可能会由于以下事实而导致音频质量恶化：由于参数化编码并不在解码器侧被重构，而导致任何信号部分损失。

5、一方面，诸如中间/边带编译等的波形保持过程并不允许如可从参数化多声道编译器获得的实质性比特率节省。

技术实现思路

1、本发明的目标在于提供用于对已编码的多声道信号进行解码的改善构思。

2、此目标通过用于对已编码的多声道信号进行解码的装置、根据权利要求37的对已编码的多声道信号进行解码的方法、根据权利要求38的计算机程序和根据权利要求39的音频信号去相关器、根据权利要求49的对音频输入信号进行去相关的方法或根据权利要求50的计算机程序来实现。

3、本发明基于以下发现：混合方法对于对已编码的多声道信号进行解码是有用的。此混合方法依赖于使用通过去相关滤波器生成的填充信号，且此填充信号然后由诸如参数化之类的多声道处理器或其他多声道处理器用于生成已解码的多声道信号。具体而言，该去相关滤波器是宽频带滤波器，且该多声道处理器被配置为将窄频带处理应用于频谱表示。因此，填充信号优选地通过例如全通滤波器过程在时域中生成，且多声道处理使用已解码的基础声道的频谱表示且额外地使用从在时域中计算的填充信号生成的填充信号的频谱表示在谱域中进行。

4、因此，频域多声道处理(一方面)和时域去相关(另一方面)的优点以有用的方式被组合以获得具有高音频质量的已解码的多声道信号。尽管如此，由于已编码的多声道信号通常并非波形保持的编码格式但例如是参数化多声道编译格式的事实，用于传输已编码的多声道信号的比特率保持尽可能低。因此，为了生成填充信号，仅使用诸如已解码的基础声道之类的解码器可用数据，且在某些实施例中，使用本领域已知的附加立体声参数，诸如增益参数或预测参数或者替代地ild、icc或任何其他立体声参数。

5、随后，论述若干优选实施例。对立体声信号进行编译的最高效的方式是使用诸如双耳线索编译或参数化立体声之类的参数化方法。其旨在通过恢复子频带中的若干空间线索来根据单声道降混重构空间印象，且由此是基于心理声学的。存在考虑参数化方法的另一种方式：简单地尝试以参数化方式逐声道模型化，尝试利用声道间冗余。以此方式，可以从主级声道恢复次级声道的部分，但通常留有残差分量。忽略此分量通常导致已解码的输出的不稳定立体声图像。因此，有必要填充这种残差分量的合适替换。因为这种替换是盲目的，因此最安全的是从与降混信号具有类似时间和频谱属性的第二信号取得这样的部分。

6、因此，本发明的实施例特别适用于参数化音频编译器，具体而言参数化音频解码器的上下文，其中缺失残差部分的替换是从由解码器侧的去相关滤波器生成的人工信号提取的。

7、其他实施例涉及用于生成人工信号的过程。实施例涉及生成从中提取缺失残差部分的替换的人工第二声道的方法及其在被称为增强型立体声填充的全参数化立体声编译器中的使用。该信号比xhe-aac信号更适合于编译语音信号，这是因为其频谱形状在时间上更接近输入信号。其是通过应用特殊滤波器结构而在时域中生成的，因此独立于执行立体声升混的滤波器组。其因此可用于不同的升混过程中。例如，其可用于xhe-aac中以在变换到qmf域之后替换人工信号，此将改善语音的性能，以及可用于amr-wb+的中频段中以替代中间/边带预测中的残差，这将改善弱相关输入声道的性能且改善立体声图像。这尤其可用于特征在于不同立体声模式(诸如，时域和频域立体声处理)的编解码器。

8、在优选实施例中，去相关滤波器包括至少一个全通滤波器单元，该至少一个全通滤波器单元包括嵌套至第三施罗德全通滤波器中的两个施罗德全通滤波器单元，和/或该全通滤波器包括至少一个全通滤波器单元，该全通滤波器单元包括两个级联的施罗德全通滤波器，其中到第一级联的施罗德全通滤波器的输入和来自级联的第二施罗德全通滤波器的输出在信号流的方向上在第三施罗德全通滤波器的延迟级之前被连接。

9、在又一实施例中，包括三个嵌套的施罗德全通滤波器的若干这种全通滤波器单元被级联以便获得用于立体声或多声道解码目的的具有良好脉冲响应的特别有用的全通滤波器。

10、此处应强调，尽管关于根据单声道基础声道、左升混声道和右升混声道的立体声解码生成论述了本发明的若干方面，但本发明也适用于多声道解码，其中使用两个基础声道对例如四个声道的信号进行编码，其中前两个升混声道是从第一基础声道生成的，第三升混声道和第四升混声道是从第二基础声道生成的。在其他替代方案中，本发明亦适用于始终优选地使用相同的填充信号从单个基础声道生成三个或更多个升混声道。然而，在所有这种过程中，以宽频带方式，即优选地在时域中，生成填充信号，且在频域中进行用于从已解码的基础声道生成两个或更多个升混声道的多声道处理。

11、去相关滤波器优选地完全在时域中操作。然而，其他混合方法也适用，其中例如通过(一方面)对低频带部分和(另一方面)高频带部分进行去相关来执行去相关，同时例如以高得多的频谱分辨率执行多声道处理。因此，示例性地，多声道处理的频谱分辨率可以例如与个别地处理每个dft或fft线一样高，且对于若干频带给出参数化数据，其中每个频带例如包括两个、三个或更多个dft/fft/mdct线，且像宽频带那样进行对已解码的基础声道进行滤波以获得填充信号，即在时域中进行，或像半宽频带那样进行，例如在低频带和高频带内或可能在三个不同频带内进行。因此，在任何情况下，通常对个别线或子频带信号执行的立体声处理的频谱分辨率是最高频谱分辨率。通常，在编码器中生成且由优选解码器传输和使用的立体声参数具有中等频谱分辨率。因此，针对若干频带给出参数，该频带可具有变化的带宽，但每个频带至少包括由多声道处理器生成和使用的两个或更多个线或子频带信号。而且，去相关滤波的频谱分辨率非常低，且在时域滤波的情况下极低，或在对于不同频带生成不同去相关信号的情况下，是中等的，但该中等频谱分辨率仍然低于给定用于参数化处理的参数时的分辨率。

12、在优选实施例中，去相关滤波器的滤波器特性是全通滤波器在整个所关注的频谱范围上具有恒定幅度区域。然而，并不具有此理想全通滤波器表现的其他去相关滤波器也是有用的，只要在优选实施例中，滤波器特性的恒定幅度区域大于已解码的基础声道的频谱表示的频谱粒度和填充信号的频谱表示的频谱粒度即可。

13、因此，确保了执行了多声道处理的已解码的基础声道或填充信号的频谱粒度不影响去相关滤波，以使得生成高质量填充信号，优选地使用能量归一化因子进行调整且然后用于生成两个或更多个升混声道。

14、另外，应注意，诸如关于随后论述的图4、图5或图6所描述的去相关信号的生成可用于多声道解码器的上下文中，但也可用于其中去相关信号适用于例如任何音频信号显现、任何混响操作等中的任何其他应用中。