技术新讯 > 乐器声学设备的制造及制作,分析技术 > 从包括至少两个声道的信号产生声场描述的装置、方法与流程 > 正文

从包括至少两个声道的信号产生声场描述的装置、方法与流程

国知局
2024-06-21 11:41:30

本发明涉及音频编码，并且特别涉及使用一个或多个声音分量生成器从输入信号产生声场描述。

背景技术：

1、方向性音频编码(directional audio coding，dirac)技术(参考文献[1])是一种分析和再现空间声音的有效方法。dirac使用基于到达方向(direction of arrival，doa)和针对每频带测量的扩散性的声场的知觉激励表示。它是基于这样的假设，即在一个时刻和在一个关键频带，听觉系统的空间分辨率受限于对用于方向的一个提示和用于耳间连贯性的另一提示进行解码。然后，空间声音通过交叉衰减的两个流在频域中呈现，这两个流是非方向扩散流和方向非扩散流。

2、dirac最初用于录制b格式声音，但是也可以延伸用于匹配特定扬声器设置(例如5.1(参考文献[2]))或者任何麦克风阵列的配置(参考文献[5])的麦克风信号。在最新的案例中，通过录制中间格式的信号而不是录制用于特定扬声器设置的信号可以实现更多的灵活性。

3、已在实际中良好建立的这种中间格式是通过(高阶)球形环绕声(参考文献[3])来呈现的。可以从球形环绕声信号产生每一个期望的扬声器设置的信号，包括用于耳机再现的双耳信号。这要求使用线性球形环绕声渲染器(参考文献[3])或者参数渲染器(例如方向性音频编码(dirac))，将特定的渲染器(renderer)应用于球形环绕声信号。

4、球形环绕声信号可以呈现为多声道信号，其中每一个声道(称为球形环绕声分量)等效于所谓的空间基函数的系数。以这些空间基函数的加权和(利用对应于这些系数的权值)，可以重建在录制位置中的原始声场(参考文献[3])。因此，空间基函数系数(即，球形环绕声分量)表示录制位置中的声场的紧凑描述。存在有不同类型的空间基函数，例如球形谐波(spherical harmonics，sh)(参考文献[3])或者圆柱谐波(cylindrical harmonics，ch)(参考文献[3])。当描述在2d空间中的声场时(例如，用于2d声音再现)，可以使用ch，而sh可以用来描述在2d与3d空间中的声场(例如，用于2d与3d声音再现)。

5、例如，从特定方向到达的音频信号f(t)产生空间音频信号该空间音频信号可以通过扩展球形谐波直到截断阶h，以球形环绕声格式呈现：

6、

7、其中是阶l和模m的球形谐波，并且φlm(t)是扩展系数。通过增加截断阶h，该扩展产生更精确的空间表示。在图1a中，针对阶n和模m示出具有球形环绕声声道编号(ambisonics channel numbering，acn)索引的直到阶h＝4的球形谐波。

8、dirac已经扩展用于从第一阶球形环绕声信号(first order ambisonicssignal)(foa，称为b格式)或者从不同的麦克风阵列递送更高阶的球形环绕声信号(参考文献[5])。这份文件着重于一种更有效率的方法，用于从dirac参数和参考信号来合成高阶球形环绕声信号。在这份文件中，该参考信号，也称为降混(down-mix)信号，被视为更高阶的球形环绕声信号的子集或者该球形环绕声分量的子集的线性组合。

9、而且，本发明还考虑了其中将dirac用于以音频场景的参数形式的传输的情形。在这样的情形中，降混信号通过传统的音频核心编码器来编码，而dirac参数以压缩方式作为侧信息来传送。本方法的优点是考虑了在音频编码期间发生的量化误差。

10、以下，呈现了基于dirac的空间音频编码系统的概述，该空间音频编码系统设计用于沉浸式语音和音频服务(immersive voice and audio services，ivas)。这表示不同上下文中的一个，诸如dirac空间音频编码器的系统概述。这种系统的目的是能够处理表示音频场景的不同空间音频格式，并且以低比特率对其进行编码，以及在传送后尽可能忠实地再现原始音频场景。

11、该系统可以接受音频场景的不同表示作为输入。该输入音频场景可以通过旨在在不同扬声器位置处再现的多声道信号、听觉对象和描述对象随时间变化的位置的元数据、或者表示收听者或者参考位置的声场的第一阶或者更高阶的球形环绕声格式来捕获。

12、优选地，该系统基于3gpp增强语音服务(enhanced voice services，evs)，因为该解决方案预计以低等待时间运行以启用移动网络上的对话服务。

13、如图1b所示，该编码器(ivas编码器)能够支持分别或者同时呈现给该系统的不同音频格式。音频信号可以本质上是声学的，可以通过麦克风拾取的信号，也可以本质上是电性的，其应该被传送到该扬声器。所支持的音频格式可以是多声道信号、第一阶和更高阶的球形环绕声分量以及音频对象。也可以通过组合不同的输入格式来描述复杂音频场景。所有的音频格式传送到dirac分析，该分析提取完整音频场景的参数表示。以参数的每个时间频率单位来测量到达方向和扩散性。在dirac分析之后是空间元数据编码器，其对元数据编码器进行量化和编码，以获得低比特率参数表示。

14、与参数一起，对从不同来源或者音频输入信号导出的降混信号进行编码，用于通过传统的音频核心编码器进行传送。在这种情形中，采用一种基于evs的音频编码器，用于对降混信号进行编码。该降混信号包括不同的声道，称为传输声道：该降混信号可以例如是组成b格式信号的四个系数信号、取决于目标比特率的立体声对或者单声道降混。经编码的空间参数和经编码的音频位流在通过该通信声道传送之前被多路复用。

15、在图1b中示出支持不同音频格式的基于dirac的空间音频编码的编码器侧。声学/电性输入1000输入到编码器接口1010，其中所述编码器接口具有图示为1013的特定功能，该特定功能用于第一阶球形环绕声(first order ambisonics，foa)或者高阶球形环绕声(high order ambisonics，hoa)。此外，该编码器接口具有用于多声道(multichannel，mc)数据的功能，例如立体声数据、5.1数据或者具有两个或者五个以上声道的数据。此外，该编码器接口1010具有用于对象编码的功能，例如，如图示为1011的空间音频对象编码(spatial audio object coding，saoc)。该ivas编码器包括具有dirac分析框1021和降混(downmix，dmx)框1022。通过ivas核心编码器1040，诸如aac或者evs编码器，对由降混框1022输出的信号进行编码，并且使用一dirac元数据编码器1030，对由dirac分析框1021产生的元数据进行编码。

16、在图2中所示的编码器中，通过核心解码器对传输声道进行解码，同时该dirac元数据在与经解码的传输声道一起传递到dirac合成之前被解码。在此阶段，可以考虑不同的选择。可以要求直接在任何扬声器或者耳机配置上播放音频场景，这在传统的dirac系统(图2中的mc)中通常是可行的。

17、解码器也可以如各个对象在编码器侧所呈现的那样来传递各个对象(图2中的对象)。

18、可替代地，也可以将该场景呈现为球形环绕声格式，用于其他进一步的操作，例如场景的旋转、反射或者移动(图2中的foa/hoa)，或者是用于使用原始系统中未定义的外部渲染器。

19、传递不同音频格式的dirac空间音频编码的解码器被图示于图2中，并且解码器包括ivas解码器1045和随后连接的解码器接口1046。ivas解码器1045包括ivas核心解码器1060，其被配置为执行对于由图1b的ivas核心编码器1040编码的内容的解码操作。此外，提供了dirac元数据解码器1050，其传递用于对由dirac元数据编码器1030编码的内容进行解码的解码功能。dirac合成器1070接收来自dirac元数据解码器1050和ivas核心解码器1060的数据，并且通过使用某种用户交互或者不使用，该输出被输入至解码器接口1046，解码器接口1046产生在框1083处的foa/hoa数据、如框1082中所示的多声道数据(mc数据)、或者如框1080中所示的对象数据。

20、使用dirac范例的传统的hoa合成被图示于图3中。称为降混信号的输入信号被通过频率滤波器组进行时间频率分析。频率滤波器组2000可以是像复合值qmf的复合值滤波器组或者像stft的块变换。hoa合成在输出时产生包括(h+1)2个分量的阶h的球形环绕声信号。可选地，它也可以输出呈现在特定扬声器布局上的该球形环绕声信号。以下，我们将详细说明如何在某些情形中，伴随着输入空间参数从该降混信号获得(h+1)2个分量。

21、该降混信号可以是原始麦克风信号或者是描述原始音频场景的原始信号的混合。例如，如果音频场景是通过声场麦克风所捕获的，则降混信号可以是场景的全向分量(w)、立体声降混(l/r)或者第一阶球形环绕声信号(foa)。

22、对于每一个时间频率图块，如果降混信号包含用于确定这种dirac参数的充分信息，则声音方向，也可以称为到达方向(direction-of-arrival，doa)，以及扩散因子被分别地通过方向估计器2020和扩散估计器2010来估计。例如，如果降混信号是第一阶球形环绕声信号(foa)就是这种情形。可替代地，或者如果降混信号不足以确定这些参数，则可以经由包含空间参数的输入位流，将所述参数直接传递至dirac合成。在音频传输应用的情形中，位流可以包括例如作为侧信息接收的经量化和经编码的参数。在这种情形中，该参数是在dirac合成模块之外，从原始麦克风信号或者在如开关2030或者2040所示的编码器侧提供给dirac分析模块的输入音频格式导出的。

23、声音方向被方向增益评估器2050使用，以用于针对多个时间频率图块中的每一个时间频率图块，评估(h+1)2个方向增益中的一个或多个集合，其中h是经合成的球形环绕声信号的阶。

24、方向性增益可以通过在要合成的球形环绕声信号的所需阶(级别)l和模m下评估每一个估计声音方向的空间基函数而获得。声音方向可以用单位范数向量n(k,n)或者方位角和/或仰角θ(k,n)表示，例如以下关系：

25、

26、在估计或者获得声音方向后，可以确定所需阶(级别)l和模m的空间基函数的响应，例如，通过将具有sn3d标准化的实值球形谐波视为空间基函数：

27、

28、其中，范围是0≤l≤h，以及-l≤m≤l。是勒让德函数(legendre-functions)，而是用于勒让德函数与三角函数两者的标准项，其对于sn3d采用以下形式：

29、

30、其中，克罗内克-德尔塔(kronecker-delta)δm对于m＝0为一，其余情形为零。然后，针对索引(k,n)的每一个时间频率图块，该方向增益被直接推导为：

31、

32、通过从降混信号导出参考信号pref并且乘以方向增益以及扩散性ψ(k,n)的因子函数，计算直达声音球形环绕声分量

33、

34、例如，参考信号pref可以是降混信号的全向分量或者降混信号的k个声道的线性组合。

35、扩散声音球形环绕声分量可以通过使用用于从所有可能方向到达的声音的空间基函数的响应来仿真。一个示例是通过考虑在所有可能角度和θ上的空间基函数的平方值的积分来定义平均响应

36、

37、扩散声音球形环绕声分是从信号pdiff乘以平均响应与扩散性ψ(k,n)的因子函数而计算的：

38、

39、信号可以通过使用施加到参考信号pref的不同的去相关器而获得。

40、最终，直达声音球形环绕声分量和扩散声音球形环绕声分量被组合2060，例如，通过求和运算，以获得针对时间频率图块(k,n)的所需阶(级别)l和模m的最终球形环绕声分量即，

41、

42、所获得的球形环绕声分量可以使用反向滤波器组2080或者反向stft变换回时域，存储，传送，或者例如用于空间声音再现应用。可替代地，在将扬声器信号或者双耳信号变换回时域之前，对每一个带宽应用线性球形环绕声渲染器2070，用于获得将要在特定扬声器或者耳机上播放的信号。

43、应当注意的是，参考文献[5]还教导：扩散声音分量仅可以被合成直到阶l，其中l<h。由于减少了去相关器的使用，这在降低计算复杂度的同时避免了合成伪像。

技术实现思路

1、本发明的目的在于提供一种用于从输入信号产生声场描述的改进概念。

2、此目的可以通过根据权利要求1的用于产生声场描述的装置、根据权利要求20的产生声场描述的方法或者根据权利要求21的计算机程序来实现。

3、根据第一方面的本发明是基于以下发现：不必对所有已产生的分量执行包括扩散部分计算的声场分量合成。执行扩散分量合成仅直到特定阶就足够了。然而，为了不产生任何能量波动或者能量误差，在产生具有扩散分量和直达分量的第一组声场分量的声场分量时，执行能量补偿，该能量补偿取决于扩散性数据、以及第二组声场分量中的声场分量的数量、第一组声场分量中的扩散分量的数量、第一组声场分量的声场分量的最大阶和第二组声场分量的声场分量的最大阶中的至少一个。特别是，根据本发明的第一方面，一种用于从包括一个或多个声道的输入信号产生声场描述的装置，包括：输入信号分析器，用于从输入信号获得扩散性数据；以及声音分量生成器，用于从输入信号产生第一组声场分量的一个或多个声场分量，对于每一个声场分量，该第一组声场分量具有直达分量和扩散分量，并且用于从输入信号产生第二组声场分量，该第二组声场分量仅具有直达分量。特别是，该声音分量生成器当产生第一声场分量组时执行能量补偿，该能量补偿取决于扩散性数据、以及第二组声场分量中的声场分量的数量、第一组声场分量中的扩散分量的数量、第一组声场分量的声场分量的最大阶和第二组声场分量的声场分量的最大阶中的至少一个。

4、该第一组声场分量可以包括低阶声场分量和中阶声场分量，而第二组声场分量包括高阶声场分量。

5、根据本发明的第二方面，一种用于从包括至少两个声道的输入信号产生声场描述装置，，该装置包括输入信号分析器，用于从输入信号获得方向数据和扩散性数据。该装置还包括估计器，用于估计第一能量或振幅相关测量和估计第二能量或振幅相关测量，该第一能量或振幅相关测量用于从输入信号导出的全向分量，该第二能量或振幅相关测量用于从输入信号导出的方向分量。此外，该装置还包括声音分量生成器，用于产生声场的声场分量，其中声音分量生成器被配置为使用第一能量或振幅相关测量、第二能量或振幅相关测量、方向数据与扩散性数据来执行方向分量的能量补偿。

6、特别是，本发明的第二方面是基于以下发现：在其中所述用于产生声场描述的装置接收到方向分量、并且同时也接收到方向数据和扩散性数据的情形中，方向数据和扩散性数据可以用于补偿由于编码器内的方向分量或者全向分量的量化或者任何其他处理而可能引入的任何误差。因此，方向数据和扩散性数据并非简单地用于产生声场描述，而是此数据被第二次地用于校正方向分量，以便于撤消或者至少部分撤消，因此补偿方向分量的能量损失。

7、优选地，对在解码器接口处接收的低阶分量执行能量补偿，或者从产生输入信号的音频编码器接收的数据中产生的低阶分量执行能量补偿。

8、根据本发明的第三方面，一种用于使用包括单声道信号或者多声道信号的输入信号产生声场描述的装置，包括输入信号分析器、低阶分量生成器、中阶分量生成器以及高阶分量生成器。特别是，不同的“子”生成器被配置为基于特定处理程序以相应的阶来产生声场分量，该特定处理程序对于低阶、中阶或者高阶分量生成器中的每一个都是不同的。这确保了一方面在处理要求，另一方面在音频质量要求与另一方面在实用性程序之间的最佳折衷。通过这样的程序，例如去相关器的使用仅限于中阶分量的产生，而对于低阶分量的产生和高阶分量的产生，避免了任何容易出现伪像的去相关器。另一方面，优选地能量补偿被执行用于扩散分量能量损失，并且这种能量补偿仅在低阶声场分量内或者仅在中阶声场分量内或者在低阶声场分量与中阶声场分量两者中执行。优选地，使用已传送的方向扩散性数据来完成用于在低阶分量生成器中形成的方向分量的能量补偿。

9、优选的实施例涉及用于使用方向性音频编码范例(dirac)(一种用于空间音频处理的知觉激励技术)合成(更高阶)球形环绕声信号的装置、方法或者计算机程序。

10、实施例涉及一种，用于从空间参数和降混信号来合成音频场景的球形环绕声表示的有效方法。在该方法的应用中，但不限于，该音频场景被传送并且因此被编码用于减少传送数据量。然后，降混信号的声道的数量和质量强烈地受限于可以用于该传送的比特率。实施例涉及一种有效方式，其利用包括在所传送的降混信号中的信息以减少合成的复杂性，同时提高质量。

11、本发明的另一个实施例涉及声场的扩散分量，声场的扩散分量可以被限制为仅模拟直到合成分量的预定阶，以避免合成伪像。这个实施例提供了一种方法，通过放大降混信号来补偿所产生的能量损失。

12、另一个实施例涉及声场的方向分量，其特性可以在降混信号内改变。降混信号可以进一步地能量标准化，以保持由传送方向参数决定但是在传送期间由于注入量化或者其他误差而被破坏的能量关系。