技术新讯 > 乐器声学设备的制造及制作,分析技术 > 使用不同的时间/频率分辨率来编码或解码定向音频编码参数的装置和方法与流程 > 正文

使用不同的时间/频率分辨率来编码或解码定向音频编码参数的装置和方法与流程

国知局
2024-06-21 10:39:15

本发明涉及音频信号处理，并且具体涉及诸如dirac元数据之类的定向音频编码参数的有效编码方案。

背景技术：

1、本发明旨在提出用于来自由定向音频编码(dirac)(一种用于空间音频处理的感知激励技术)进行的3d音频场景分析的编码空间元数据的低比特率编码解决方案。

2、发送三维的音频场景需要处理多个声道，这通常引起发送大量数据。定向音频编码(directional audio coding；dirac)技术[1]是用于分析音频场景并以参数方式对其进行表示的有效方法。dirac基于针对每个频带测量的到达方向(doa)和扩散度来使用声场的感知激励表示。其是依据如下假设来建立的：在一个时刻并且对于一个临界频带，听觉系统的空间分辨率限于针对方向解码一个提示并且针对耳间相干性解码另一提示。然后通过使两个流(即非定向扩散流和定向不扩散串流)交叉衰落来在频域中再现空间声音。

3、本发明公开了基于dirac声音表示和再现的3d音频编码方法来实现低比特率下的沉浸式音频内容的传输。

4、dirac是感知激励空间声音再现。假设在一个时刻并且对于一个临界频带，听觉系统的空间分辨率限于针对方向解码一个提示并且针对耳间相干性解码另一提示。

5、基于这些假设，dirac通过使两个流(即非定向扩散流和定向不扩散串流)交叉衰落来在一个频带中表示空间声音。dirac处理在如下两个阶段中执行：如图10a和图10b中所描绘的分析阶段和合成阶段。

6、在dirac分析阶段中，具有b格式的一阶重合麦克风被视为输入并且在频域中分析声音的扩散度和到达方向。

7、在dirac合成阶段中，声音被分成两个流，即不扩散流和扩散流。使用幅度平移将不扩散流再现为点源，可以通过使用向量基幅度平移(vbap)[2]来进行幅度平移。扩散流负责环绕感的感觉并且通过将彼此去相关的信号输送给扬声器而产生。

8、dirac参数(在下文中也称为空间元数据或dirac元数据)由扩散度和方向的元组组成。方向可以通过两个角度(方位角和仰角)以球形坐标来表示，而扩散度是位于0与1之间的标量因子。

9、图10a示出了接收b格式输入信号的滤波器组130。执行能量分析132和强度分析134。执行在136处指示的能量结果的时间平均和在138处指示的强度结果的时间平均，并且根据平均数据，如110处所指示地计算各个时间段/频段的扩散度值。通过框120来计算由滤波器组130的时间或频率分辨率给定的时间段/频段的方向值。

10、在图10b中所示的dirac合成中，再次使用分析滤波器组431。例如，应用虚拟麦克风处理框421，其中虚拟麦克风与例如5.1扬声器装置的扬声器位置相对应。扩散度元数据由用于扩散度的对应的处理框422和由框423处指示的向量基幅度平移(vbap)增益表来处理。扬声器平均框424被配置为执行增益平均，并且对应的归一化框425被应用以便在各个最终扬声器信号中具有对应的定义的响度等级。在框426中执行麦克风补偿。

11、所得信号一方面用于产生包括去相关阶段的扩散流427，并且另外也产生不扩散流428。针对对应的子带在加法器429中使两个流相加，并且在框431中，执行与其他子带的相加(即，频率到时间转换)。因此，框431也可以被视为合成滤波器组。对于来自特定扬声器装置的其他声道进行类似的处理操作，其中对于不同声道，框421中的虚拟麦克风的设定将是不同的。

12、在dirac分析阶段中，具有b格式的一阶重合麦克风被视为输入并且在频域中分析声音的扩散度和到达方向。

13、在dirac合成阶段中，声音被分成两个流，即不扩散流和扩散流。使用幅度平移将不扩散流再现为点源，可以通过使用向量基幅度平移(vbap)[2]来进行幅度平移。扩散流负责环绕感的感觉并且通过将彼此去相关的信号输送给扬声器而产生。

14、dirac参数(在下文中也称为空间元数据或dirac元数据)由扩散度和方向的元组组成。方向可以通过两个角度(方位角和仰角)以球形坐标来表示，而扩散度是位于0与1之间的标量因子。

15、如果stft被视为具有20毫秒的时间分辨率(这通常在若干论文中建议)并且在相邻分析窗之间具有50％的重叠的时间-频率变换，则针对以48khz采样的输入，dirac分析将产生每秒288000个值，如果在8个比特上量化角度，则这对应于约2.3mbit/s的总比特率。该数据量并不适合于实现低比特率空间音频编码，并且因此需要dirac元数据的有效编码方案。

16、关于元数据的减小的先前工作主要集中于电话会议情形，其中dirac的性能被极大地减小以便允许其参数的最小数据速率[4]。实际上，提出将定向分析限制于水平面中的方位角以便仅再现2d音频场景。此外，仅发送至多7khz的扩散度和方位角，从而将通信限制于宽带语音。最终，基于一个或两个比特粗略量化扩散度，从而在合成阶段中仅有时接通或断开扩散流，这在考虑多个音频源和背景噪声上的大于单个语音时是不够通用的。在[4]中，在3比特上量化方位角并且假设源(在该情况下为扬声器)具有非常静态的位置。因此，仅通过50毫秒的更新频率来发送参数。基于这些许多有力的假设，对比特的需求可以减小至约3kbit/s。

技术实现思路

1、本发明的目的是提供改进的空间音频编码概念。

2、此目的是通过本技术示例实施例的用于编码定向音频编码参数的装置、本技术示例实施例的用于编码定向音频编码参数的方法、本技术示例实施例的用于解码经编码的音频信号的解码器、本技术示例实施例的用于解码的方法或本技术示例实施例的计算机程序来实现的。

3、根据一个方面，本发明基于以下发现：当一方面扩散度参数和另一方面方向参数被提供有不同分辨率并且具有不同分辨率的不同参数被量化和编码以获得经编码的定向音频编码参数时，一方面获得增强的质量，同时另一方面获得用于编码空间音频编码参数的减小的比特率。

4、在实施例中，扩散度参数的时间或频率分辨率低于定向参数的时间或频率分辨率。在另一实施例中，不仅在频率上而且还在时间上执行分组。例如，计算具有高分辨率(即针对高分辨率时间段/频段来计算)最初的扩散度/定向音频编码参数，并且执行分组并且优选地通过平均来执行分组，以便计算具有低时间或频率分辨率的所得扩散度参数以及计算具有中等时间或频率分辨率(即，位于扩散度参数的时间或频率分辨率与最初的高分辨率之间的时间或频率分辨率)的所得定向参数，已经计算了最初原始参数的最初的高分辨率。

5、在实施例中，第一和第二时间分辨率是不同的而第一和第二频率分辨率是相同的，或反之亦然，也就是说，第一和第二频率分辨率是不同的而第一和第二时间分辨率是相同的。在另一实施例中，第一和第二时间分辨率二者是不同的并且第一和第二频率分辨率也是不同的。因此，第一时间或频率分辨率也可以被认为是第一时间-频率分辨率并且第二时间或频率分辨率也可以被认为是第二时间-频率分辨率。

6、在另一实施例中，扩散度参数的分组是利用加权加法进行的，其中用于加权加法的加权因子基于音频信号的功率来确定，以使得具有较高功率的时间段/频段(或一般而言，音频信号的较高幅度相关测量)与其中待分析的信号具有较低功率或较低能量相关测量的时间段/频段的扩散度参数相比，对结果具有较高影响。

7、另外优选的是执行双重加权平均，以用于计算经分组的定向参数。该双重加权平均以如下方式进行：所述方式使得当最初信号的功率在时间段/频段中非常高时，来自该时间段/频段的定向参数对最终结果具有较高影响。同时还考虑对应段的扩散度值，以使得最终当功率在两个时间段/频段中相同时，与具有低扩散度的定向参数相比较，来自与高扩散度相关联的时间段/频段的定向参数对最终结果具有较低影响。

8、优选的是执行帧中的参数的处理，其中每一帧被组织在某一数量的频带中，其中每一频带包括至少两个最初频段，已经计算所述最初频段中的参数。频带的带宽(即最初频段的数量)随增加的频带编号而增加，以使得较高频带比较低频带更宽。已发现在优选实施例中，例如，每频带和每帧的扩散度参数的数量等于1，而每帧和每频带的定向参数的数量为2或甚至大于2，例如4。已发现对于扩散度和定向参数，相同的频率分辨率但不同的时间分辨率是适用的，即，帧中的扩散度参数和定向参数的频带的数量彼此相等。这些经分组的参数接着通过量化器和编码器处理器来量化和编码。

9、根据本发明的第二方面，提供空间音频编码参数的改进的处理概念的目的是通过用于量化扩散度参数和方向参数的参数量化器、随后连接的用于编码经量化的扩散度参数和经量化的方向参数的参数编码器、以及用于产生包括与经编码的扩散度参数和经编码的方向参数有关的信息的经编码的参数表示的对应输出接口来实现的。因此，通过量化和后续的熵编码，获得显著的数据速率减小。

10、输入至编码器中的扩散度参数和方向参数可以是高分辨率扩散度/方向参数或经分组或未经分组的低分辨率定向音频编码参数。优选的参数量化器的一个特征是用于量化方向参数的量化精确度是从与相同时间/频率区域相关联的扩散度参数的扩散度值导出的。因此，在第二方面的一个特征中，相比于与具有指示低扩散度的扩散度参数的时间/频率区域相关联的方向参数相比较，与具有高扩散度的扩散度参数相关联的方向参数的量化精确度较低。

11、扩散度参数自身可以以原始编码模式来熵编码，或当帧的频带的扩散度参数在整个帧中具有相同的值时可以以单值编码模式来编码。在其他实施例中，扩散度值可以在仅两个连续值过程中编码。

12、第二方面的另一特征是方向参被转换成方位角/仰角表示。在该特征中，仰角值用于确定用于方位角值的量化和编码的字母表。优选地，当仰角指示零角度或总体上指示单位球体上的赤道角度时，方位角字母表具有最大数量的不同值。方位角字母表中的值的最少数量是在仰角指示单位球体的北极或南极时。因此，字母表值随着从赤道计数的仰角的绝对值的增加而减小。

13、该仰角值通过从对应扩散度值确定的量化精确度来量化，并且一方面量化字母表以及另一方面量化精确度确定对应方位角值的量化并且通常确定熵编码。

14、因此，执行有效的且参数适配的处理，这种处理尽可能移除许多不相关性，并且同时将高分辨率或高精度应用于值得这样做的区域，而在诸如单位球体的北极或南极之类的其他区域中，与单位球体的赤道相比，精确度不会那样高。

15、根据第一方面的解码器侧操作执行任何种类的解码并通过经编码或经解码的扩散度参数和经编码或经解码的方向参数来执行对应的去分组(de-grouping)。因此，执行参数分辨率转换以将来自经编码或经解码的定向音频编码参数的分辨率增强到最终由音频渲染器使用以执行音频场景的渲染的分辨率。在该分辨率转换过程中，一方面针对扩散度参数并且另一方面针对方向参数来执行不同的分辨率转换。

16、扩散度参数通常通过低分辨率来编码，并且因此一个扩散度参数必须被重复或复制若干次以获得高分辨率表示。另一方面，与扩散度参数相比，对应的定向参数必须不那么频繁地被复制或不那么频繁地被重复，这是由于定向参数的分辨率已经高于经编码的音频信号中的扩散度参数的分辨率。

17、在实施例中，经复制或经重复的定向音频编码参数按原样被应用或被处理(例如被平滑或低通滤波)，以便避免由参数所引起的伪影随频率和/或时间强烈变化。然而，由于在优选实施例中，分辨率转换的参数化数据的应用是在谱域中执行的，所以经渲染的音频信号从频域至时域的对应的频率-时间转换由于优选应用的重叠和相加过程(这是通常包括在合成滤波器组中的特征)而执行相干平均。

18、在根据第二方面的解码器侧，解开在编码器侧在一方面针对熵编码并且在另一方面针对量化而执行的特定过程。优选的是根据与对应的方向参数相关联的通常经量化或经解量化的扩散度参数来确定解码器侧的解量化精确度。

19、优选的是根据对应的扩散度值及其相关解量化精确度来确定仰角参数的字母表。对于第二方面还优选的是，基于经量化或优选地经解量化的仰角参数的值来执行方位角参数的解量化字母表的确定。

20、根据第二方面，一方面原始编码模式或另一方面熵编码模式在编码器侧执行，并且在编码器选择产生较少数量的比特的模式，并经由一些辅助信息(side information)将其发信号通知给解码器。通常，针对具有与其相关联的高扩散度值的定向参数，始终执行原始编码模式，而对于具有与其相关联的较低扩散度值的定向参数，尝试熵编码模式。在具有原始编码的熵编码模式中，方位角和仰角值被合并成球体索引，并且球体索引接着使用二进制代码或删余代码(punctured code)来编码，并且因此在解码器侧解开该熵编码。

21、在具有模型化的熵编码模式中，针对帧计算平均仰角和方位角值，并且实际上计算关于这些平均值的残差值。因此，执行一种预测并且对预测残差值(即仰角和方位角的距离)进行熵编码。为此目的，除了优选带符号的距离和平均值之外，优选地还执行依赖于在编码器侧确定并编码的哥伦布-莱斯(golomb-rice)参数的扩展哥伦布-莱斯过程。在解码器侧，一旦具有模型化的熵编码(即该解码模式)被发信号通知并通过解码器中的辅助信息评估被确定，就使用经编码的平均值、经编码的优选带符号距离以及仰角和方位角的对应的哥伦布-莱斯参数，来进行带有扩展哥伦布-莱斯过程的解码。