技术新讯 > 乐器声学设备的制造及制作,分析技术 > 具有解相关处理操作配置的空间化音频编码的制作方法 > 正文

具有解相关处理操作配置的空间化音频编码的制作方法

国知局
2025-01-10 13:48:01

本发明涉及空间化声音数据的编码/解码，尤其是在立体混响背景下(下文也表示为“高保真立体声(ambisonic)”)。

背景技术：

1、目前在移动电话中使用的编码器/解码器(下文称为“编解码器”)是单声道的(用于在单一扬声器上呈现的单个信号声道)。3gpp evs(代表“增强型语音服务”)编解码器允许提供“超hd”(也称为“高清加”或hd+语音)音质，其中，为以32khz或48khz采样的信号提供swb(代表“超宽带”)音频带或者为以48khz采样的信号提供fb(代表“全带”)；音频带宽的范围在swb模式(9.6kbit/s至128kbit/s)下为从14.4khz至16khz，并且在fb模式(16.4kbit/s至128kbit/s)下为20khz以上。

2、由运营商提供的会话服务的下一质量演变应该由沉浸式服务(这些沉浸式服务使用如配备有多个麦克风的智能手机等终端)、或者远程呈现或360°视频类型的空间化音频会议或视频会议设备、或者甚至具有比简单的2d立体声呈现更加沉浸式的3d空间化声音呈现的“实时”音频内容共享设备组成。随着音频头戴式耳机在移动电话上的使用日益广泛以及先进的音频设备(如3d麦克风、具有声学天线的语音助手、虚拟现实头戴式耳机等附件)的出现，捕获并呈现空间化声音场景以提供沉浸式通信体验如今已经足够普遍。

3、在这方面，未来的标准3gpp“ivas”(代表“沉浸式语音和音频服务”)包括通过接受至少以下所列的空间化声音格式(及其组合)作为编解码器的输入格式来将evs编解码器扩展为沉浸式的：

4、-立体声或5.1类型的基于声道的格式，其中，每个声道供应一个扬声器(例如，立体声中的l和r或5.1中的l、r、ls、rs和c)；

5、-基于对象的格式，其中，声音对象被描述为与描述该对象的属性(空间中的位置、源空间宽度等)的元数据相关联的音频信号(通常是单声道的)，

6、-基于场景的格式，该格式描述了给定点的声场，该声场通常由球形麦克风捕获或在球谐函数域中合成。

7、通过示例性实施例，下文中的重点通常是以基于场景的(或高保真立体声)格式对声音进行编码(其中，下文中关于本发明呈现的至少某些方面还可以应用于除了基于场景的格式之外的格式)。

8、高保真立体声是录制(声学意义上的“编码”)空间化声音以及进行再现(声学意义上的“解码”)的方法。高保真立体声麦克风(1阶)包括布置在球面网格(例如正四面体的顶点)上的至少四个振膜舱(典型地为心型或亚心型)。与这些振膜舱相关联的音频声道被称为“a格式”。该格式被转换成“b格式”，其中，声场分解为以w、x、y、z表示的四个分量(球谐函数)，这四个分量与四个重合的虚拟麦克风相对应。分量w与声场的全向捕获相对应，而更具方向性的分量x、y和z可以被认为是沿着三个空间正交轴定向的压力梯度麦克风。高保真立体声系统在录音和呈现分开并且分离的意义上是一种灵活的系统。其允许对任何给定配置的扬声器(例如，双耳、5.1类型“环绕”声或7.1.4类型的全向声(具有仰角))进行(声学意义上的)解码。高保真立体声方法可以一般化为四个以上b格式声道，并且这种一般化表示通常被称为“hoa”(代表“高阶高保真立体声”)。将声音分解成更多的球谐函数改善了在扬声器上呈现时的空间精准度。

9、m阶高保真立体声信号包括k＝(m+1)2个分量，并且在1阶(如果m＝1)时(通常被称为foa(代表一阶高保真立体声))有四个分量w、x、y和z被恢复。还存在称为“平面”的高保真立体声变体(w、x、y)，该“平面”高保真立体声变体对在通常是水平面的平面上定义的声音进行分解。在这种情况下，分量的数量是k＝2m+1个声道。为了便于阅读，1阶高保真立体声(4个声道：w、x、y、z)、1阶平面高保真立体声(3个声道：w、x、y)、更高阶高保真立体声在下文中均以“高保真立体声”表示，所呈现的处理操作无论类型、平面或其他方面以及高保真立体声分量的数量如何都是适用的。

10、在下文中，“高保真立体声信号”将指具有一定数量的高保真立体声分量的预定顺序的b格式信号。这还包括混合情况，其中，例如，在2阶时，仅存在8个声道(而不是9个)——更确切地，在2阶时，存在4个1阶声道(w、x、y、z)，通常会加上5个声道(通常表示为r、s、t、u、v)，并且其中一个高阶声道(例如r)可能例如会被忽略。这还包括高保真立体声信号已经经历预处理以便在编码之前将其变换为预处理声道的情况。

11、要由编码器/解码器处理的信号采用连续的声音样本块的形式，下文中称为“帧”或“子帧”。

12、此外，在下文中，数学符号遵循以下惯例：

13、-标量：s或n(小写字母用于变量或大写字母用于常量)

14、-运算符re(.)表示复数的实部

15、-向量：u(小写字母，粗体)

16、-矩阵：a(大写字母，粗体)

17、符号和分别指示的转置和埃尔米特转置(转置和共轭)。

18、在长度为l的时间间隔i＝0,…,l-1内定义的一维离散时间信号s(i)用以下行向量表示

19、

20、这也可以写成：以避免使用圆括号。

21、-在长度为l的时间间隔i＝0,…,l-1内定义并具有k个维度的多维度离散时间信号用以下大小为l×k的矩阵表示：

22、

23、这也可以写成：以避免使用圆括号。

24、此外，此处没有提起从现有高保真立体声技术中已知的关于高保真立体声分量(包括acn(代表“高保真立体声声道数量”)、sid(代表“单一指数命名”)、fuma(代表“弗斯-马哈姆(furse-malham)”))的阶数以及高保真立体声分量(sn3d、n3d、maxn)的归一化的惯例。更多细节可以见于例如可在线获得的资源：

25、https://en.wikipedia.org/wiki/ambisonic_data_exchange_formats

26、按照惯例，高保真立体声信号的第一分量通常对应于全向分量w。

27、用于对高保真立体声信号进行编码的最简单的方法在于使用单声道编码器，并且将单声道编码器单独应用于各个声道中的每一个，同时潜在地根据声道分配不同的比特。此处该方法被称为“多单声道”。多单声道方法可以扩展到多立体声编码(其中，声道对由立体声编解码器单独编码)或者更一般地扩展到使用相同核心编解码器的多个相似实例。输入信号被划分为声道(一个单声道或若干声道)。这些声道根据预定分布和二进制分配被单独编码。在解码时，根据输入信号的惯例对解码后的声道进行重新组合。

28、多单声道或多立体声编码的质量取决于所使用的核心编码和解码而变化，并且通常只有在非常高的速率下才能令人满意。例如，在多单声道的情况下，evs编码在速率为至少每声道(单声道)48kbit/s时可以被判定为准透明(从感知的角度来看)；因此，对于1阶高保真立体声信号，最低速率为4×48＝192kbit/s。由于多单声道编码方法没有考虑到声道间关联，因此该方法产生了空间变形和各种伪像，如幻象声源、漫射噪声或声源路径移位的出现。因此，根据该方法对高保真立体声信号进行编码导致了空间化的退化。

29、声道单独编码的替代方法是参数编码，如dirac编码，其例如在以下文章中描述：v.pulkki，spatial sound reproduction with directional audio coding[利用定向音频编码的空间声音再现]，journal of the audio engineering society[音频工程学会杂志]，第55卷，第6期，第503-516页，2007年。在该文献中，按帧和子带执行高保真立体声信号的定向分析以确定源方向(doa)。doa由“扩散”参数完成，这给出了声音场景的参数描述。多声道输入信号以下混声道(典型地通过减少多个拾音声道而获得的单声道或立体声信号)和空间元数据(每个子带的doa和“扩散”)的形式进行编码。

30、本发明还涉及在以下出版物中描述的另一种特定高保真立体声编码方法：

31、-p.mahé、s.ragot、s.marchand，“first-order ambisonic coding withquaternion-based interpolation of pca rotation matrices[利用pca旋转矩阵的基于四元数插值的一阶高保真立体声编码]”，proc.eaa spatial audio signal processingsymposium[eaa空间音频信号处理研讨会论文集]，法国巴黎，2019年9月，第7-12页

32、-p.mahé、s.ragot、s.marchand，“first-order ambisonic coding with pcamatrixing and quaternion-based interpolation[利用pca矩阵和基于四元数的插值的一阶高保真立体声编码]”，proc.dafx[数字音频效果论文集]，英国伯明翰，2019年9月。

33、这种方法(以下称为主成分分析编码或简称为pca编码)使用与pca分析的特征向量相关联的旋转矩阵的量化和插值，如也在专利申请wo 2020177981中描述的。这种类型的高保真立体声编码的策略是使高保真立体声信号的声道解相关，然后使用核心(例如，多单声道)编解码器对这些变换后的声道进行单独编码。这种策略允许限制已解码的高保真立体声信号中的空间伪像。

34、在该方法中，对于1阶高保真立体声信号，3d中大小为4×4的旋转矩阵(来自pca/klt分析，如例如上文的专利申请中描述的)被转换为经编码的参数，例如6个一般化的欧拉角或两个单位四元数。

35、在不失一般性的情况下，在此更具体地保留四元数的域，这允许有效地对为pca/klt分析而计算的变换矩阵进行插值；由于变换矩阵是旋转矩阵，因此在解码时，逆矩阵化运算是简单地通过对在编码时应用的矩阵进行转置来执行的。

36、图1展示了在旋转矩阵的编码和插值时都使用四元数表示的情况下的这种编码方法。编码分若干步骤进行。

37、尺寸为k×l(即l个时间或者频率样本的k个分量)的原始多声道信号位于输入端。在块100中，pca分析分为若干步骤执行：

38、-假设声道(例如，对于foa的情况为w、y、z、x)的信号呈具有n×l矩阵(每帧有n个高保真立体声声道(在这里是4)和l个样本)的矩阵的形式。可选地，可以例如通过高通滤波器对这些声道进行预处理。

39、获得多声道信号的协方差矩阵，例如如下所示：

40、以在归一化因数内(在实数情况下)

41、或者

42、以在归一化因数内(在复数情况下)

43、可以使用用于对协方差矩阵进行时间平滑的操作。在时域中的多声道信号的情况下，协方差可以以递归方式(逐个样本地)来估计。帧还可以被划分为子帧，并且每个子帧确定一个协方差矩阵，随后对协方差矩阵进行平滑处理。

44、的对角元素特别以cii的形式表示，其表示pca处理的第i个输入声道的能量

45、-应用主成分分析pca，或者以等效方式应用karhunen-loeve变换(klt)，其中将协方差矩阵分解成特征值，以便获得特征值和特征向量矩阵使得

46、-为当前帧t获得的初始特征值矩阵经历有符号排列，使得其尽可能与性质和前一帧t-1相同的矩阵对齐，以便确保两个帧之间的变换矩阵之间的最大相干性。还确保了这样通过有符号排列进行校正的当前帧t的特征值矩阵确实表示旋转的应用。

47、在块110中，将当前帧t的新特征值矩阵(其为旋转矩阵)转换为适当的量化参数域。这里，对应的特征值矩阵表示为这里，考虑了对于4×4矩阵转换为2个单位四元数的情况；在平面高保真立体声的情况下，将存在3×3矩阵的单个单位四元数。

48、在维度为4(n＝4)的情况下，旋转矩阵可以通过两个单位四元数和的乘积以矩阵形式来参数化：

49、

50、其中，四元数是且其中，例如：

51、

52、并且

53、

54、相反地，给定4×4旋转矩阵，可以找到相关联的双四元数以及对应的矩阵。换句话说，可以例如使用被称为“凯莱因式分解”的方法将这个矩阵因式分解成形式为的矩阵乘积。这通常涉及计算被称为“相关联矩阵”(或“四方变换”)的中间矩阵，并从中推断出四元数，尽管两个四元数的符号并不确定。

55、根据现有技术的编码方法(块120)通过分配给参数量化的多个比特对这些参数进行编码。例如，对于可以使用19比特，而对于使用18比特，这给出了每帧nq＝37比特的预算。

56、当前帧被划分成子帧，这里假设子帧数量是固定的。编码后的四元数的表示由索引t’的连续子帧从前一帧t-1的末尾到当前帧t的末尾进行插值(块130)，以便在时间上平滑帧间矩阵化之间的差异。将在每个子帧内插值的四元数转换成旋转矩阵(块140)，然后应用在每个子帧内解码和插值的结果旋转矩阵(块150)。

57、在块150的输出端，获得表示高保真立体声声道的信号的每个子帧的矩阵，用于对这些信号进行解相关并获得变换后的信号还基于从其中减去块120中使用的nq个比特的总比特数来执行对单独声道的二进制分配(块160)。

58、图2展示了对应的解码。根据与编码(块120)相对应的解码方法对当前帧中的旋转矩阵的量化参数的量化索引进行解复用(块200)并在块230中进行解码。还基于与编码器(块160)相同的二进制分配(块210)对变换后的声道进行解码(块220)。

59、解码器的转换和插值步骤(块240、250)与在编码器处执行的步骤(块130和140)相同。

60、块260按子帧将来自块250的逆矩阵化应用于高保真立体声声道的经解码信号，忆及旋转矩阵的逆矩阵是其转置矩阵。应当注意，与编码-解码(块170和220)相关的算法延迟必须通过以适当的方式在存储器中存储逆矩阵化值来补偿。

61、如在图1和图2中实施的高保真立体声编码假设输入声道(充分)相关。特别地，假设块150的解相关提供编码增益；此外，假设矩阵化从一帧到另一帧是稳定的，从而不会在变换后的信号中生成音频伪像。还应注意，元数据的编码(块120)使用通常约为2kbit/s的速率(例如，当20ms每帧的nq＝37比特时为1.85kbit/s)，该速率取自声道的编码预算(块160和170)。

62、然而，对于一些信号，如声场相对较为扩散的掌声录音，解相关增益可能较低。对于空间不稳定的信号，例如其在声音空间中的每个帧处的定位快速交替的打击声音，pca分析(块100)可能导致矩阵化按发生非常大的变化。在这两种情况下，不断使用元数据来表示pca变换并不十分相关。

63、本发明将改善这种状况。

技术实现思路

1、为此目的，本发明提供了一种用于对音频信号进行编码的方法，这些音频信号在呈阶数高于0的高保真立体声表示的n个声道中的每一个声道内在时间上形成一系列样本帧(t-1，t)，该方法包括：

2、-针对要编码的当前帧，确定指示要对该当前帧的信号应用的解相关处理的活动模式(on)或非活动模式(off)的二进制值，并且将该值编码到比特流中；

3、-在模式被确定为活动的情况下，将解相关处理信息编码到该比特流中；

4、-根据为该当前帧确定的模式和为前一帧确定的模式，生成输出信号以将其编码到该比特流中。

5、因此，本发明允许根据输入信号的特性来调整对n个声道之间的解相关的使用。

6、在一个实施例中，对指示活动或非活动模式的该二进制值的确定是根据用于在解相关处理之前和之后对信号进行编码的至少一个增益标准来执行的。

7、因此，该标准允许确保解相关处理提供足够的增益，以便激活。

8、根据一个特定实施例，该编码增益由以下对数值定义：

9、

10、其中，是该解相关处理的输入声道的能量，并且λi是这些输入声道的特征值，对于该增益g的预定义值，该模式被确定为非活动。

11、在一个实施例中，对指示活动或非活动模式的该二进制值的确定是根据应用该解相关处理的旋转矩阵之间的帧间距离的标准来执行的。

12、因此，根据该距离的值，调整要编码的信号的生成，以避免应用解相关处理的变换矩阵变化太大。

13、根据其中旋转矩阵被表示为双四元数的一个特定实施例，旋转矩阵之间的帧间距离使用当前帧的四元数与前一帧的四元数之间的标量积来表示。

14、在一个实施例中，对指示活动或非活动模式的该二进制值的确定是根据该当前帧的应用该解相关处理的旋转矩阵与恒等矩阵之间的距离标准来执行的。

15、因此，在此再次，根据该距离的值，调整要编码的信号的生成，以避免应用解相关处理的变换矩阵相对于输入的直接编码变化太大。

16、在旋转矩阵被表示为双四元数的一个特定实施例中，当前帧的旋转矩阵与恒等矩阵之间的距离以当前帧的四元数与单位四元数之间的标量积的形式表示。

17、本发明适用于一种用于对音频信号进行解码的方法，这些音频信号在作为阶数高于0的高保真立体声表示的n个声道中的每一个声道中在时间上形成一系列样本帧(t-1，t)，该方法包括：

18、-针对当前帧(t)，除了该当前帧的n个声道的信号之外，接收指示对该当前帧的信号应用的解相关处理的活动或非活动模式的二进制值；

19、-在模式被确定为活动的情况下，对在比特流中接收到的解相关处理信息进行解码；

20、-根据为该当前帧确定的所述模式和为前一帧确定的模式，生成输出信号。

21、该解码方法具有与对应的编码方法相同的优点。

22、本发明还旨在一种编码设备，该编码设备包括用于实施先前提出的编码方法的处理电路。

23、本发明还旨在一种解码设备，该解码设备包括用于实施上述解码方法的处理电路。

24、本发明还旨在一种包括指令的计算机程序，这些指令用于在处理电路的处理器执行这些指令时实施上述方法。

25、本发明还旨在一种存储这种计算机程序的指令的非易失性存储器介质。

标签：制作方法音频操作技术资料下载

本文地址：https://www.jishuxx.com/zhuanli/20250110/355318.html

上一篇
基于端到端的跨语言大模型的语音识别方法、装置及设备与流程

下一篇
返回列表

具有解相关处理操作配置的空间化音频编码的制作方法

相关技术

最新技术

技术分类