优化的球面向量量化的制作方法
- 国知局
- 2024-06-21 11:31:10
本发明涉及应用于声音数据、特别是立体混响环境(在下文中也称为“高保真立体声”)中的空间化数据的编码/解码的球面向量量化,其用于通过基于四元数的表示对旋转矩阵进行的编码或者其中对源方向(缩写为“doa”以表示到达方向)进行量化的参数编码,而且还用于基于单声道变换的音频编码,该单声道变换用作表示空间化声音数据的核心编码。
背景技术:
1、目前在移动电话中使用的编码器/解码器(下文称为“编解码器”)是单声道的(要呈现在单个扬声器上的单个信号声道)。3gpp evs(“增强型语音服务”)编解码器使得能够提供“超hd”音质(也称为“高清加”或hd+语音),其中,为以32khz或48khz采样的信号提供超宽带(swb)音频带或者为以48khz采样的信号提供全带(fb)音频带;音频带宽在swb模式(9.6kbit/s至128kbit/s)下为14.4khz至16khz并且在fb模式(16.4kbit/s至128kbit/s)下为20khz。
2、由运营商提供的会话服务中下一质量演变应该由沉浸式服务组成,该沉浸式服务使用如配备有多个麦克风的智能手机、或者远程呈现或360°视频空间化音频会议或视频会议设备、或者甚至具有比简单的2d立体声呈现更加沉浸式的空间化3d声音呈现的“实时”音频内容共享设备等终端。随着用音频头戴式耳机在移动电话上进行收听的运用日益广泛以及先进的音频设备(如3d麦克风、具有声学天线的语音助手、虚拟现实或增强现实头戴式耳机等附件)的出现,捕获并呈现空间化声音场景以提供沉浸式通信体验如今已经足够普遍。
3、为此,未来的3gpp标准“ivas”(“沉浸式语音和音频服务”)计划通过接受至少以下所列的空间化声音格式(及其组合)作为编解码器输入格式来将evs编解码器扩展为沉浸式音频:
4、-立体声或5.1多声道格式(基于声道),其中,每个声道馈入一个扬声器(例如立体声中的l和r或5.1中的l、r、ls、rs和c);
5、-对象格式(基于对象),其中,声音对象被描述为与描述该对象的属性(空间位置,源空间宽度等)的元数据相关联的音频信号(通常是单声道的),
6、-高保真立体声格式(基于场景),该格式描述了给定点的声场,该声场通常由球形麦克风拾取或在球谐函数域中合成。
7、还可能考虑其他输入格式,如称为masa(元数据辅助空间音频)的格式,其对应于配备有多个麦克风的移动电话上的声音拾取的参数表示。
8、要由编码器/解码器处理的信号采用连续的声音样本块的形式,以下称为“帧”或“子帧”。
9、此外,在下文中,数学符号遵循以下惯例:
10、-标量:s或n(小写字母用于变量或大写字母用于常量)
11、-向量:q(小写粗斜体)
12、-矩阵:m(大写粗斜体)
13、在下文中,我们将半径为r的n+1维球体定义为
14、
15、其中,||.||表示欧几里德范数。当半径r未指定时,将假设r=1(单位球体)。
16、这里将回顾3维和4维球面坐标的定义。对于3维点(x,y,z),通常至少有两种经典的球面坐标(r,φ,θ)的惯例:
17、-地理惯例:x=r cosφcosθ,y=r cosφsinθ,z=r sinφ,其中,r≥0,-π/2≤φ≤π/2并且-π≤θ≤π
18、-物理惯例:x=r sinφcosθ,y=r sinφsinθ,z=r cosφ
19、其中,r≥0,0≤φ≤π并且-π≤θ≤π
20、在这两个定义中,半径r和方位角(或经度)θ是相同的,但是角度φ根据它是相对于水平面0xy(区间[-π/2,π/2]上的仰角或纬度)定义还是基于轴线0z(区间[0,π]上的余纬度或极角)定义而不同。方位角θ可以在区间[-π,π]上定义,并且以等效的方式,它可以通过模数2π的简单运算在[0,2π]上定义。也可以用另一种单位来表示相同的角坐标,例如以度为单位。应当注意,文献中的符号可以不同(例如用代替φ)和/或互换(例如θ表示余纬度并且表示经度)。
21、此外,球面坐标的定义可以在更高维度上进行一般化。对于4维点(w,x,y,z),这里再次采用球面坐标(r,φ1,φ2,φ3)的数学惯例:w=r cosφ1,x=r sinφ1 cosφ2,y=rsinφ1 sinφ2 cosφ3,z=r sinφ1 sinφ2 sinφ3,其中,r≥0是半径,φ1和φ2在[0,π]上并且φ3在[-π,π]上或以等效的方式在[0,2π]上。应当注意,可以定义其他球面坐标系,例如,对于4维的情况,除了半径r之外,还可以定义三个角度,其形式为:w=r cosω,x=rsinωsinφcosθ,y=r sinωsinφsinθ,z=r sinωcosφ;在该替代方案中,角度ω与以上定义的球面坐标φ1相同,另一方面,最后3个分量(x,y,z)被视为3d点并且在这里用余纬度φ和方位角θ表示,如以上针对3维用物理惯例定义的——由于坐标和不同惯例的排列,因此角度φ1和φ2不同于φ和θ。
22、一般来说,可以将n维点分解为半径r(对应于到原点或范数的距离)和n-1个角坐标,其中n-2个角在长度为π的区间和长度为2π的区间上。
23、在本发明中,将更特别地考虑在3维和4维中单位球体的离散化,其中,半径被设置为r=1,并且该n-1个角坐标被顺序地量化。然而,根据本发明,除了3维或4维之外的维度将是可能的。
24、本发明感兴趣的是通常应用于音频编码并且更特别地应用于空间化声音编码(包括高保真立体声格式)的球面向量量化的示例性实施例。这也包括使用3d源方向的参数编码。本发明也可以应用于其他音频格式以及其中要对n维球面数据进行编码的其他信号,例如用于其中每个子带通过增益形状球面向量量化来编码的基于变换的音频编码。
25、下面将通过主成分分析(pca)和dirac(定向音频编码)方法来回顾高保真立体声的原理及其编码。
26、在一些变型中,可以将本发明应用于其他编码方案,特别是用于基于变换的音频编码。
27、高保真立体声是用于录制(声学意义上的“编码”)空间化声音的方法以及再现系统(声学意义上的“解码”)。(1阶)高保真立体声麦克风包括布置在球面网格(例如正四面体的顶点)上的至少四个振膜舱(典型地为心型或亚心型)。与这些振膜舱相关联的音频声道被称为“a格式”。该格式被转换为“b格式”,其中,声场分解为以w、x、y、z表示的四个分量(球谐函数),这四个分量与四个重合的虚拟麦克风相对应。分量w与声场的全向捕获相对应,而更具方向性的分量x、y和z类似于沿着三个正交空间轴定向的压力梯度麦克风。高保真立体声系统在录音和呈现分开并且分离的意义上是一种灵活的系统。其允许对任何配置的扬声器(例如双耳、5.1或7.1.4全向声道(具有仰角)“环绕”声)进行(声学意义上的)解码。高保真立体声方法可以一般化为四个以上b格式声道,并且这种一般化表示通常被称为“hoa”(“高阶高保真立体声”)。将声音分解成更多的球谐函数改善了在扬声器或音频头戴式耳机上呈现时的空间呈现精准度。
28、m阶高保真立体声信号包括k=(m+1)2个分量,并且1阶(如果m=1)中有通常被称为foa(一阶高保真立体声)的四个分量w、x、y和z。还有所谓的“平面”高保真立体声变型(w、x、y),该“平面”高保真立体声变型分解在通常是水平面的平面(其中,z=0)上定义的声音。在这种情况下,分量的数量是k=2m+1个声道。1阶高保真立体声(4个声道:w、x、y、z)、平面1阶高保真立体声(3个声道:w、x、y)和更高阶高保真立体声在下文中均不加区分地被称为“高保真立体声”以便于阅读,所呈现的处理操作可独立于平面或非平面类型以及高保真立体声分量的数量而应用。
29、然而,如果有必要在一些通道中进行区分,则使用术语“1阶高保真立体声”和“平面1阶高保真立体声”。
30、已经提出了各种解决方案来对高保真立体声信号进行编码。最简单的方法是多单声道编码,其中,每个高保真立体声分量由单声道音频编码器单独编码。本发明感兴趣的是在以下出版物中描述的特定高保真立体声编码方法:
31、-p.mahé、s.ragot、s.marchand,“first-order ambisonic coding withquaternion-based interpolation of pcarotation matrices[利用pca旋转矩阵的基于四元数插值的一阶高保真立体声编码]”,proc.eaa spatial audio signal processingsymposium[eaa空间音频信号处理研讨会论文集],法国巴黎,2019年9月,第7-12页
32、-p.mahé、s.ragot、s.marchand,“first-order ambisonic coding with pcamatrixing and quaternion-based interpolation[利用pca矩阵和基于四元数的插值的一阶高保真立体声编码]”,proc.dafx[数字音频效果论文集],英国伯明翰,2019年9月。
33、该方法使用旋转矩阵的量化和插值,如还在专利申请wo 2020177981中描述的。这种类型的高保真立体声编码的策略是尽可能地使高保真立体声信号的声道解相关,并且然后使用核心编解码器(例如多单声道)对这些声道进行单独编码。这种策略使得能够限制经解码高保真立体声信号中的伪影。更特别地,在编码(例如多单声道)之前,对输入信号应用优化的解相关。
34、在该方法中,对于3d中的foa的情况,大小为4×4的旋转矩阵(如例如上文引用的专利申请中描述的从pca/klt分析得到)被转换为经编码的参数,例如6个一般化的欧拉角或两个单位四元数。
35、此外,四元数域使得能够内插针对pca/klt分析计算的变换矩阵,而不必每帧多次重复分解成特征值和特征向量;由于变换矩阵是旋转矩阵,因此在解码时,逆矩阵化运算是简单地通过对应用于编码的矩阵进行转置来执行的。
36、在这种情况下,需要有效地表示这些旋转矩阵,当这些旋转矩阵由单位四元数表示时,这相当于找到一种在4维球体上进行向量量化的有效方法。
37、pca编码的一种替代方法是dirac编码(定向音频编码),其例如在以下文章中描述:v.pulkki,spatial sound reproduction with directional audio coding[利用定向音频编码的空间声音再现],journal of the audio engineering society[音频工程学会杂志],第55卷,第6期,第503-516页,2007。在该文档中,通过定向分析来执行映射,以便找到每个子带的方向(doa)。该doa由“扩散”参数补充,从而给出声音场景的参数描述。
38、多声道输入信号以传输声道(典型地通过减少多个拾音声道而获得的单声道或立体声信号)和空间元数据(每个子带的doa和“扩散”)的形式进行编码。
39、这里将假设使用dirac参数方法对输入信号进行分析对于本领域技术人员而言是已知的。源方向以3d球面数据的形式表示,例如以根据地理惯例的球面坐标(方位角、仰角)的形式表示。在这种情况下,需要有效地表示这种doa信息,这能够被公式化为3维球体上的向量量化问题。
40、一般来说,球体的任何离散化都可以用作球面向量量化字典。然而,在没有任何特定结构的情况下,当doa信息的编码速率过高时(例如,每3d向量16比特指示一个doa),在该字典中搜索最近邻和编引可能证明实施成本高昂。
41、能够用于解决这个问题的结构化字典的一个示例由准均匀球面网格给出,该准均匀球面网格在以下文章的第3.2节中描述:perotin等人,crnn-based multiple doaestimation using acoustic intensity features for ambisonics recordings[针对高保真立体声录音使用声强度特征的基于crnn的多重doa估计],ieee journal of selectedtopics in signal processing[ieee信号处理选题杂志],2019。该网格将仰角和方位角单独离散化,其中,方位角上的级别数量取决于与每个仰角级别相关联的球面层。这种离散化是针对[-90,90]中的仰角φ和[-180,180]中的方位角θ(以度为单位)通过以下公式给出的:
42、
43、其中,且并且α是角分辨率(以度为单位)。这种球面网格不是最佳的,因为对于每个仰角索引i,方位角总是从-180度开始,这意味着所有点都在同一条子午线上对齐。然而,为了使3d球面网格是准最佳的,期望球体表面上的点的局部分布类似于六边形2d阵列,如果这些点以这种方式在子午线上对齐,则这显然是不满足的。
44、此外,在这篇文章中没有描述使用该网格进行编码的最佳搜索,也没有描述在该网格中离散化3维球体的任何编引。
45、因此,需要改进现有技术中用于球面数据量化的方法。
技术实现思路
1、本发明旨在改进现有技术。
2、为此,本发明针对一种用于对多声道音频信号进行编码的方法,该方法包括对由n维球体上的输入点表示的至少一个参数进行编码,这通过对该输入点的n-1个球面坐标进行编码来执行,该方法包括以下操作:
3、a)对该n-1个球面坐标进行顺序标量量化从而定义球面网格,对于要编码的当前球面坐标,该顺序标量量化包括以下操作:
4、-基于先前编码的球面坐标来确定该要编码的当前球面坐标的标量量化级别的数量;
5、-基于所述确定的级别数量对所述当前球面坐标进行标量量化,其中,对于n-2个坐标,确定该要编码的当前球面坐标的2个最接近的候选,并基于针对先前球面坐标确定的量化索引给出两个量化索引,以便在该n-1个坐标的顺序标量量化结束时获得至多2n-2个候选;
6、b)选择使该输入点与该至多2n-2个候选之间的距离最小化的最佳候选,并确定从所述最佳候选的所述球面坐标的顺序标量量化中产生的单独量化索引;
7、c)对所述最佳候选的单独量化索引进行顺序编码。
8、这种量化方法通过针对球面坐标的顺序编码考虑每个球面坐标两个候选来实施最佳搜索。与全局穷举搜索相比,这种搜索在复杂度和/或数据存储方面得到了优化。与不考虑多于一个候选的球面坐标的完全单独量化相比,该方法提供了更好的性能,特别是通过在给定的速率下提供低量化误差。
9、在一个实施例中,对单独量化索引进行顺序编码包括通过将至少一个基数信息添加到球面坐标的量化索引来确定全局量化索引。
10、因此,确定单个全局索引并将其传输到解码器以重建输入点,从而限制要传输的数据。
11、在一个实施例中,该n-1个球面坐标之一的标量量化包括预定义的偏移。
12、这种偏移使得能够避免经解码点在球体上的同一“子午线”上对齐,并且因此使得能够优化量化性能。
13、在一个特定实施例中,至少一个球面坐标的量化级别的数量是基于球面网格的总点数以及n维球体的球面区域的表面积来确定的。
14、该方法使得能够进一步提高量化在数据存储方面的性能,因为级别数量和由此产生的编引的确定是分析定义的。
15、在一个变型实施例中,至少一个球面坐标的基数信息是基于球面网格的点数以及n维球体的球面区域的表面积来确定的。
16、因此,没有必要为了执行编引而存储基数信息。这以分析方式直接执行。
17、在一个特定实施例中,对于至少一个球面坐标,级别数量被强制为1以外的奇数值。因此,这种奇数数量的级别使得能够例如在维度3中具有处于π/2的余纬度重建级别(或者以等效的方式具有处于0的仰角重建级别),从而使得能够表示某些3d音频应用(例如其中通常具有零z分量的具有人工高保真立体声内容的应用)的水平面。
18、本发明还针对一种用于对多声道音频信号进行编码的方法,其中,该多声道音频信号的编码使用由至少一个单位四元数表示的旋转矩阵,并且其中,由n维球体上的输入点表示的至少一个参数是至少一个单位四元数,其中,n=4。
19、这种编码方法非常适合于对这些旋转矩阵进行编码,并且为这些矩阵提供了良好的量化性能。
20、本发明还针对一种用于对多声道音频信号进行编码的方法,其中,该多声道音频信号的编码使用关于音频源的到达方向的信息,并且其中,由n维球体上的输入点表示的至少一个参数是这些信息中的至少一个信息,其中,n=3。
21、这种编码方法非常适合于对关于3d表示中的音频源的到达方向的信息进行编码,并且为这些信息的编码和解码提供了量化性能与复杂度/存储之间的良好折衷。
22、本发明还针对一种用于对音频信号进行编码的方法,其中,该音频信号的编码使用到频率子带的变换,并且其中,由n维球体上的输入点表示的至少一个参数是至少一个子带,其中,n的值对应于该子带的大小。
23、本发明还针对一种用于对多声道音频信号进行解码的方法,包括通过对n维球体上的输入点的n-1个球面坐标进行解码来对由该输入点表示的至少一个参数进行解码,该方法包括基于全局量化索引或n-1个复用索引通过以下操作来对球面坐标进行顺序解码从而定义球面网格:
24、-基于先前解码的球面坐标来确定要解码的球面坐标的量化级别的数量;
25、-基于所确定的级别数量来确定从所述球面坐标的单独量化产生的单独索引,并且然后获得对应的球面坐标,以便在n维球体上重建经解码点。
26、这种解码方法使得能够在球体上找到与具有良好性能(特别是在量化误差方面)的经编码输入点相对应的点。
27、在一个实施例中,这些单独索引是基于针对所述球面坐标定义的基数信息来确定的。
28、该实施例适用于接收全局量化索引的情况。
29、在一个实施例中,该n-1个球面坐标之一的解码包括预定义的偏移。
30、事实上,这种偏移使得能够优化量化性能,并且由此优化解码性能。
31、在一个实施例中,这些基数信息是基于点数以及n维球体的球面区域的表面积来分析获得的。
32、因此,没有必要存储基数信息,从而优化了存储存储器并且使得能够以简单的方式找到球面坐标。
33、本发明针对一种编码设备,该编码设备包括用于实施如上所述的编码方法的步骤的处理电路。
34、本发明还针对一种解码设备,该解码设备包括用于实施如上所述的解码方法的步骤的处理电路。
35、本发明涉及一种计算机程序,该计算机程序包括当由处理器执行时用于实施如上所述的编码方法或解码方法的指令。
36、最后,本发明涉及一种存储介质,该存储介质能够被处理器读取并且储存包括用于执行上述编码方法或解码方法的指令的计算机程序。
本文地址:https://www.jishuxx.com/zhuanli/20240618/22008.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。