技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种音频装置以及其操作方法与流程 > 正文

一种音频装置以及其操作方法与流程

国知局
2024-06-21 11:57:59

本发明涉及一种用于生成音频输出信号的装置和方法，并且特别地但是不排他地，用于生成包括模拟环境的混响特性的扩散混响信号分量的音频输出信号，作为例如虚拟现实体验的部分。

背景技术：

1、近年来，随着不断开发和引入新的服务以及利用和消费视听内容的新方式，基于这样的视听内容的体验的种类和范围已经实质上增加。特别地，正在开发许多空间和交互的服务、应用和体验，以给用户更多参与和沉浸式的体验。

2、这样的应用的示例为虚拟现实(vr)、增强现实(ar)和混合现实(mr)应用，它们正迅速成为主流，其许多解决方案都是针对消费者市场的。多个标准化机构也正在制定多种标准。这样的标准化活动正在积极为vr/ar/mr系统的各个方面(包括例如流式传输、广播、渲染等)制定标准。

3、vr应用倾向于提供与用户处于不同世界/环境/场景中相对应的用户体验，而ar(包括混合现实mr)应用倾向于提供与用户处于当前环境中相对应的用户体验，但是添加了附加信息或者虚拟对象或者信息。因此，vr应用倾向于提供完全沉浸式的合成生成的世界/场景，而ar应用倾向于提供覆盖在用户物理所在的真实场景中的部分合成的世界/场景。然而，术语经常互换使用，并且具有高度重叠。在下文中，术语“虚拟现实/vr”将被用来表示虚拟现实和增强/混合现实两者。

4、作为示例，日益流行的服务以这样的方式提供图像和音频：用户能够主动地和动态地与系统交互以改变渲染的参数，使得这将适应用户位置和定向的移动和改变。在许多应用中，非常吸引人的特征是改变观看者的有效观看位置和观看方向的能力，例如允许观看者在所呈现的场景中移动和“环顾四周”。

5、这样的特征可以特别地允许向用户提供虚拟现实体验。这可以允许用户(相对)自由地在虚拟环境中移动，并且动态地改变他的位置和他正在看的地方。典型地，这样的虚拟现实应用基于场景的三维模型，该模型被动态评估以提供具体的请求视图。这种方法在例如用于计算机和控制台的游戏应用(例如，第一人称射击类别)中是公知的。

6、特别是对于虚拟现实应用，还期望所呈现的图像是三维图像，典型地使用立体显示器呈现。事实上，为了优化观看者的沉浸感，用户典型地优选于将呈现的场景体验为三维场景。事实上，虚拟现实体验应该优选地允许用户选择他/她自己相对于虚拟世界的位置、视点和时刻。

7、除了视觉渲染之外，大多数vr/ar应用进一步提供了对应的音频体验。在许多应用中，音频优选地提供空间音频体验，其中，音频源被感知到从对应于视觉场景中对应对象的位置的位置到达。因此，音频和视频场景优选地被感知为一致的，并且两者提供了完整的空间体验。

8、例如，许多沉浸式体验是通过虚拟音频场景来提供的，该虚拟音频场景是使用双声道音频渲染技术的耳机再现所生成的。在许多场景中，这样的耳机再现可以基于头部跟踪，使得可以响应于用户的头部移动来进行渲染，这高度增加了沉浸感。

9、对于许多应用来说，一个重要的特征是如何生成和/或分发能够提供音频环境的自然和真实感知的音频。例如，当针对虚拟现实应用生成音频时，重要的是不仅生成所期望的音频源，而且还对音频源进行修改以提供音频环境的真实感知，包括衰减、反射、染色等。

10、对于房间声学，或者更一般地环境声学，环境的墙壁、地板、天花板、对象等的声波反射导致声源信号的延迟和衰减(典型地依赖于频率)版本经由不同路径到达收听者(即，vr/ar系统的用户)。该组合效应可以通过脉冲响应来建模，该脉冲响应在下文中可以被称为房间脉冲响应(rir)(尽管该术语暗示了以房间形式的声学环境的具体用途，但是它倾向于相对于声学环境更一般地使用，无论这是否与房间相对应)。

11、如图1所示，房间脉冲响应典型地由直接声音组成，直接声音取决于声源到收听者的距离，然后是表征房间的声学属性的混响部分。房间的大小和形状、声源和收听者在房间中的位置以及房间表面的反射属性都对该混响部分的特性起着作用。

12、混响部分可以分成两个时间区域，通常是重叠的。第一区域包括所谓的早期反射，它表示在到达收听者之前声源在房间内的墙壁或者障碍物上的隔离反射。随着时间滞后/(传播)延迟的增加，在固定时间间隔中存在的反射的数量增加，并且路径可以包括二次或者更高阶反射(例如，反射可以来自几面墙壁或者墙壁和天花板两者等)。

13、混响部分中的第二区域是其中这些反射的密度增加到人脑无法再隔离的程度的部分。这个区域典型地被称为扩散混响、后期混响或者混响尾。

14、混响部分包含提示，该提示给听觉系统关于源的距离、以及房间的大小和声学属性的信息。混响部分的能量相对于消声部分的能量在很大程度上确定了声源的感知距离。最早反射的电平和延迟可以提供关于声源离墙有多近的提示，并且通过人体测量的滤波可以加强对特点的墙、地板或者天花板的评估。

15、(早期)反射的密度有助于感知房间的大小。反射的能量电平下降60db所需的时间(由混响时间t60指示)是针对反射在房间中消散速度的常用测量。混响时间提供了房间声学属性的信息；例如，特别是墙壁是否反射性很强(例如，浴室)或者是否有很大的声音吸收(例如，有家具、地毯和窗帘的卧室)。

16、此外，当rir是双声道房间脉冲响应(brir)的一部分时，rir可以依赖于用户的人体测量属性，因为rir被头部、耳朵和肩膀滤波；即，头部相关脉冲响应(hrir)。

17、由于后期混响中的反射不能被收听者区分和隔离，因此它们通常用例如使用反馈延迟网络的参数混响器来模拟和参数化表示，如在公知的jot混响器中。

18、对于早期反射，与入射方向和距离相关的延迟是人们提取关于房间和声源的相对位置的信息的重要提示。因此，对早期反射的模拟必须比后期混响的更加明确。因此，在有效的声学渲染算法中，早期反射的模拟与后期混响的模拟是不同的。针对早期反射的公知方法是镜像房间边界中的每个边界的声源，以生成表示反射的虚拟声源。

19、对于早期反射，用户和/或声源相对于房间的边界(墙壁、天花板、地板)的位置是相关的，而对于后期混响，房间的声学响应是扩散的，并且因此在整个房间中趋于更加均匀。这使得后期混响的模拟通常比早期反射在计算上更高效。

20、由房间定义的后期混响的两个主要属性是表示高于给定电平的时间的脉冲响应的幅度和斜率的参数。在自然房间中，这两个参数都倾向于具有强烈的频率依赖性。

21、传统上用于指示对应于扩散混响的脉冲响应的幅度和斜率的参数的示例包括已知的t60值和混响电平/能量。最近提出了幅度电平的其他指示(例如，指示扩散混响能量和总发射源能量之间的比率的具体参数)。

22、这样的已知的方法倾向于提供混响的高效描述，这允许在渲染侧准确地再现环境的混响特性。然而，尽管这些方法在寻求准确地渲染环境中的混响时倾向于是有利的，但是在一些场景中，它们倾向于是次优的，并且特别是倾向于相对不灵活的。典型地，适配和修改处理和/或所产生的混响分量倾向于是困难的，并且特别是在不降低(感知到的)音频质量和/或要求比优选的计算资源更多的情况下。

23、因此，用于渲染针对环境的混响音频的改进方法将是有利的。特别地，允许改进的操作、增加的灵活性、减少的复杂度、促进的实现方式、改进的音频体验、改进的音频质量、减少的计算负担、改进的对变化位置的适用性、针对虚拟/混合/增强现实应用的改进的性能、改进的用于扩散混响的感知提示、增加的和/或促进的适应性、增加的处理灵活性、增加的渲染侧定制和/或改进的性能和/或操作的方法将是有利的。

技术实现思路

1、因此，本发明寻求单独地或者以任何组合优选地减轻、减缓或者消除上述缺点中的一个或多个。

2、根据本发明的一方面，提供了一种音频装置，包括：接收机，其被布置为接收音频数据和针对音频数据的元数据，音频数据包括针对表示环境中的音频源的多个音频信号的数据，并且元数据包括用于针对环境的混响参数的数据；修改器，其被布置为通过修改第一混响参数的初始第一参数值来生成修改后的第一参数值，第一混响参数是来自由混响延迟参数和混响衰减率参数组成的组中的参数；补偿器，其被布置为响应于第一混响参数的修改，通过修改针对第二混响参数的初始第二参数值来生成修改后的第二参数值，第二混响参数包括于元数据中并且指示声学环境中的混响能量；渲染器，其被布置为通过使用元数据渲染音频数据来生成音频输出信号，渲染器包括混响渲染器，其被布置为响应于第一修改后的参数值和第二修改后的参数值，并且根据音频信号中的至少一个音频信号为至少一个音频输出信号生成至少一个混响信号分量。

3、本发明可以提供对包括混响分量的音频的改进和/或促进的渲染。本发明可以在许多实施例和场景中生成更自然的发声(扩散)混响信号，从而提供声学环境的改进感知。音频输出信号和混响信号分量的渲染通常可以以减少的复杂度和减少的计算资源需求来生成。

4、该方法可以提供对处理和/或渲染的音频的改进的、增加的和/或促进的灵活性和/或适配。在许多应用和实施例中，这样的适配可以通过修改参数值来执行适配而被实质上促进。特别地，在许多情况下，算法、过程和/或渲染操作可以不改变，而是可以简单地通过修改参数值来实现所要求的适配。还可以通过基于混响延迟参数和/或混响衰减率参数如何改变而修改第二混响参数(其指示声学环境中的混响能量)来进一步促进对混响输出和/或处理的适配或者修改。

5、修改混响延迟参数和/或混响衰减率参数可以提供特别高效和有利的对混响的操作和适配，并且第二混响参数可以针对该修改自动补偿。这可以自动减少或者移除对混响延迟参数和/或混响衰减率参数的修改的意外影响。例如，它可以减少适配的感知影响和/或可以例如提供更一致和/或和谐的音频信号输出。

6、该方法允许通过相对较少的参数高效地表示声学环境中的扩散混响声音。

7、在许多实施例中，该方法可以允许独立于源和/或收听者位置来生成扩散混响信号。这可以允许对于其中位置改变的动态应用(例如，对于许多虚拟现实和增强现实应用)高效地生成扩散混响信号。

8、音频装置可以在单个设备或者单个功能单元中被实现，或者可以跨不同设备或者功能分布。例如，音频装置可以被实现为解码器功能单元的一部分，或者可以分布为在解码器侧执行的一些功能元件以及在编码器侧执行的其他元件。

9、补偿器可以被布置为响应于修改后的第一参数值与初始第一参数值之间的差而生成修改后的第二参数值。

10、在许多实施例中，渲染器包括用于渲染针对音频信号的直接路径分量和/或早期反射分量的另一渲染器，并且渲染器可以被布置为响应于直接路径分量、早期反射分量和至少一个混响信号的组合而生成输出信号。

11、混响渲染器可以是扩散混响渲染器。混响渲染器可以是参数混响渲染器，例如反馈延迟网络(fdn)混响器，并且具体是jot混响器。

12、元数据可以用于音频信号/音频源和/或环境。

13、根据本发明的可选特征，补偿器包括用于扩散混响的模型，该模型依赖于第一混响参数和第二混响参数，并且补偿器被布置为响应于该模型来确定修改后的第二参数值。

14、该方法可以提供用于生成反应频率依赖性的扩散混响信号的特别高效的操作。

15、该模型可以是算术函数/等式/或者函数/等式的集合。

16、根据本发明的可选特征，第一混响参数是混响衰减率。

17、本发明可以提供改进的性能和/或操作。它可以促进和/或改进适配和灵活性，并且可以允许增加对所渲染混响的控制。混响衰减率参数可以提供特别高效的适配，并且可以特别允许对环境中混响的感知属性的实际适配。

18、混响衰减率参数可以例如是t60(或者更一般地是txx，其中，xx可以是任何合适的整数)参数。

19、根据本发明的可选特征，补偿器被布置为修改第二参数值，以减少由于第一混响参数的修改而导致的针对混响衰减率的幅度参考的改变。

20、这可以允许特别有利的适配，并且可以允许非常高效但典型地是低复杂度的补偿。

21、幅度参考可以是混响衰减率和第二参数的函数。

22、根据本发明的可选特征，补偿器被布置为修改第二参数值，使得对于第一混响参数的修改，针对混响衰减率的幅度参考实质上不改变。

23、这可以允许特别有利的操作和/或性能。

24、根据本发明的可选特征，第一混响参数是指示针对环境中的混响的传播时间延迟的混响延迟参数。

25、本发明可以提供改进的性能和/或操作。它可以促进和/或改进适配和灵活性，并且可以允许增加对所渲染的混响的控制。混响延迟参数可以提供特别高效的适配，并且可以特别允许对环境中混响的感知属性的实际适配。

26、混响延迟参数具体地可以是预延迟参数。

27、传播时间延迟可以指示在房间中波传播中与参考事件的时间偏移。典型地，参考事件是在音频源处的声音能量的发射，但是在一些情况下/实施例中可以是直接路径响应。更具体地，它可以指示房间脉冲响应中的滞后。在许多实施例中，它可以指示偏移时间，对于该偏移时间，计算指示声学环境中的混响能量的第二混响参数。该值可以通过分析由混响参数表示的房间脉冲响应来进行选择。例如，传播时间延迟可以指示在源处的发射和信号(即，早期反射后的声音)的扩散后期混响部分的开始之间的延迟，并且可以以秒为单位指定，或者传播时间延迟可以指示从其扩散的房间响应中的滞后，即，来自所有方向的入射电平相同和房间中所有位置的电平相似。

28、根据本发明的可选特征，第二混响参数指示在由第一混响参数指示的传播时间延迟之后的声学环境中的混响能量。

29、这可以允许特别有利的操作和/或性能。

30、根据本发明的可选特征，补偿器被布置为确定修改后的第二参数值以减少第一混响能量测量和第二混响能量测量之间的差，第一混响能量测量是在由修改后的第一参数值表示的修改后的延迟之后的混响能量，并且是使用修改后的延迟值和修改后的第二参数值根据混响模型来确定的；以及第二混响能量测量是在修改后的延迟之后的混响能量，并且是使用初始延迟值和初始第二参数值根据混响模型来确定的。

31、这可以允许特别有利的操作和/或性能。在许多情况下，它可以允许减少混响延迟参数的修改对所渲染的混响的感知效果。

32、根据本发明的可选特征，补偿器被布置为确定修改后的第二混响参数值，使得第一混响能量测量和第二混响能量测量实质上相同。

33、这可以允许特别有利的操作和/或性能。在许多场景下，它可以允许减少的或者甚至实质上消除混响延迟参数的修改对所渲染的混响的感知效果。

34、根据本发明的可选特征，补偿器被布置为修改第二参数值，以针对超过由修改后的第一参数值指示的延迟的延迟，减少作为时间函数的混响幅度的差。

35、这可以允许特别有利的操作和/或性能。在许多场景中，它可以允许减少混响延迟参数的修改对所渲染的混响的感知效果。

36、在许多实施例中，混响渲染器被布置为生成至少一个混响信号分量，以仅包括与超过由第一修改后的混响参数指示的传播延迟时间的传播延迟相对应的贡献。

37、在一些实施例中，混响渲染器被布置为生成至少一个混响信号分量，以仅包括在超过由第一修改后的混响参数指示的传播延迟时间的时间处对应于房间脉冲响应的一部分的贡献。

38、根据本发明的可选特征，第二参数表示相对于环境中的总发射声音的扩散混响声音的电平。

39、这可以提供特别有利的操作和/或性能。

40、在许多实施例中，第二参数表示相对于环境中的总发射能量的扩散混响声音的能量。

41、扩散混响信号与总信号的关系/比率还可以被称为扩散混响信号电平与总信号电平比率或者扩散混响电平与总电平比率或者发射源能量与扩散混响能量比率(或者其变型/排列)。

42、根据本发明的可选特征，第二混响参数表示在环境中声音传播的直接响应的能量等于环境中混响的能量的距离。

43、这可以提供特别有利的操作和/或性能。

44、第二混响参数可以是临界距离参数。

45、在一些实施例中，第二参数表示用于针对环境的房间脉冲响应在给定的确定时间/滞后处的幅度。

46、根据本发明的可选特征，第一混响参数是元数据的混响参数中的一个。

47、根据本发明的可选特征，渲染器被布置为根据第二参数值确定至少一个混响信号分量的电平增益。

48、这可以在许多场景中提供混响信号分量的高效并且有利的生成。电平增益例如可以是确定/设置/控制混响信号分量的电平的增益/比例因子。

49、这可以提供特别有利的操作和/或性能。

50、根据本发明的一方面，提供了一种操作音频装置的方法，包括：接收音频数据和针对音频数据的元数据，音频数据包括针对表示环境中的音频源的多个音频信号的数据，并且元数据包括用于针对环境的混响参数的数据；通过修改第一混响参数的初始第一参数值来修改第一参数值，第一混响参数是来自由混响延迟参数和混响衰减率参数组成的组中的参数；响应于第一混响参数的修改，通过修改针对第二混响参数的初始第二参数值来生成修改后的第二参数值，第二混响参数包括于元数据中并且指示声学环境中的混响能量；通过使用元数据渲染音频数据来生成音频输出信号，渲染包括响应于第一修改后的参数值和第二修改后的参数值，并且根据音频信号中的至少一个音频信号为至少一个音频输出信号生成至少一个混响信号分量。

51、本发明的这些和其他方面、特征和优点将从下面描述的实施例中变得明显，并且将参照实施例进行说明。