技术新讯 > 电子通信装置的制造及其应用技术 > 音频装置、音频分配系统和操作其的方法与流程 > 正文

音频装置、音频分配系统和操作其的方法与流程

国知局
2024-08-02 12:43:45

本发明涉及一种音频装置、音频分配系统及针对其的方法，并且特别地但非排他地涉及使用其来支持增强/虚拟现实会议应用。

背景技术：

1、近年来，基于视听内容的体验的多样性和范围已大大增加，其中，不断开发和引入利用和消费这种内容的新的服务以及方式。尤其是，正在开发许多空间和交互式服务、应用和体验，以为用户提供更多参与和沉浸式体验。

2、此类应用的示例包括迅速成为主流的虚拟现实(vr)和增强现实(ar)应用，其中有许多针对消费者市场的解决方案。许多标准化机构也正在开发许多标准。此类标准化活动正在积极开发vr/ar系统各个方面的准则，包括流、广播、呈现等。

3、vr应用倾向于提供与处于不同世界/环境/场景中的用户相对应的用户体验，而ar(包括混合现实mr)应用倾向于提供与当前环境中的用户相对应的用户体验，但是被添加有额外信息或虚拟对象或信息。因此，vr应用倾向于提供完全沉浸式的人工合成的世界/场景，而ar应用倾向于提供部分人工合成的世界/场景，所述场景/场景与用户实际身处的真实场景相叠加。但是，这些术语通常可以互换使用，并且具有高度的交叠。在下文中，术语虚拟现实/vr将用于表示虚拟现实和增强现实两者。

4、例如，一种越来越流行的服务是提供图像和音频，使得用户能够主动和动态地与系统交互以改变呈现的参数，从而使其适应用户的位置和取向的运动和变化。在许多应用中，一个非常吸引人的功能是能够更改观看者的有效观看位置和观看方向的能力，例如允许观看者在呈现的场景中移动并“环顾四周”。

5、这样的特征可以具体地允许将虚拟现实体验提供给用户。这可以允许用户在虚拟环境中(相对)自由地移动，并动态地改变其位置和他所看的位置。通常，这样的虚拟现实应用基于场景的三维模型，其中该模型被动态评估以提供特定的请求视图。从例如用于计算机和控制台的第一人称射击游戏类别的游戏应用中，这种方法是众所周知的。

6、尤其对于虚拟现实应用，还期望所呈现的图像是三维图像。实际上，为了优化观看者的沉浸感，通常优选的是，用户将呈现的场景体验为三维场景。实际上，虚拟现实体验应该优选地允许用户选择相对于虚拟世界的他/她自己的位置、相机视点以及时间。

7、通常，虚拟现实应用固有地受限于基于场景的预定模型，并且通常基于虚拟世界的人工模型。在一些应用中，可以基于真实世界捕获来提供虚拟现实体验。在许多情况下，这种方法倾向于基于从真实世界捕获中构建的真实世界的虚拟模型。然后通过评估该模型来生成虚拟现实体验。

8、许多当前的方法倾向是次优的，并且倾向于通常具有较高的计算或通信资源要求和/或以例如降低的质量或受限的自由度提供次优的用户体验。

9、作为应用的示例，虚拟现实眼镜已进入市场，使观看者可以体验捕获的360°(全景)或180°视频。这些360°视频通常是使用摄影机预先捕获的，其中将单幅图像拼贴在一起形成单个球面映射。针对180°或360°视频的常见立体声格式为上/下和左/右。与非全景立体声视频相似，左眼和右眼图片被压缩，例如作为单个h.264视频流的一部分。

10、除了视觉呈现之外，大多数vr/ar应用还提供相应的音频体验。在许多应用中，音频优选地提供空间音频体验，其中音频源被感知为从对应于视觉场景中的对应对象的位置的位置到达。因此，优选地，音频和视频场景被感知为一致的，并且利用两者提供了完整的空间体验。

11、对于音频，到目前为止，重点一直是使用双耳音频呈现技术的耳机再现。在许多情况下，耳机再现为用户带来了高度身临其境的个性化体验。使用头部跟踪，可以响应于用户的头部移动来进行呈现，从而极大地增加了沉浸感。

12、最近，在市场和标准讨论中，都开始提出用例，其涉及vr(和ar)的“社交”或“共享”方面，即与他人共享经验的可能性。这些人可以是位于不同位置的人，也可以是相同位置的人(或者两者的组合)。例如，同一房间中的几个人可能会共享相同的vr体验，其中，vr内容/场景中存在每个参与者的投影(音频和视频)。例如，在有多个人参与的游戏中，每个玩家在游戏场景中的位置可能不同，因此音频和视频场景的投影也不同。

13、作为一个特定示例，mpeg尝试将比特流和解码器标准化，以用于具有六个自由度的逼真的、沉浸式的ar/vr体验。社交vr是一项重要功能，并且允许用户在共享环境(游戏、电话会议、在线购物等)中进行交互。社交vr的概念还有助于使vr体验在同一位置为用户带来更多的社交活动，但例如在头戴式显示器或其他vr头戴套件中，用户可以感觉到与物理环境的隔离。

14、社交vr应用的特定示例是会议应用，其中位于不同位置的用户可以与用户共享虚拟“会议室”，例如由化身代表。作为另一示例，可以向每个用户呈现在用户自己的本地环境中虚拟呈现的其他参与者的表示，例如，通过使用ar眼镜将现实世界和与其他用户相对应的化身的叠加，使得化身给出他们在房间中的印象。此外，可以向单个用户提供音频场景，所述音频场景包括来自所有其他参与者的相关音频，并且在适当的感知音频源位置处对该音频进行空间呈现。执行该音频和视频呈现，以使给定参与者的视觉和音频位置彼此对应。

15、为了提供最佳体验，期望音频和视频感知紧密对齐，特别是对于ar应用，希望与真实世界场景进一步对齐。但是，这通常难以实现，因为可能存在许多可能影响用户感知的问题。例如，在实践中，用户通常将在不能保证完全安静或黑暗的位置使用设备。尽管头戴式设备可能会试图阻挡光线和声音，但这通常只能部分地实现。此外，在ar应用中，用户通常也可以体验本地环境，这是体验的一部分，因此完全屏蔽该环境是不切实际的。

16、因此，用于生成音频，特别是用于虚拟/增强现实体验/应用(例如，vr/ar会议应用)的音频的改进方法将是有利的。特别地，一种可以改进操作、增加灵活性、降低复杂性、简化实施、改进音频体验、使对音频和视觉场景的感知更加一致、对本地环境中的源的错误敏感性降低方法；改进的虚拟现实体验和/或改进的性能和/或操作将是有利的。

技术实现思路

1、因此，本发明寻求单独地或以任何组合来优选地减弱、减轻或消除一个或多个上述缺点。

2、根据本发明的一个方面，提供了一种用于音频分配系统的音频装置，所述音频分配系统包括音频服务器，所述音频服务器用于从多个远程客户端接收传入的音频，并且将从该传入的音频导出的音频传输到多个远程客户端中的至少一些；所述装置包括：用于接收数据的接收器，所述数据包括：针对多个音频分量的音频数据，每个音频分量表示来自所述多个远程客户端中的远程客户端的音频；针对音频分量中的至少一个的接近度数据，所述接近度数据指示在真实世界声学环境中远程客户端之间的物理接近度；以及生成器，其用于响应于所述接近度数据而生成所述多个音频分量的音频混合；其中，所述生成器被布置为生成针对多个远程客户端中的第一远程客户端的第一音频混合，所述第一音频混合的所述生成包括响应于所述接近度数据而确定在所述第一音频混合中针对第二远程客户端的第二音频分量的衰减。

3、本发明可以在许多实施例中提供改进的用户体验，并且可以特别地在许多应用中提供改进的音频分配，例如基于ar/vr方法的专用会议应用。该方法可以在用户/参与者例如在同一房间中的情况下提供改进的音频感知。通常可以实现对音频场景的改进的和更自然的感知，并且在许多情况下，可以减轻或减少由共处一地的用户/客户端引起的干扰和不一致性。该方法对于虚拟现实vr(包括增强现实ar)应用可能特别有利。例如，它可以为例如在同一位置存在多个参与者的社交vr/ar应用提供改进的用户体验。

4、在许多实施例中，所述方法可以提供改进的性能，同时保持较低的复杂性和资源使用率。

5、接近度数据可以具体地是声学接近度数据。接近度数据可以包括针对远程客户端的集合(通常是对)的接近度指示。针对远程客户端的集合的接近度指示可以指示远程客户端和/或相关联的音频源/用户之间的空间距离，或者可以例如指示远程客户端和/或相关联的音频源/用户之间的声衰减。

6、音频混合可以是(潜在地)包括来自多个音频分量的贡献的音频信号/声道的集合。

7、接近度数据可以指示远程客户端之间的真实世界/绝对/物理接近度。接近度数据具体反映真实世界声学环境中远程客户端之间的实际物理接近度。

8、所述生成器被布置为针对所述多个远程客户端中的第一远程客户端生成第一音频混合，所述第一音频混合的所述生成包括响应于所述接近度数据来确定针对第二远程客户端的第二音频分量的在第一音频混合中的衰减。

9、在许多情况下，这可以提供改进的用户体验和/或改进的性能和音频感知。特别地，其可以允许组合的音频感知针对呈现的音频场景与真实世界的音频场景之间的潜在音频干扰的改进的适应性。针对第二远程客户端的第二音频分量的在第一音频混合中的衰减可以响应于所述接近度数据中的接近度指示，所述接近度指示指示第一远程客户端与第二远程客户端之间的接近度/距离。

10、根据本发明的任选的特征，所述生成器被布置为衰减针对满足第一远程客户端和第二远程客户端的接近度准则的接近度数据的第一音频混合中的第二音频分量。

11、在许多情况下，这可以提供改进的用户体验和/或改进的性能和音频感知。所述生成器可以被布置为衰减针对指示第一远程客户端与第二远程客户端之间的距离量度低于阈值的接近度数据的第二音频分量。衰减可以是无限的。具体地，所述生成器可以被布置为抑制/丢弃/排除针对满足第一远程客户端和第二远程客户端的接近度准则的接近度数据的第二音频分量。

12、根据本发明的任选的特征，所述音频装置是所述音频服务器的一部分。

13、在许多实施例中，这可以提供高性能和有效的实现。

14、根据本发明的任选的特征，所述音频装置是所述多个远程客户端中的远程客户端的部分。

15、在许多实施例中，这可以提供高性能和有效的实现。

16、根据本发明的任选的特征，所述接近度数据包括针对至少第一远程客户端和第二远程客户端的标量接近度指示，所述标量接近度指示指示来自第二远程客户端的音频源的到第一远程客户端的捕获元件的声衰减。

17、在许多实施例中，这可以提供特别有利的操作。在一些实施例中，标量接近度指示可以是指示相应的远程客户端是否在邻近(例如，在同一房间中)的二元接近度指示。

18、根据本发明的任选的特征，接近度数据包括从第一远程客户端到第二远程客户端与从第二远程客户端到第一远程客户端不同的接近度指示。

19、这可以在许多情况下提供有利的操作。该方法可以允许并支持非对称接近度指示，例如反映局部声学差异(例如当使用定向麦克风或参与者戴着封闭式耳机时)。

20、根据本发明的任选的特征，接收器被布置为接收动态地适应于多个远程客户端中的至少一个远程客户端的位置变化的接近度数据。

21、这可以提供有效的操作，并且可以提供动态地适应用户运动的方法。

22、根据本发明的一个方面，提供了一种音频分配系统，包括：多个远程客户端；音频服务器，其用于从多个远程客户端接收传入的音频，并将从所述传入的音频导出的音频发送到所述多个远程客户端中的至少一个；其中，所述音频服务器和所述多个远程客户端之一中的至少一个包括：用于接收数据的接收器，所述数据包括：针对多个音频分量的音频数据，每个音频分量表示来自所述多个远程客户端中的远程客户端的音频；针对音频分量中的至少一个的接近度数据，所述接近度数据指示远程在真实世界声学环境中客户端之间的物理接近度；生成器，其用于响应于接近度数据而生成所述多个音频分量的音频混合；其中，所述生成器被布置为生成针对多个远程客户端中的第一远程客户端的第一音频混合，所述第一音频混合的所述生成包括响应于所述接近度数据而确定在所述第一音频混合中针对第二远程客户端的第二音频分量的衰减。

23、根据本发明的任选的特征，所述音频分配系统包括接近度检测器，所述接近度检测器被布置为响应于针对第一远程客户端的第一音频分量与针对第二远程客户端的第二音频分量的比较来确定针对第一远程客户端和第二远程客户端的接近度指示；以及发送器，其用于将包括接近度指示的接近度数据发送到接收器。

24、在许多实施例中，这可以提供特别有利的性能和低复杂度。

25、根据本发明的任选的特征，所述接近检测器是音频服务器的一部分。

26、在许多实施例中，这可以提供特别有利的性能和低复杂度。

27、根据本发明的任选的特征，所述多个远程客户端中的第一远程客户端包括：输入部，其用于生成与由一组麦克风捕获的音频相对应的麦克风信号；接近度检测器，其布置为响应于麦克风信号和从音频服务器接收的音频的比较来确定第一远程客户端的接近度指示；以及发送器，其用于将包括所述接近度指示的声学音频数据发送到音频服务器。

28、在许多实施例中，这可以提供特别有利的性能和低复杂度。在一些实施例中，所述组麦克风可以包括单个麦克风，或者可以例如包括多个麦克风，例如像用于波束成形/定向捕获的麦克风阵列。

29、根据本发明的任选的特征，所述发送器被布置为响应于第一接近检测器检测到麦克风信号和从音频服务器接收的音频之间的高相关性，发送指示当前活跃的远程客户端正被确定为在邻近的指示的接近度数据。

30、在许多实施例中，这可以提供特别有利的性能和低复杂度。

31、根据本发明的一个方面，提供了一种操作用于音频分配系统的音频装置的方法，所述音频分配系统包括音频服务器，所述音频服务器用于从多个远程客户端接收传入的音频，并且将从该传入的音频导出的音频传输到多个远程客户端中的至少一些；所述方法包括：接收包括以下内容的数据：针对多个音频分量的音频数据，每个音频分量表示来自所述多个远程客户端中的远程客户端的音频；针对音频分量中的至少一个的接近度数据，所述接近度数据指示在真实世界声学环境中远程客户端之间的物理接近度；并且响应于接近度数据而生成所述多个音频分量的音频混合；其中，所述生成包括生成针对多个远程客户端中的第一远程客户端的第一音频混合，所述第一音频混合的所述生成包括响应于所述接近度数据而确定在所述第一音频混合中针对第二远程客户端的第二音频分量的衰减。

32、参考下文描述的(一个或多个)实施例，本发明的这些和其他方面、特征和优势将变得显而易见并将得以阐述。