技术新讯 > 乐器声学设备的制造及制作,分析技术 > 用于获取空间元数据的装备、方法和计算机程序与流程 > 正文

用于获取空间元数据的装备、方法和计算机程序与流程

国知局
2024-06-21 11:27:27

本公开的示例涉及用于获取空间元数据的装备、方法和计算机程序。一些涉及用于使用机器学习模型获取空间元数据的装备、方法和计算机程序。

背景技术：

1、空间音频使得能够为用户再现声音场景的空间属性，使得用户可以感知该空间属性。这可以为用户提供沉浸式音频体验，或者可以用于其他应用。为了使得空间属性能够被再现，以可用于实现空间音频的渲染的格式获取并提供空间元数据。

技术实现思路

1、根据本公开的各种但不一定是全部的示例，提供了一种装备，所述装备包括用于以下各项的装置：

2、访问经过训练的机器学习模型；

3、基于两个或更多个麦克风信号确定用于所述机器学习模型的输入数据；

4、使得能够使用所述机器学习模型处理所述输入数据以获取空间元数据；以及

5、将所述获取的空间元数据与基于所述两个或更多个麦克风信号的至少一个信号相关联，以便使得能够基于所述获取的空间元数据来处理所述至少一个信号。

6、所述处理可以包括使用基于所述两个或更多个麦克风信号的所述至少一个信号和所述获取的空间元数据来渲染空间音频。

7、确定用于所述机器学习模型的输入数据可以包括从所述两个或更多个麦克风信号获取互相关(cross correlation)数据。

8、确定所述机器学习模型的输入数据可以包括获取以下一项或多项：与所述互相关数据对应的时延数据和频率数据。

9、所述装置可以用于使得能够将所述两个或更多个麦克风信号发送至一个或多个处理设备，以使得所述一个或多个处理设备能够使用所述机器学习模型来获取所述空间元数据。

10、所述装置可以用于使得能够从所述处理设备接收所述获取的空间元数据。

11、所述空间元数据可以包括与对应于所述两个或更多个麦克风信号的空间声音环境的一个或多个空间属性有关的信息，其中所述信息被配置为使得能够空间渲染基于所述两个或更多个麦克风信号的所述至少一个信号。

12、对于一个或多个频率子带，所述空间元数据可以包括指示以下各项的信息：

13、声音方向(direction)，以及

14、声音方向性(directionality)。

15、所述机器学习模型可以从被配置为训练所述机器学习模型的系统获取。

16、所述装置可以使得能够将基于所述两个或更多个麦克风信号的所述至少一个信号和所述空间元数据提供给另一装备以使得能够渲染所述空间音频。

17、所述机器学习模型可以包括神经网络。

18、根据本公开的各种但不一定是全部的示例，提供了一种装备，所述装备包括：至少一个处理器；以及包括计算机程序代码的至少一个存储器，所述至少一个存储器和所述计算机程序代码被配置为与所述至少一个处理器一起使得所述装备至少执行：

19、访问经过训练的机器学习模型；

20、基于两个或更多个麦克风信号确定用于所述机器学习模型的输入数据；

21、使得能够使用所述机器学习模型处理所述输入数据以获取空间元数据；以及

22、将所述获取的空间元数据与基于所述两个或更多个麦克风信号的至少一个信号相关联，以便使得能够基于所述获取的空间元数据来处理所述至少一个信号。

23、根据本公开的各种但不一定是全部示例，提供了一种包括如本文所描述的装备的电子设备，其中所述电子设备包括两个或更多个麦克风。

24、所述电子设备可以包括以下至少之一：智能电话、相机、平板电脑、电话会议装备。

25、根据本公开的各种但不一定是全部示例，提供了一种方法，包括：

26、访问经过训练的机器学习模型；

27、基于两个或更多个麦克风信号确定用于所述机器学习模型的输入数据；

28、使得能够使用所述机器学习模型处理所述输入数据以获取空间元数据；以及

29、将所述获取的空间元数据与基于所述两个或更多个麦克风信号的至少一个信号相关联，以便使得能够基于所述获取的空间元数据来处理所述至少一个信号。

30、根据本公开的各种但不一定是全部的示例，提供了一种包括计算机程序指令的计算机程序，所述计算机程序指令当由处理电路执行时，促使：

31、访问经过训练的机器学习模型；

32、基于两个或更多个麦克风信号确定用于所述机器学习模型的输入数据；

33、使得能够使用所述机器学习模型处理所述输入数据以获取空间元数据；以及

34、将所述获取的空间元数据与基于所述两个或更多个麦克风信号的至少一个信号相关联，以便使得能够基于所述获取的空间元数据来处理所述至少一个信号。

技术特征：

1.一种装备，包括用于以下各项的装置：

2.根据权利要求1所述的装备，其中，所述处理包括使用基于所述两个或更多个麦克风信号的所述至少一个信号和所述获取的空间元数据来渲染空间音频。

3.根据任一前述权利要求所述的装备，其中，确定用于所述机器学习模型的输入数据包括从所述两个或更多个麦克风信号获取互相关数据。

4.根据权利要求3所述的装备，其中，确定用于所述机器学习模型的输入数据包括获取以下一项或多项：与所述互相关数据对应的时延数据和频率数据。

5.根据任一前述权利要求所述的装备，其中，所述装置用于使得能够将所述两个或更多个麦克风信号发送至一个或多个处理设备，以使得所述一个或多个处理设备能够使用所述机器学习模型来获取所述空间元数据。

6.根据权利要求5所述的装备，其中，所述装置用于使得能够从所述处理设备接收所述获取的空间元数据。

7.根据任一前述权利要求所述的装备，其中，所述空间元数据包括与对应于所述两个或更多个麦克风信号的空间声音环境的一个或多个空间属性有关的信息，其中所述信息被配置为使得能够空间渲染基于所述两个或更多个麦克风信号的所述至少一个信号。

8.根据任一前述权利要求所述的装备，其中，对于一个或多个频率子带，所述空间元数据包括指示以下各项的信息：

9.根据任一前述权利要求所述的装备，其中，所述机器学习模型是从被配置为训练所述机器学习模型的系统获取的。

10.根据任一前述权利要求所述的装备，其中，所述装置用于使得能够将基于所述两个或更多个麦克风信号的所述至少一个信号和所述空间元数据提供给另一装备以使得能够渲染所述空间音频。

11.根据任一前述权利要求所述的装备，其中，所述机器学习模型包括神经网络。

12.一种包括根据任一前述权利要求所述的装备的电子设备，其中，所述电子设备包括两个或更多个麦克风。

13.根据权利要求12所述的电子设备，其中，所述电子设备包括以下至少之一：智能电话、相机、平板电脑、电话会议装备。

14.一种方法，包括：

15.根据权利要求14所述的方法，其中，所述处理包括使用基于所述两个或更多个麦克风信号的所述至少一个信号和所述获取的空间元数据来渲染空间音频。

16.一种包括计算机程序指令的计算机程序，所述计算机程序指令当由处理电路执行时，促使：

17.根据权利要求16所述的计算机程序，其中，所述处理包括使用基于所述两个或更多个麦克风信号的所述至少一个信号和所述获取的空间元数据来渲染空间音频。

18.一种装备，包括至少一个处理器和包括计算机程序代码的至少一个存储器，所述至少一个存储器和所述计算机程序代码被配置为与所述至少一个处理器一起使得所述装备：

19.根据权利要求18所述的装备，其中，所述处理使得所述装备使用基于所述两个或更多个麦克风信号的所述至少一个信号和所述获取的空间元数据来渲染空间音频。

20.根据权利要求18或19中任一项所述的装备，其中，所述机器学习模型包括神经网络。

技术总结本公开的示例涉及获取用于渲染或以其他方式处理空间音频的空间元数据(115)。在本公开的示例中，一种机器学习模型(109)可以用于处理麦克风信号(113)或从麦克风信号(113)获取的数据，以获取空间元数据(115)。可以训练机器学习模型(109)，以使得即使从次优或低质量麦克风阵列也能够获取高质量空间元数据(115)。本公开的示例包括一种装备(101)，该装备包括用于以下操作的装置：访问经过训练的机器学习模型(109)；基于两个或更多个麦克风信号(113)确定用于机器学习模型的输入数据；使得能够使用机器学习模型(109)处理输入数据以获取空间元数据(115)；以及将所获取的空间元数据(115)与基于两个或更多个麦克风信号(113)的至少一个信号相关联，以使得能够基于所获取的空间元数据(115)来处理至少一个信号。技术研发人员：J·T·维尔卡莫,M·J·洪卡拉受保护的技术使用者：诺基亚技术有限公司技术研发日：技术公布日：2024/2/8