技术新讯 > 电子通信装置的制造及其应用技术 > 使用自适应捕捉从麦克风阵列生成空间音频信号格式的制作方法  >  正文

使用自适应捕捉从麦克风阵列生成空间音频信号格式的制作方法

  • 国知局
  • 2024-08-02 14:12:20

本技术涉及用于使用自适应信号处理技术从麦克风阵列生成球面谐波信号的装置和方法。

背景技术:

1、现有两种不同类型的空间声音捕捉和再现,它们涉及到以下公开:

2、1)高保真立体声(ambisonics),其中使用麦克风阵列线性地(非自适应地)捕捉球面谐波信号。球面谐波信号可以使用传统的非自适应方法被解码到扬声器或者以双声道的方式被解码到耳机。在双声道再现中,球面谐波信号可以使用旋转矩阵、基于收听者的头部方位而被旋转,并且经旋转的信号可以随后以线性方式被双声道解码。

3、2)自适应空间音频捕捉(spac)方法,其采用对来自麦克风阵列信号的感知相关空间信息(例如,频带中到来声音的方向)的动态分析。该信息——经常被称作空间元数据——被应用于动态合成在感知上类似于原始录制的声场的空间再现。当被妥善实施时,对于大多数实际设备而言,这样的自适应方法在感知上优于高保真立体声,并且还能够应用于更广泛的捕捉设备类型。

4、高保真立体声音频格式(或球面谐波信号)是一种传统的空间音频信号表示。近年来,这种信号表示(或格式)也已经成为了用于空间音频传输的普遍实施的选择。其由不同阶的球面谐波所构成。零阶谐波(=零空间频率)由全向信号所表示。一阶谐波由双极模式表示,并且更高阶则具有四极,等等。以下公开中的术语更高阶高保真立体声(hoa)是指使用零阶至二阶(或更高阶)球面谐波信号的技术。对于球面谐波信号具有许多变体或配置。例如,球面谐波的相对振幅或排序在不同定义下可能有所变化。任何这样的变体之间的转换通常使用线性(矩阵)运算是直截了当的。

5、高保真立体声音频格式(或球面谐波信号)也可以被用作用来传送空间音频的格式。例如,youtube 3d音频/视频服务已经开始使用由一个全向信号(零阶)和三个双极信号(一阶)构成的一阶高保真立体声格式(球面谐波信号)来流传输空间音频。虽然该方法对于质量或比特率而言都不是最优的,但是现有的流服务显示该方法实际上为终端用户产生了令人满意的体验。此外,高保真立体声音频格式是一种直截了当的且完全定义的格式。因此,这对于诸如youtube等的服务是一种有用的音频格式并且相同地使用。使用已知方法,高保真立体声音频格式信号可以在接收器端被线性解码并且被渲染至耳机(双声道)或扬声器。

6、球面谐波信号的生成存在着问题。为了生成球面谐波信号,可能需要专业麦克风阵列形式的专业装置使用线性手段来捕捉信号。用于使用常规或一般的麦克风布置来生成球面谐波信号并且随后使用线性组合处理麦克风信号的其它方式可能产生导致不佳质量结果的球面谐波信号。

技术实现思路

1、根据第一方面,提供了一种装置,包括处理器,所述处理器被配置为:接收至少两个麦克风音频信号;确定与所述至少两个麦克风音频信号相关联的空间元数据;以及基于至少一个麦克风音频信号和所述空间元数据来自适应地合成多个球面谐波音频信号以便输出预定阶的空间音频信号格式。

2、所述处理器可以进一步被配置为从麦克风阵列接收所述至少两个麦克风音频信号。

3、所述处理器可以被配置为分析所述至少两个麦克风音频信号以确定所述空间元数据。

4、所述处理器可以被配置为进一步接收与所述至少两个麦克风音频信号相关联的空间元数据。

5、所述多个球面谐波音频信号可以是一阶球面谐波音频信号。

6、被配置为基于至少一个麦克风音频信号和所述空间元数据来自适应地合成多个球面谐波音频信号的所述处理器可以进一步被配置为:针对所述至少一个麦克风音频信号的第一部分和所述空间元数据来自适应地合成所述多个球面谐波音频信号;使用线性运算针对所述至少一个麦克风音频信号的第二部分合成所述多个球面谐波音频信号;以及组合所述球面谐波音频信号。

7、所述至少一个麦克风音频信号的第一部分可以是所述至少一个麦克风音频信号的第一频带,并且所述至少一个麦克风音频信号的第二部分可以是所述至少一个麦克风音频信号的第二频带。

8、所述处理器可以进一步被配置为基于生成所述至少一个麦克风音频信号的至少一个麦克风的物理布置来确定所述第一频带。

9、被配置为基于至少一个麦克风音频信号和所述空间元数据来自适应地合成多个球面谐波音频信号的所述处理器可以进一步被配置为:基于所述至少一个麦克风音频信号的第一频带部分和所述空间元数据的第一频率部分,针对至少一种阶的球面谐波音频信号自适应地合成球面谐波音频信号;使用线性运算针对至少另一种阶的球面谐波音频信号合成球面谐波音频信号;以及将所述至少一种阶的球面谐波音频信号和所述至少另一种阶的球面谐波音频信号进行组合。

10、所述处理器可以进一步被配置为基于生成所述至少一个麦克风音频信号的至少一个麦克风的物理布置来确定所述至少一种阶的球面谐波音频信号。

11、被配置为基于至少一个麦克风音频信号和所述空间元数据来自适应地合成多个球面谐波音频信号的所述处理器可以被配置为:基于所述至少一个麦克风音频信号的第一频带部分和所述空间元数据的第一频率部分,针对至少一个球面谐波音频信号轴自适应地合成球面谐波音频信号;使用线性运算针对至少一个另外的球面谐波音频信号轴合成球面谐波音频信号;以及将所述至少一个球面谐波音频信号轴和所述至少一个另外的球面谐波音频信号轴进行组合。

12、被配置为基于至少一个麦克风音频信号和所述空间元数据来自适应地合成多个球面谐波音频信号的所述处理器可以进一步被配置为:基于所述至少一个麦克风音频信号和所述空间元数据的位置部分来生成多个定义位置合成的通道音频信号;对所述多个定义位置合成的通道音频信号使用线性运算自适应地合成球面谐波音频信号。

13、被配置为基于所述至少一个麦克风音频信号和所述空间元数据的位置部分生成多个定义位置合成的通道音频信号的所述处理器可以进一步被配置为:基于所述空间元数据的比率部分将所述至少一个麦克风音频信号划分为定向部分和非定向部分;基于所述空间元数据的位置部分将所述至少一个麦克风音频信号的定向部分振幅平移(amplitude-pan)以生成定义位置合成的通道音频信号的定向部分;对来自所述至少一个麦克风音频信号的非定向部分的定义位置合成的通道音频信号的氛围部分进行解相关合成;以及将所述定义位置合成的通道音频信号的定向部分与所述定义位置合成的通道音频信号的非定向部分进行组合以生成所述多个定义位置合成的通道音频信号。

14、被配置为基于至少一个麦克风音频信号和所述空间元数据来自适应地合成多个球面谐波音频信号的所述处理器可以被配置为:基于所述至少一个麦克风音频信号和所述空间元数据的位置部分生成球面谐波音频信号的经建模的移动源集合;基于所述至少一个麦克风音频信号生成球面谐波音频信号的氛围集合;以及将所述球面谐波音频信号的经建模的移动源集合和所述球面谐波音频信号的氛围集合进行组合以生成所述多个球面谐波音频信号。

15、所述处理器可以进一步被配置为基于所述空间元数据的比率部分将所述至少一个麦克风音频信号划分为定向部分和非定向部分。

16、被配置为基于所述至少一个麦克风音频信号和所述空间元数据的位置部分生成球面谐波音频信号的经建模的移动源集合的所述处理器可以进一步被配置为:基于所述元数据的定向部分确定至少一个经建模的移动源权重;以及从应用于所述至少一个麦克风音频信号的定向部分的至少一个经建模的移动源权重生成球面谐波音频信号的经建模的移动源集合。

17、被配置为基于所述至少一个麦克风音频信号生成球面谐波音频信号的氛围集合的所述处理器可以进一步被配置为对球面谐波音频信号的氛围集合进行解相关合成。

18、被配置为基于至少一个麦克风音频信号和所述空间元数据合成多个球面谐波音频信号的所述处理器可以进一步被配置为:基于所述元数据确定目标随机属性;分析所述至少一个麦克风音频信号以确定至少一个短时间随机特性;基于所述短时间随机特性和所述目标随机属性生成优化权重集合;以及基于所述权重集合应用于所述至少一个麦克风音频信号而生成多个球面谐波音频信号。

19、与所述至少一个麦克风音频信号相关联的空间元数据可以包括以下项的至少一项:频带的空间元数据的定向参数;和所述频带的空间元数据的比率参数。

20、所述至少两个麦克风可以包括外部麦克风、设备麦克风、或者外部麦克风和设备麦克风的组合。

21、所述至少一个麦克风音频信号可以包括外部通道或至少两个麦克风音频信号之一。

22、根据第二方面,提供了一种方法,包括:接收至少两个麦克风音频信号;确定与所述至少两个麦克风音频信号相关联的空间元数据;以及基于至少一个麦克风音频信号和所述空间元数据来自适应地合成多个球面谐波音频信号以便输出预定阶的空间音频信号格式。

23、所述方法可以进一步包括从麦克风阵列接收所述至少两个麦克风音频信号。

24、确定与所述至少两个麦克风音频信号相关联的空间元数据可以进一步包括分析所述至少两个麦克风音频信号以确定所述空间元数据。

25、确定与所述至少两个麦克风音频信号相关联的空间元数据可以进一步包括接收与所述至少两个麦克风音频信号相关联的空间元数据。

26、所述多个球面谐波音频信号可以是一阶球面谐波音频信号。

27、基于至少一个麦克风音频信号和所述空间元数据来自适应地合成多个球面谐波音频信号可以进一步包括:针对所述至少一个麦克风音频信号的第一部分和所述空间元数据自适应地合成所述多个球面谐波音频信号;使用线性运算针对所述至少一个麦克风音频信号的第二部分合成所述多个球面谐波音频信号;以及组合所述球面谐波音频信号。

28、所述至少一个麦克风音频信号的第一部分可以是所述至少一个麦克风音频信号的第一频带,并且所述至少一个麦克风音频信号的第二部分可以是所述至少一个麦克风音频信号的第二频带。

29、所述方法可以进一步包括基于生成所述至少一个麦克风音频信号的至少一个麦克风的物理布置来确定所述第一频带。

30、基于至少一个麦克风音频信号和所述空间元数据来自适应地合成多个球面谐波音频信号可以进一步包括:基于所述至少一个麦克风音频信号的第一频带部分和所述空间元数据的第一频率部分,针对至少一种阶的球面谐波音频信号自适应地合成球面谐波音频信号;使用线性运算针对至少另一种阶的球面谐波音频信号合成球面谐波音频信号;以及将所述至少一种阶的球面谐波音频信号和所述至少另一种阶的球面谐波音频信号进行组合。

31、所述方法可以进一步包括基于生成所述至少一个麦克风音频信号的至少一个麦克风的物理布置来确定所述至少一种阶的球面谐波音频信号。

32、基于至少一个麦克风音频信号和所述空间元数据来自适应地合成多个球面谐波音频信号可以进一步包括:基于所述至少一个麦克风音频信号的第一频带部分和所述空间元数据的第一频率部分,针对至少一个球面谐波音频信号轴自适应地合成球面谐波音频信号;使用线性运算针对至少一个另外的球面谐波音频信号轴合成球面谐波音频信号;以及将所述至少一个球面谐波音频信号轴和所述至少一个另外的球面谐波音频信号轴进行组合。

33、基于至少一个麦克风音频信号和所述空间元数据来自适应地合成多个球面谐波音频信号可以进一步包括:基于所述至少一个麦克风音频信号和所述空间元数据的位置部分生成多个定义位置合成的通道音频信号;以及对所述多个定义位置合成的通道音频信号使用线性运算自适应地合成球面谐波音频信号。

34、基于所述至少一个麦克风音频信号和所述空间元数据的位置部分生成多个定义位置合成的通道音频信号可以进一步包括:基于所述空间元数据的比率部分将所述至少一个麦克风音频信号划分为定向部分和非定向部分;基于所述空间元数据的位置部分将所述至少一个麦克风音频信号的定向部分振幅平移以生成定义位置合成的通道音频信号的定向部分;对来自所述至少一个麦克风音频信号的非定向部分的定义位置合成的通道音频信号的氛围部分进行解相关合成;以及将所述定义位置合成的通道音频信号的定向部分与所述定义位置合成的通道音频信号的非定向部分进行组合以生成所述多个定义位置合成的通道音频信号。

35、基于至少一个麦克风音频信号和所述空间元数据来自适应地合成多个球面谐波音频信号可以进一步包括:基于所述至少一个麦克风音频信号和所述空间元数据的位置部分生成球面谐波音频信号的经建模的移动源集合;基于所述至少一个麦克风音频信号生成球面谐波音频信号的氛围集合;以及将所述球面谐波音频信号的经建模的移动源集合和所述球面谐波音频信号的氛围集合进行组合以生成所述多个球面谐波音频信号。

36、所述方法可以进一步包括基于所述空间元数据的比率部分将所述至少一个麦克风音频信号划分为定向部分和非定向部分。

37、基于所述至少一个麦克风音频信号和所述空间元数据的位置部分生成球面谐波音频信号的经建模的移动源集合可以进一步包括:基于所述元数据的定向部分确定至少一个经建模的移动源权重;以及从应用于所述至少一个麦克风音频信号的定向部分的至少一个经建模的移动源权重生成球面谐波音频信号的经建模的移动源集合。

38、基于所述至少一个麦克风音频信号生成球面谐波音频信号的氛围集合可以包括对球面谐波音频信号的氛围集合进行解相关合成。

39、基于至少一个麦克风音频信号和所述空间元数据合成多个球面谐波音频信号可以进一步包括:基于所述元数据确定目标随机属性;分析所述至少一个麦克风音频信号以确定至少一个短时间随机特性;基于所述短时间随机特性和所述目标随机属性生成优化权重集合;以及基于所述权重集合应用于所述至少一个麦克风音频信号而生成多个球面谐波音频信号。

40、与所述至少一个麦克风音频信号相关联的空间元数据可以包括以下项的至少一项:频带的空间元数据的定向参数;和所述频带的空间元数据的比率参数。

41、所述至少两个麦克风可以包括外部麦克风、设备麦克风、或者外部麦克风和设备麦克风的组合。

42、所述至少一个麦克风音频信号可以包括外部通道或至少两个麦克风音频信号之一。

43、根据第三方面,提供了一种装置,包括:用于接收至少两个麦克风音频信号的部件;用于确定与所述至少两个麦克风音频信号相关联的空间元数据的部件;和用于基于至少一个麦克风音频信号和所述空间元数据来自适应地合成多个球面谐波音频信号以便输出预定阶的空间音频信号格式的部件。

44、所述用于接收至少两个麦克风音频信号的部件可以进一步从麦克风阵列接收所述音频信号。

45、所述用于确定与所述至少两个麦克风音频信号相关联的空间元数据的部件可以进一步包括用于分析所述至少两个麦克风音频信号以确定所述空间元数据的部件。

46、所述用于确定与所述至少两个麦克风音频信号相关联的空间元数据的部件可以进一步包括用于接收与所述至少两个麦克风音频信号相关联的空间元数据的部件。

47、所述多个球面谐波音频信号可以是一阶球面谐波音频信号。

48、所述用于基于至少一个麦克风音频信号和所述空间元数据来自适应地合成多个球面谐波音频信号的部件可以包括:用于针对所述至少一个麦克风音频信号的第一部分和所述空间元数据自适应地合成所述多个球面谐波音频信号的部件;用于使用线性运算针对所述至少一个麦克风音频信号的第二部分合成所述多个球面谐波音频信号的部件;和用于组合所述球面谐波音频信号的部件。

49、所述至少一个麦克风音频信号的第一部分可以是所述至少一个麦克风音频信号的第一频带,并且所述至少一个麦克风音频信号的第二部分可以是所述至少一个麦克风音频信号的第二频带。

50、所述装置可以进一步包括用于基于生成所述至少一个麦克风音频信号的至少一个麦克风的物理布置来确定所述第一频带的部件。

51、所述用于基于至少一个麦克风音频信号和所述空间元数据来自适应地合成多个球面谐波音频信号的部件可以进一步包括:用于基于所述至少一个麦克风音频信号的第一频带部分和所述空间元数据的第一频率部分针对至少一种阶的球面谐波音频信号自适应地合成球面谐波音频信号的部件;用于使用线性运算针对至少另一种阶的球面谐波音频信号合成球面谐波音频信号的部件;和用于将所述至少一种阶的球面谐波音频信号和所述至少另一种阶的球面谐波音频信号进行组合的部件。

52、所述装置可以进一步包括用于基于生成所述至少一个麦克风音频信号的至少一个麦克风的物理布置来确定所述至少一种阶的球面谐波音频信号的部件。

53、所述用于基于至少一个麦克风音频信号和所述空间元数据自适应地合成多个球面谐波音频信号的部件可以进一步包括:用于基于所述至少一个麦克风音频信号的第一频带部分和所述空间元数据的第一频率部分针对至少一个球面谐波音频信号轴自适应地合成球面谐波音频信号的部件;用于使用线性运算针对至少一个另外的球面谐波音频信号轴合成球面谐波音频信号的部件;和用于将所述至少一个球面谐波音频信号轴和所述至少一个另外的球面谐波音频信号轴进行组合的部件。

54、所述用于基于至少一个麦克风音频信号和所述空间元数据来自适应地合成多个球面谐波音频信号的部件可以进一步包括:用于基于所述至少一个麦克风音频信号和所述空间元数据的位置部分生成多个定义位置合成的通道音频信号的部件;和用于对所述多个定义位置合成的通道音频信号使用线性运算自适应地合成球面谐波音频信号的部件。

55、所述用于基于所述至少一个麦克风音频信号和所述空间元数据的位置部分生成多个定义位置合成的通道音频信号的部件可以进一步包括:用于基于所述空间元数据的比率部分将所述至少一个麦克风音频信号划分为定向部分和非定向部分的部件;用于基于所述空间元数据的位置部分将所述至少一个麦克风音频信号的定向部分振幅平移以生成定义位置合成的通道音频信号的定向部分的部件;用于对来自所述至少一个麦克风音频信号的非定向部分的定义位置合成的通道音频信号的氛围部分进行解相关合成的部件;和用于将所述定义位置合成的通道音频信号的定向部分与所述定义位置合成的通道音频信号的非定向部分进行组合以生成所述多个定义位置合成的通道音频信号的部件。

56、所述用于基于至少一个麦克风音频信号和所述空间元数据来自适应地合成多个球面谐波音频信号的部件可以进一步包括:用于基于所述至少一个麦克风音频信号和所述空间元数据的位置部分生成球面谐波音频信号的经建模的移动源集合的部件;用于基于所述至少一个麦克风音频信号生成球面谐波音频信号的氛围集合的部件;和用于将所述球面谐波音频信号的经建模的移动源集合和所述球面谐波音频信号的氛围集合进行组合以生成所述多个球面谐波音频信号的部件。

57、所述装置可以进一步包括用于基于所述空间元数据的比率部分将所述至少一个麦克风音频信号划分为定向部分和非定向部分的部件。

58、所述用于基于所述至少一个麦克风音频信号和所述空间元数据的位置部分生成球面谐波音频信号的经建模的移动源集合的部件可以进一步包括:用于基于所述元数据的定向部分确定至少一个经建模的移动源权重的部件;和用于从应用于所述至少一个麦克风音频信号的定向部分的至少一个经建模的移动源权重生成球面谐波音频信号的经建模的移动源集合的部件。

59、所述用于基于所述至少一个麦克风音频信号生成球面谐波音频信号的氛围集合的部件可以进一步包括用于对球面谐波音频信号的氛围集合进行解相关合成的部件。

60、所述用于基于至少一个麦克风音频信号和所述空间元数据来合成多个球面谐波音频信号的部件可以进一步包括:用于基于所述元数据确定目标随机属性的部件;分析所述至少一个麦克风音频信号以确定至少一个短时间随机特性;用于基于所述短时间随机特性和所述目标随机属性生成优化权重集合的部件;和用于基于所述权重集合应用于所述至少一个麦克风音频信号而生成多个球面谐波音频信号的部件。

61、与所述至少一个麦克风音频信号相关联的空间元数据可以包括以下项的至少一项:频带的空间元数据的定向参数;和所述频带的空间元数据的比率参数。

62、所述至少两个麦克风可以包括外部麦克风、设备麦克风、或者外部麦克风和设备麦克风的组合。

63、所述至少一个麦克风音频信号可以包括外部通道或至少两个麦克风音频信号之一。

64、一种存储在介质上的计算机程序产品可以使得装置执行如本文所描述的方法。

65、一种电子设备可以包括如本文所描述的装置。

66、一种芯片组可以包括如本文所描述的装置。

67、本技术的实施例旨在解决与现有技术相关联的问题。

本文地址:https://www.jishuxx.com/zhuanli/20240801/242019.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。