技术新讯 > 乐器声学设备的制造及制作,分析技术 > 声学环境的编码和解码的制作方法 > 正文

声学环境的编码和解码的制作方法

国知局
2024-06-21 11:27:26

公开了用于对声学环境进行编码和解码的装置和方法。

背景技术：

1、三角形网格数据是虚拟声学环境的重要组成部分。网格由一系列顶点和一系列三角形面组成。每个顶点是3d空间中的点，由其x、y和z坐标定位，并且在顶点列表中具有关联的索引。每个三角形标识简单的表面，并且包含三个顶点索引和关联的声学材料。按照特定顺序列出三角形的顶点索引，其定义了简单表面的外部指向法线。

2、通用三角形网格数据存在许多交换和压缩格式。然而，它们通常旨在用于对视觉三角形网格数据(通常是对象和环境的视觉三角形网格数据)进行编码。相比之下，虚拟声学环境和对象的网格三角形数据具有若干个特定性质。例如，网格数据通常仅包含足够大小的声学相关表面。大量的对象表面位于少数平面上，或者具有分层结构。不包含声学材料的表面对于声学目的是不可见的，并且可以被丢弃。具有规则形状的对象使用以其外观重心为中心的相对坐标系也可以产生坐标对称。所有这些附加性质可以用于更高效且同时具有低复杂性的定制编码方案。

技术实现思路

1、根据示例，提供了一种用于对声学环境进行解码的装置，该声学环境包括至少一个音频源和至少一个音频对象，该至少一个音频对象由结构声学数据表示，该结构声学数据将多边形的位置数据与声学材料的声学性质链接，其中，对于每个多边形，该位置数据包括顶点的位置，该装置包括：

2、比特流读取器，用于从比特流读取由声学环境中的至少一个音频源生成的要被渲染的至少一个音频流和结构声学数据的编码版本；

3、音频源解码块，用于对表示至少一个音频源的至少一个音频流进行解码；以及

4、结构声学数据解码块，用于对结构声学数据进行解码。

5、还提供了一种用于对声学环境进行编码的装置，该声学环境包括至少一个音频源和至少一个音频对象，该至少一个音频对象由至少一个结构声学数据表示，该至少一个结构声学数据将多边形的位置数据与声学材料的声学性质链接，其中，对于每个多边形，该结构声学数据包括顶点的位置，该装置包括：

6、音频源编码块，被配置为对要被渲染的至少一个音频流进行编码，该至少一个音频流与至少一个音频源相关联；

7、结构声学数据编码块，被配置为对至少一个结构声学数据进行编码以获得至少一个结构声学数据的编码版本；

8、比特流写入器，被配置用于将该至少一个音频流和至少一个结构声学数据的编码版本写入比特流中。

9、还提供了一种用于对声学环境进行编码的方法，该声学环境包括至少一个音频源和至少一个音频对象，该至少一个音频对象由至少一个结构声学数据表示，该至少一个结构声学数据将多边形的位置数据链接到材料的结构声学性质上，其中，对于每个多边形，该位置数据包括一个主多边形顶点的位置和其余多边形顶点的位置，该方法包括：

10、对与至少一个音频源相关联的要被渲染的至少一个音频流进行编码；

11、对至少一个结构声学数据进行编码以获得至少一个结构声学数据的编码版本；以及

12、将至少一个音频流和至少一个结构声学数据的编码版本写入比特流中。

13、还提供了一种对音频信息进行编码的比特流，其中，对声学环境进行了编码，该声学环境包括至少一个音频源和至少一个音频对象，该至少一个音频对象由至少一个结构声学数据列表表示，该至少一个结构声学数据列表将多边形的位置数据映射到声学材料上，其中，对于每个多边形，该位置数据包括一个顶点的位置，该比特流包括：

14、要被渲染的至少一个音频流；

15、至少一个结构声学数据的编码版本。

16、还提供了一种存储指令的非瞬态存储单元，该指令当由处理器执行时，使处理器：

17、控制声学环境的解码操作，该声学环境包括至少一个音频源和至少一个音频对象，该至少一个音频对象由结构声学数据列表表示，该结构声学数据列表将多边形的位置数据链接到材料的结构声学性质上，其中，对于每个多边形，该位置数据包括一个主结构声学顶点的位置和其余结构声学顶点的位置；

18、控制从比特流读取由声学环境中的至少一个音频源生成的要被渲染的至少一个音频流和结构声学数据的编码版本；

19、控制至少一个音频流的解码；以及

20、对结构声学数据进行解码。

21、还提供了一种存储指令的非瞬态存储单元，该指令当由处理器执行时，使处理器：

22、控制对声学环境进行编码操作的方法，该声学环境包括至少一个音频源和至少一个音频对象，该至少一个音频对象由至少一个结构声学数据表示，该至少一个结构声学数据将多边形的位置数据链接到材料的结构声学性质上，其中，对于每个多边形，该位置数据包括一个主多边形顶点的位置和其余多边形顶点的位置；

23、控制对与至少一个音频源相关联的要被渲染的至少一个音频流进行编码；

24、控制对至少一个结构声学数据进行编码以获得至少一个结构声学数据的编码版本；以及

25、控制将至少一个音频流和至少一个结构声学数据的编码版本写入比特流中。

技术特征：

1.一种用于对声学环境(302)进行解码的装置(300)，所述声学环境(302)包括至少一个音频源和至少一个音频对象，所述至少一个音频对象由结构声学数据表示，所述结构声学数据将多边形(110、120)的位置数据(110ax、120bx)与声学材料(150)的声学性质链接，其中，对于每个多边形，所述位置数据包括顶点的位置，所述装置包括：

2.根据权利要求1所述的装置，还包括：渲染器(350)，用于根据所述至少一个音频源与解码后的结构声学数据(211)之间的结构和位置关系对从所述至少一个音频流(312、212)获得的音频信号(301)进行渲染。

3.根据前述权利要求中任一项所述的装置，其中，所述结构声学数据解码块(320)包括：顶点列表解码器(3800)，用于对指示顶点的位置的顶点列表(3802)进行解码，每个顶点具有顶点索引。

4.根据权利要求3所述的装置，其中，所述顶点列表解码器(3800)被配置为：针对每个顶点的每个坐标，检索先前编码的顶点在候选列表中关联的有序值的顶点索引或坐标值。

5.根据权利要求4所述的装置，被配置为读取所述比特流(204)中的信令，所述信令指示所述比特流中是编码有所述坐标值还是所述顶点索引。

6.根据前述权利要求中任一项所述的装置，其中，所述结构声学数据解码块(320)针对至少一个维度(x、y、z)使用有序候选列表，在所述有序候选列表中先前解码的顶点的坐标值按顺序存储，

7.根据权利要求6所述的装置，其中，所述结构声学数据解码块被配置为：针对每个顶点，估计二进制掩码值(160x、160y、160z)，所述二进制掩码值(160x、160y、160z)指示在所述比特流(204)中是编码了所述候选列表中的有序值还是所述坐标值。

8.根据权利要求6或7所述的装置，被配置为：基于来自所述比特流的信令，针对至少一个维度在激活所述有序候选列表和去激活所述有序候选列表之间进行选择，从而去激活所述有序候选列表。

9.根据权利要求6至8中任一项所述的装置，被配置为：确定顶点的坐标的重数，以便为具有越高重数的坐标分配排名越前的有序值和/或比特位数越少的有序值。

10.根据权利要求6至9中任一项所述的装置，被配置为：基于从所述比特流解码的坐标值和/或有序值来动态更新所述候选列表。

11.根据权利要求6至10中任一项所述的装置，其中，所述候选列表(450)包括每个维度一个候选列表实例(450x、450y、450z)。

12.根据权利要求11所述的装置，其中，所述结构声学数据解码块被配置为：

13.根据前述权利要求中任一项所述的装置，被配置为：使用算术编码对结构声学数据进行解码。

14.根据前述权利要求中任一项所述的装置，使用第二候选列表对至少一个结构声学数据进行解码，根据所述第二候选列表，从所述第二候选列表中的位置对所述至少一个结构声学数据进行解码。

15.根据权利要求14所述的装置，被配置为使得：如果所述至少一个结构声学数据不在所述第二候选列表中，则从所述比特流中整体读取所述至少一个结构声学数据。

16.根据权利要求14或15所述的装置，其中，特定代码比用于指示所述第二候选列表中的位置的代码具有更长的位长。

17.根据权利要求14至16中任一项所述的装置，其中，最后解码的结构声学数据被放置在所述第二候选列表中的第一位置处，并且所述第二候选列表中的其他解码的结构声学数据被移位。

18.根据权利要求14至17中任一项所述的装置，其中，指示所述第二候选列表中的第一位置的代码与指示所述第二候选列表中的最后位置的代码相比具有较短的位长。

19.根据权利要求14至18中任一项所述的装置，使用所述第二候选列表对多边形数据列表进行解码。

20.根据权利要求19所述的装置，使用所述第二候选列表对多边形数据列表进行解码，其中在顶点列表中指示了顶点的顶点索引。

21.根据前述权利要求中任一项所述的装置，被配置为：读取在所述比特流(204)中用信号通知的所述声学环境中包含的边界框(500)的信息以在所述环境中定位所述边界框(500)，其中所述边界框(500)的信息包括位置数据，所述装置进一步被配置为对所述边界框内的结构声学数据进行解码。

22.根据权利要求21所述的装置，其中，所述解码器被配置为：基于包括位置数据的所述边界框的信息来重建每个顶点的位置。

23.根据权利要求21或22所述的装置，被配置为使得：在所述比特流(204)用信号通知所述声学环境存在至少一个重复图案的情况下，通过重复应用在所述边界框内的图案来重建所述至少一个声学对象。

24.根据权利要求23所述的装置，被配置为使得：在所述比特流(204)用信号通知所述至少一个重复图案是所述边界框中包围的对称图案情况下，通过在与所述边界框中的顶点的位置对称的位置处对称地生成结构声学数据来重建至少一个对象。

25.根据权利要求24所述的装置，其中，所述对称是平面对称，并且在所述比特流中用信号通知的对称数据包括与对称平面相关联的信息，其中，所述装置被配置为：通过在相对于所述对称平面与所述边界框中的顶点的位置对称的位置处对称地生成结构声学数据来重建所述至少一个对象。

26.根据权利要求21至25中任一项所述的装置，被配置为：将所述顶点的坐标从至少由所述边界框的一个确定的顶点定义的边界框空间坐标系改变到原始坐标系。

27.根据前述权利要求中任一项所述的装置，还被配置为：在所述比特流(104)用信号通知至少两个顶点的至少两个坐标值根据公约数以因式分解形式被编码的情况下，将以因式分解形式编码的至少两个坐标值中的每个值与所述公约数相乘，以重建所述至少两个坐标值。

28.根据权利要求27所述的装置，其中，所述公约数是最大公约数。

29.根据前述权利要求中任一项所述的装置，其中，所述多边形是三角形。

30.一种用于对声学环境(302)进行解码的方法，所述声学环境(302)包括至少一个音频源和至少一个音频对象，所述至少一个音频对象由结构声学数据列表(400)表示，所述结构声学数据列表将多边形(110、120)的位置数据(110ax、120bx)链接到材料(150)的结构声学性质上，其中，对于每个多边形，所述位置数据包括一个主结构声学顶点(110ax)的位置和其余结构声学顶点(110b)的位置，所述方法包括：

31.一种用于对声学环境进行编码的装置，所述声学环境包括至少一个音频源和至少一个音频对象，所述至少一个音频对象由至少一个结构声学数据表示，所述至少一个结构声学数据将多边形(110、120)的位置数据(110ax、120bx)与声学材料(150)的声学性质链接，其中，对于每个多边形，所述结构声学数据包括顶点(110ax、110ay、110az)的位置，所述装置包括：

32.根据权利要求31所述的装置，还被配置为：针对至少一个维度，在多个顶点的坐标之中搜索不同于1的公约数，从而将所述公约数以及所述坐标除以所述公约数的结果编码在所述比特流(204)中。

33.根据权利要求32所述的装置，其中，所述公约数是最大公约数。

34.根据权利要求32至33中任一项所述的装置，当从属于权利要求31时，被配置为：定义这样的边界块，其使得相对于由边界框(500)定义的空间坐标系而言具有大于1的最大公约数的坐标的数量最大化。

35.根据权利要求31至34中任一项所述的装置，其中，所述结构声学数据编码块(220)包括：顶点列表编码器(800)，用于对指示顶点位置的顶点列表(802)进行编码，每个顶点具有顶点索引。

36.根据权利要求35所述的装置，其中，所述顶点列表编码器(800)被配置为：针对每个顶点的每个坐标，对在所述结构声学数据(202)的编码版本(222)中写入所述坐标值还是写入先前编码的顶点在候选列表中关联的有序值的顶点索引进行选择。

37.根据权利要求35至36中任一项所述的装置，其中，所述顶点列表编码器(800)针对至少一个维度(x、y、z)使用有序候选列表，所述有序候选列表中，按顺序存储先前解码的顶点的坐标值，

38.根据权利要求37所述的装置，其中，所述顶点列表编码器(800)被配置为：针对至少一个维度，对二进制掩码值(160x、160y、160z)进行编码，所述二进制掩码值指示是所述候选列表中的有序值还是所述坐标值被编码。

39.根据权利要求37或38所述的装置，其中，所述顶点列表编码器(800)被配置为：确定顶点的坐标的重数，以便在所述重数之和小于预定阈值的情况下，针对至少一个维度去激活所述有序候选列表，使得至少针对去激活了所述有序候选列表的维度，所有坐标都仅通过对坐标值进行编码来编码。

40.根据权利要求37至39中任一项所述的装置，其中，所述顶点列表编码器(800)被配置为：确定顶点的坐标的重数，以便为具有越高重数的坐标分配排名越前的有序值和/或比特位数越少的有序值。

41.根据权利要求37至40中任一项所述的装置，其中，基于在所述比特流中编码的坐标值和/或有序值来动态更新所述候选列表。

42.根据权利要求37至41中任一项所述的装置，其中，所述有序值具有不同的位长，使得越频繁的坐标值被分配具有越短位长的有序值。

43.根据权利要求37至42中任一项所述的装置，其中，所述候选列表(450)包括针对每个维度一个候选列表实例(450x、450y、450z)。

44.根据权利要求43所述的装置，其中，所述结构声学数据编码块被配置为：

45.根据权利要求31至44中任一项所述的装置，被配置为：使用算术编码对结构声学数据进行编码。

46.根据前述权利要求中任一项所述的装置，使用第二候选列表对至少一个结构声学数据进行编码，根据所述第二候选列表，所述至少一个结构声学数据被编码为所述第二候选列表中的位置。

47.根据权利要求46所述的装置，被配置为使得：如果所述至少一个结构声学数据不在所述第二候选列表中，则对所述至少一个结构声学数据整体进行编码，用特定代码进行信号通知。

48.根据权利要求46或47所述的装置，其中，所述特定代码比用于指示所述第二候选列表中的位置的代码具有更长的位长。

49.根据权利要求46至48中任一项所述的装置，其中，最后编码的结构声学数据被放置在所述第二候选列表中的第一位置处，并且所述第二候选列表中的其他编码的结构声学数据被移位。

50.根据权利要求46至49中任一项所述的装置，其中，指示所述第二候选列表中的第一位置的代码与指示所述第二候选列表中的最后位置的代码相比具有较短的位长。

51.根据权利要求46至50中任一项所述的装置，使用所述第二候选列表对多边形数据列表进行编码。

52.根据权利要求51所述的装置，通过在顶点列表中指示顶点的顶点索引，使用所述第二候选列表对多边形数据列表进行编码。

53.根据权利要求31至51中任一项所述的装置，被配置为：定义所述声学环境中包含的边界框(500)，并且对所述边界框(500)内的结构声学数据进行编码，所述边界框(500)的位置数据在所述比特流中用信号通知。

54.根据权利要求53所述的装置，被配置为：通过至少排除所述声学环境中不包含任何顶点的部分来定义所述边界框(500)。

55.根据权利要求53或54所述的装置，被配置为：估计所述声学环境是否存在至少一个重复图案，以便将所述边界框(500)限制为所述至少一个重复图案；所述装置还被配置为在所述比特流中用信号通知重复图案数据。

56.根据权利要求55所述的装置，其中，所述至少一个重复图案是对称图案，所述装置还被配置为在所述比特流(204)中用信号通知对称数据。

57.根据权利要求56所述的装置，其中，所述对称是平面对称，并且要在所述比特流中用信号通知的对称数据包括与对称平面相关联的信息。

58.根据权利要求53至57中任一项所述的装置，被配置为：将所述顶点的坐标从原始空间坐标系改变到至少由所述边界框(500)的一个确定的顶点定义的边界框(500)坐标系。

59.根据权利要求31至58中任一项所述的装置，其中，所述多边形是三角形。

60.一种用于对声学环境进行编码的方法，所述声学环境包括至少一个音频源和至少一个音频对象，所述至少一个音频对象由至少一个结构声学数据表示，所述至少一个结构声学数据将多边形(110、120)的位置数据(110ax、120bx)链接到材料(150)的结构声学性质上，其中，对于每个多边形，所述位置数据包括一个主多边形顶点(110ax、110ay、110az)的位置和其余多边形顶点(110b、110c、120b)的位置，所述方法包括：

61.一种对音频信息进行编码的比特流，其中，声学环境被编码，所述声学环境包括至少一个音频源和至少一个音频对象，所述至少一个音频对象由至少一个结构声学数据列表表示，所述至少一个结构声学数据列表将多边形(110、120)的位置数据(110ax、120bx)映射到声学材料(150)上，其中，对于每个多边形，所述位置数据包括一个顶点的位置，所述比特流包括：

62.根据权利要求61所述的比特流，其中，所述至少一个结构声学数据(221)的编码版本(222)包括：编码有至少一个多边形顶点的至少一个坐标值的至少一个数据字段、以及编码有与候选列表(450)相关联的至少一个有序值的至少一个数据字段，其中，所述候选列表(450)基于先前编码的坐标值和有序值而动态更新。

63.一种存储指令的非瞬态存储单元，所述指令当由处理器执行时，使所述处理器：

64.一种存储指令的非瞬态存储单元，所述指令当由处理器执行时，使所述处理器：

技术总结公开了用于对声学环境进行编码和解码的装置和方法。根据示例，提供了一种用于对声学环境进行解码的装置，该声学环境包括至少一个音频源和至少一个音频对象，该至少一个音频对象由结构声学数据表示，该结构声学数据将多边形的位置数据与声学材料的声学性质链接，其中，对于每个多边形，位置数据包括顶点的位置，该装置包括：比特流读取器，用于从比特流中读取由声学环境中的至少一个音频源生成的要被渲染的至少一个音频流和结构声学数据的编码版本；音频源解码块，用于对表示至少一个音频源的至少一个音频流进行解码；结构声学数据解码块，用于对结构声学数据进行解码。技术研发人员：于尔根·赫勒,弗罗林·吉多受保护的技术使用者：弗劳恩霍夫应用研究促进协会技术研发日：技术公布日：2024/2/8