技术新讯 > 乐器声学设备的制造及制作,分析技术 > 用于空间处理音频场景的装置、方法和计算机程序与流程 > 正文

用于空间处理音频场景的装置、方法和计算机程序与流程

国知局
2024-06-21 11:36:44

本公开的示例涉及用于空间处理音频场景的装置、方法和计算机程序。一些示例涉及用于具有针对语音或其他关键声音的改进的可理解度的空间处理音频场景的装置、方法和计算机程序。

背景技术：

1、声音再现设备可以使用立体声加宽或其他类似的空间处理以增加音频场景的感知宽度。然而，加宽或其他空间处理可能导致失真，这会降低语音或其他关键声音的可理解度。

技术实现思路

1、根据本公开的各种但并非所有示例，可以提供一种装置，其包括用于执行以下操作的部件：

2、获得至少一个音频信号，该至少一个音频信号包括两个或更多个通道；

3、用程序代码来处理该至少一个音频信号以识别该至少一个音频信号的至少第一部分，其中，该第一部分主要包括感兴趣音频；

4、使用第一过程(first process)来处理第一部分；

5、使用第二过程(second process)来处理第二部分，该第二过程包括空间音频处理，其中，该第一过程不包括空间音频处理或者包括与第二过程相比低水平的空间音频处理，并且该第二部分主要包括剩余部分(remainder)；以及

6、使得能够使用两个或更多个扬声器来回放经处理的第一部分和第二部分。

7、第二过程可以包括第二立体声加宽过程。

8、第一过程可以使得第一部分能够在经渲染的声音场景中的中心位置中被提供。

9、第二过程可以在经渲染的声音场景内保留空间音频效果。

10、所述部件可以用于对第一部分应用第一均衡过程，并对第二部分应用第二均衡过程。

11、第一均衡过程可以包括比第二均衡过程更大的增益。

12、程序代码可以被用于识别音频信号的第一部分，包括经训练的机器学习模型。

13、经训练的机器学习模型可以被用于至少部分地将包括感兴趣音频的音频信号的一部分与这些音频信号的剩余部分分离。

14、经训练的机器学习模型可以被配置为提供使得能够获得第一部分和第二部分的一个或多个处理系数集合。

15、第二过程可以包括基于串扰消除的立体声加宽处理。

16、程序代码可以被配置为识别至少第一部分和两个或更多个第二部分。

17、可以使用不同的空间音频处理来处理两个或更多个第二部分。

18、空间音频处理可以包括以下中任何一项或多项：立体声加宽，双耳化，上混合立体声信号，条形音箱环绕声再现(sound bar surround reproduction)，多通道声音的串音消除立体声播放。

19、感兴趣音频可以包括以下中的至少一项：语音，人类声音。

20、剩余部分可以包括不是感兴趣音频的音频。

21、音频信号的剩余部分可以包括环境声音。

22、根据本公开的各种但并非所有示例，可以提供一种包括如本文所描述的装置的电子设备，其中，该电子设备是以下中的至少一项：电话，相机，计算设备，电话会议装置。

23、根据本公开的各种但并非所有示例，可以提供一种方法，其包括：

24、获得至少一个音频信号，该至少一个音频信号包括两个或更多个通道；

25、用程序代码来处理该至少一个音频信号以识别该至少一个音频信号的至少第一部分，其中，该第一部分主要包括感兴趣音频；

26、使用第一过程来处理第一部分；

27、使用第二过程来处理第二部分，该第二过程包括空间音频处理，其中，该第一过程不包括空间音频处理或者包括与第二过程相比低水平的空间音频处理，并且该第二部分主要包括剩余部分；以及

28、使得能够使用两个或更多个扬声器来回放经处理的第一部分和第二部分。

29、根据本公开的各种但并非所有示例，提供了一种包括指令的计算机程序，该指令在由装置执行时使该装置至少执行：

30、获得至少一个音频信号，该至少一个音频信号包括两个或更多个通道；

31、用程序代码来处理该至少一个音频信号以识别该至少一个音频信号的至少第一部分，其中，该第一部分主要包括感兴趣音频；

32、使用第一过程来处理第一部分；

33、使用第二过程来处理第二部分，该第二过程包括空间音频处理，其中，该第一过程不包括空间音频处理或者包括与第二过程相比低水平的空间音频处理，并且该第二部分主要包括剩余部分；以及

34、使得能够使用两个或更多个扬声器来回放经处理的第一部分和第二部分。

35、虽然本公开的上述示例和可选特征是单独描述的，但应当理解，它们的以所有可能的组合和排列的提供都被包含在本公开内。应当理解，本公开的各种示例可以包括关于本公开的其他示例所描述的任何或全部特征，反之亦然。此外，应当理解，任何组合中的任何一个或多个或全部特征可以根据需要且适当地由装置、方法和/或计算机程序指令来实现/被包括在装置、方法和/或计算机程序指令中/可由装置、方法和/或计算机程序指令执行。

技术特征：

1.一种装置，包括：至少一个处理器；以及包括计算机程序代码的至少一个存储器，所述至少一个存储器存储指令，所述指令在由所述至少一个处理器执行时使所述装置至少：

2.根据权利要求1所述的装置，其中，所述第二过程包括以下中的至少一项：第二立体声加宽过程；在经渲染的声音场景内的空间音频效果；以及基于串扰消除的立体声加宽处理。

3.根据权利要求1所述的装置，其中，所述第一过程使得所述第一部分能够在经渲染的声音场景中的中心位置中被提供。

4.根据权利要求1所述的装置，进一步被使得对所述第一部分应用第一均衡过程，并对所述第二部分应用第二均衡过程。

5.根据权利要求4所述的装置，其中，所述第一均衡过程包括比所述第二均衡过程更大的增益。

6.根据权利要求1所述的装置，其中，用于识别所述至少一个音频信号的所述第一部分的所述程序代码包括经训练的机器学习模型，其中，所述经训练的机器学习模型被配置为执行以下中的至少一项：

7.根据权利要求1所述的装置，其中，所述程序代码被配置为识别至少第一部分和两个或更多个第二部分。

8.根据权利要求7所述的装置，其中，使用不同的空间音频处理来处理所述两个或更多个第二部分。

9.根据权利要求1所述的装置，其中，所述空间音频处理包括以下中的任何一项或多项：立体声加宽；双耳化；上混合立体声信号；条形音箱环绕声再现；以及多通道声音的串音消除立体声播放。

10.根据权利要求1所述的装置，其中，所述感兴趣音频包括以下中的至少一项：语音；以及人类声音。

11.根据权利要求1所述的装置，其中，所述剩余部分包括以下中的至少一项：

12.一种方法，包括：

13.根据权利要求12所述的方法，其中，所述第二过程包括以下中的至少一项：第二立体声加宽过程；在经渲染的声音场景内的空间音频效果；以及基于串扰消除的立体声加宽处理。

14.根据权利要求12所述的方法，其中，所述第一过程使得所述第一部分能够在经渲染的声音场景中的中心位置中被提供。

15.根据权利要求12所述的方法，进一步包括：对所述第一部分应用第一均衡过程，并对所述第二部分应用第二均衡过程，其中，所述第一均衡过程包括比所述第二均衡过程更大的增益。

16.根据权利要求12所述的方法，其中，所述程序代码包括经训练的机器学习模型，其中，所述经训练的机器学习模型被配置为执行以下中的至少一项：

17.根据权利要求12所述的方法，其中，所述程序代码被配置为识别至少第一部分和两个或更多个第二部分。

18.根据权利要求17所述的方法，其中，使用不同的空间音频处理来处理所述两个或更多个第二部分。

19.根据权利要求12所述的方法，其中，所述感兴趣音频包括以下中的至少一项：语音；以及人类声音。

20.根据权利要求12所述的方法，其中，所述剩余部分包括以下中的至少一项：

技术总结本公开的示例涉及用于具有针对语音或其他关键声音的改进的可理解度的空间处理音频场景的装置、方法和计算机程序。在本公开的示例中，获得至少一个音频信号，该至少一个音频信号包括两个或更多个通道。用程序代码来处理该音频信号以识别该音频信号的至少第一部分，其中，该第一部分主要包括感兴趣音频。使用第一过程来处理第一部分。使用第二过程来处理第二部分，该第二过程包括空间音频处理。第一过程不包括空间音频处理或者包括与第二过程相比低水平的空间音频处理，并且第二部分主要包括剩余部分。可以使用两个或更多个扬声器来回放经处理的第一部分和第二部分。技术研发人员：J·T·维尔卡莫,M-V·莱蒂南,S·维萨受保护的技术使用者：诺基亚技术有限公司技术研发日：技术公布日：2024/3/17