技术新讯 > 乐器声学设备的制造及制作,分析技术 > 用于处理基于对象的音频和基于声道的音频的方法和装置与流程 > 正文

用于处理基于对象的音频和基于声道的音频的方法和装置与流程

国知局
2024-06-21 11:37:37

本公开总体上涉及处理以不同格式编码的音频。更具体地，本公开的实施例涉及一种通过基于以基于对象的格式编码的音频和以基于声道的格式编码的音频执行渲染来生成多个输出帧的方法。

背景技术：

1、媒体内容可经由一个或多个通信网络(例如，wifi、蓝牙、lte、usb)传送到许多不同类型的回放系统/设备(例如，电视、计算机、平板计算机、智能电话、家庭音频系统、流媒体设备、汽车信息娱乐系统、便携式音频系统等)，在该回放系统/设备中，由用户使用媒体内容(例如，由媒体回放系统的一个或多个用户观看或听到)。在媒体传送链中，自适应流式传输(自适应比特率或abr流式传输)允许通过基于网络状况、回放缓冲状态、共享网络容量以及受网络影响的其他因素自适应地选择媒体比特率阶梯来改进资源管理。

2、在典型的abr流式传输应用中，随着媒体资产(例如视频或音频文件)回放期间网络状况恶化，回放设备会通过请求较低比特率的内容帧来进行适应(例如，以维持体验质量；避免缓冲等)。在某些流式传输应用中，可以通过传送较低分辨率内容部分(例如，音频帧)或通过以保留带宽的不同格式传送内容来调整比特率(例如，用较低比特率音频文件格式的帧来替代较高比特率格式的帧进行传送)。

技术实现思路

1、本公开的目的是提供用于处理基于对象的音频内容和基于声道的音频内容的方法。

2、根据本公开的一方面，这种方法使得能够在基于对象的音频内容(例如杜比全景声)与基于声道的音频内容(例如5.1或7.1内容)之间进行切换。例如，这在自适应流式传输的背景下是有利的。作为示例，当基于对象的音频内容(例如，杜比全景声内容)被流式传输到兼容的回放系统(例如汽车回放系统或移动设备)时，回放系统可以响应于可用网络带宽的减少而请求并开始接收较低比特率的基于声道的音频帧。相反，当基于声道的音频内容(例如，5.1内容)被流式传输到兼容的回放系统时，回放系统可以响应于可用网络带宽的增加而请求并开始接收基于对象的音频帧。

3、然而，发明人发现，在没有对转变进行任何特殊处理的情况下，当在基于声道的音频与基于对象的音频之间切换时，可能出现不连续性、不相关声道的混合以及不期望的间隙，反之亦然。例如，当从基于对象的音频(例如，具有杜比全景声内容的杜比数字+(dd+)，例如dd+联合对象编码(joc))转变到基于声道的音频(例如，杜比数字+5.1、7.1等)时，可能发生后方环绕/后方高置信号的硬结束和混合信号的硬开始。同样，当从基于声道的音频(例如，杜比数字+5.1、7.1等)转变到基于对象的音频(例如，具有杜比全景声内容的杜比数字+)时，可能发生5.1扬声器子集中的混合后方环绕/后方高置信号的硬结束以及后方高置/环绕高置扬声器馈送的硬开始。此外，当从基于声道的音频切换到基于对象的音频时，声道可能无法正确排序，从而导致音频在错误的位置被渲染，并在短时间内混合了不相关的声道。

4、本公开描述了用于缓解当在基于对象的音频与基于声道的音频之间切换时出现的问题的策略，其解决了上述一些问题并提供了若干优点，包括：

5、·无间隙且平滑的转变(无毛刺和爆音)

6、·将音频渲染在正确位置

7、·提高用户的体验质量

8、·减少cpu和内存需求

9、·高效使用现有软件和硬件部件

10、当在基于对象的音频格式与基于声道的音频格式之间切换时，特别是在基于对象的音频的自适应流式传输的背景下，本公开的方法是有利的。然而，本发明不限于自适应流式传输，并且还可以应用于期望在基于对象的音频与基于声道的音频之间进行切换的其他场景。

11、根据本发明的实施例，提供了一种方法，该方法包括：接收第一格式的第一音频帧以及接收与第一格式不同的第二格式的第二音频帧。第二帧在第一帧之后回放。第一格式是基于对象的音频格式，并且第二格式是基于声道的音频格式，或是相反情况。第一音频帧被解码为解码后的第一帧，并且第二音频帧被解码为解码后的第二帧。通过基于解码后的第一帧和解码后的第二帧执行渲染来生成第三格式的多个输出帧。

12、本公开进一步涉及一种电子器件设备，包括：一个或多个处理器；以及存储器，该存储器存储有被配置为由该一个或多个处理器执行的一个或多个程序，该一个或多个程序包括用于执行本发明的方法的指令。本公开进一步涉及一种包括所述电子设备设备的车辆，如包括所述电子设备的汽车。

技术特征：

1.一种方法，包括：

2.如权利要求1所述的方法，其中，生成第三格式的所述多个输出帧包括对所述基于对象的音频格式的所述音频帧进行下混。

3.如权利要求2所述的方法，其中，生成第三格式的所述多个输出帧包括生成包括两个部分的混合输出帧，所述生成所述混合输出帧包括：

4.如权利要求3所述的方法，其中，所述基于对象的音频格式的所述音频帧的一部分的持续时间是基于相关联的解码过程的时延的。

5.如权利要求1至4中任一项所述的方法，其中，在第一比特流中接收所述第一音频帧和所述第二音频帧。

6.如权利要求1至5中任一项所述的方法，进一步包括：

7.如权利要求6所述的方法，所述方法进一步包括应用限制器，其中，所述一个或多个淡入淡出操作包括淡入和淡出，其中，所述淡入和所述淡出两者都具有等于所述限制器的延迟的持续时间。

8.如权利要求1至7中任一项所述的方法，其中，对所述基于对象的格式的所述音频帧进行解码包括修改与所述基于对象的格式的所述音频帧相关联的对象音频元数据(oamd)。

9.如权利要求8所述的方法，其中，当所述第一帧为所述基于声道的格式且所述第二帧为所述基于对象的格式时，修改与所述基于对象的格式的所述音频帧相关联的所述oamd包括以下中的至少一项：

10.如权利要求8所述的方法，其中，当所述第一帧为所述基于对象的格式且所述第二帧为所述基于声道的格式时，修改与所述基于对象的格式的所述音频帧相关联的所述oamd包括：

11.如权利要求1至10中任一项所述的方法，其中，所述第一音频帧和所述第二音频帧根据自适应流式传输协议来传送。

12.一种电子设备，包括：

13.一种车辆，所述车辆包括如权利要求12所述的电子设备。

14.一种非暂态计算机可读介质，所述非暂态计算机可读介质存储有被配置为由电子设备的一个或多个处理器执行的一个或多个程序，所述一个或多个程序包括用于执行如权利要求1至11中任一项所述的方法的指令。

15.一种计算机程序，所述计算机程序包括用于执行如权利要求1至11中任一项所述的方法的指令。

技术总结本公开涉及一种用于处理基于对象的音频和基于声道的音频的方法和设备。该方法包括接收第一格式的第一音频帧；接收与第一格式不同的第二格式的第二音频帧，第二帧用于在第一帧之后回放；将第一音频帧解码为解码后的第一帧；将第二音频帧解码为解码后的第二帧；以及通过基于解码后的第一帧和解码后的第二帧执行渲染来生成第三格式的多个输出帧。第一格式可以是基于对象的音频格式，并且第二格式是基于声道的音频格式，或是相反情况。技术研发人员：E·鲁宾,K·佩克尔,D·波瓦兹卡受保护的技术使用者：杜比国际公司技术研发日：技术公布日：2024/3/21