技术新讯 > 乐器声学设备的制造及制作,分析技术 > 检测用户生成内容中的环境噪声的制作方法 > 正文

检测用户生成内容中的环境噪声的制作方法

国知局
2024-06-21 11:42:21

本公开涉及音频处理，并且具体地涉及降噪。

背景技术：

1、除非本文另外指示，否则本节中描述的方法不是本申请中的权利要求的现有技术，并且并不由于包含在本节中而被承认是现有技术。

2、多媒体内容包括音频、视频和组合的音频/视频，一直是娱乐领域的重要内容。在这些内容中，以电影和电视节目为代表的专业生成内容(pgc)曾经是多媒体内容的主导形式。然而，近年来，用户生成内容(ugc)急剧增加。这得益于捕获设备、网络平台、和播放侧技术的快速发展。在捕获设备方面，以智能电话和平板计算机为代表的便携式设备已经变得普遍。用户可以使用配备的相机和麦克风单独捕获和创建ugc。另外，如综合视频网站以及不断兴起的移动应用程序等各类平台也极大地加速了ugc的传播。

3、为了提升视觉和听觉体验，已经开发了许多内容播放技术。可以在播放期间应用音频处理技术(比如dolbytm音频处理)来提高音频质量。音频处理系统主要针对的是pgc；然而，ugc的日益普及为将音频处理也应用于ugc提供了机会。

技术实现思路

1、现有音频处理系统存在的一个问题是用于pgc的技术可能与用于ugc的技术不同。与高音频质量的pgc相比，很多ugc的音频质量较低。这可以归因于录音设备不专业、环境复杂、且编辑程序较少。质量问题包括但不限于语音可懂度差、混响度强等。其中最常见的问题之一是ugc中包含的环境噪声，以下称为ugc噪声。在真实场景中，使用移动电话可以轻松捕获ugc噪声。通常，ugc噪声是背景噪声，因此是毫无意义或不需要的。因此，应该防止ugc噪声通过任何音量调节技术得到增强，特别是对于近似稳态噪声而言。这是因为增强这种噪声会被听众明显感知到，从而对用户体验产生负面影响。另一方面，如果音频处理系统知道内容中存在ugc噪声，则可以对ugc噪声应用适当的降噪方法以提高音频质量。

2、然而，pgc也包含近似稳态噪声类内容，以下称为pgc噪声。pgc噪声通常可能包括噪声间隔，比如在电影中相邻对话间隔之间的背景声音间隔。这种pgc噪声通常是使用专业录音设备独立于对话而捕获的，并在内容创建阶段由音频混合器进行仔细处理。与ugc噪声相比，pgc噪声是内容的一部分，并且从艺术家和内容创作者的角度而言通常是需要的。在这种情况下，不应该应用降噪方法，而像音量均衡等技术可以安全地增强pgc噪声。

3、因此，应该以不同的方式处理ugc噪声和pgc噪声。非常期望一种用于检测ugc稳态噪声的同时能将其与pgc噪声区分开的方法。这种方法可以进一步用于引导用于音频内容播放的后处理技术。实施例涉及两级噪声分类系统。

4、根据实施例，一种计算机实施的音频处理方法包括接收音频信号以及使用第一机器学习模型计算音频信号的第一置信度分数。所述方法进一步包括，当第一置信度分数指示存在非噪声时，通过根据第一音频处理过程处理音频信号来生成处理后的音频信号。所述方法进一步包括，当第一置信度分数指示存在噪声时，使用第二机器学习模型计算音频信号的第二置信度分数。所述方法进一步包括，当第二置信度分数指示存在用户生成内容(ugc)噪声时，通过根据第二音频处理过程处理音频信号来生成处理后的音频信号。所述方法进一步包括，当第二置信度分数指示存在专业生成内容(pgc)噪声时，通过根据第一音频处理过程处理音频信号来生成处理后的音频信号。

5、计算第一置信度分数可以包括：从音频信号中提取第一多个特征；使用第一机器学习模型对第一多个特征进行分类；基于第一多个特征的分类结果来计算噪声置信度分数；以及基于所述噪声置信度分数计算权重。

6、计算第二置信度分数可以包括从音频信号中提取第二多个特征，其中，所述第二多个特征的提取时间长于所述第一多个特征的提取时间；基于第二多个特征计算第二多个统计量，其中，根据权重对第二多个统计量进行加权；使用第二机器学习模型对第二多个特征和第二多个统计量进行分类；以及基于第二多个特征和第二多个统计量的分类结果来计算第二置信度分数。

7、根据另一实施例，一种装置包括扩音器和处理器。所述处理器被配置为控制所述装置以实施本文所描述的方法中的一种或多种方法。所述装置可以另外包括与本文所描述的方法中的一种或多种方法的细节类似的细节。

8、根据另一个实施例，一种非暂态计算机可读介质存储计算机程序，所述计算机程序在由处理器执行时控制装置以执行包括本文所描述的方法中的一种或多种方法的处理。

9、以下详细描述和附图提供了对各个实施方式的性质和优点的进一步理解。

技术特征：

1.一种计算机实施的音频处理方法，所述方法包括：

2.如权利要求1所述的计算机实施的方法，进一步包括：

3.如权利要求1至2中任一项所述的计算机实施的方法，其中，所述音频信号包括多个样本，其中，所述多个样本被布置为多个帧；

4.如权利要求1至3中任一项所述的计算机实施的方法，其中，所述第一音频处理过程包括除降噪之外的音频处理；并且

5.如权利要求1至4中任一项所述的计算机实施的方法，其中，所述第一类型的噪声对应于用户生成内容(ugc)噪声，其中，所述第二类型的噪声对应于专业生成内容(pgc)噪声，其中，pgc是已被专业创建的音频内容，并且其中，ugc是已被非专业创建的音频内容。

6.如权利要求1至5中任一项所述的计算机实施的方法，

7.如权利要求1至6中任一项所述的计算机实施的方法，其中，计算所述第一置信度分数包括：

8.如权利要求7所述的计算机实施的方法，其中，从包括当前帧和多个历史帧的短片段中提取第一多个特征，其中，所述当前帧的噪声置信度分数是将所述短片段中的所述第一多个特征输入到所述第一机器学习模型中得出的。

9.如权利要求7至8中任一项所述的计算机实施的方法，所述方法进一步包括：

10.如权利要求7至9中任一项所述的计算机实施的方法，其中，计算所述噪声置信度分数包括：

11.如权利要求7至10中任一项所述的计算机实施的方法，其中，计算所述第一置信度分数进一步包括：

12.如权利要求11所述的计算机实施的方法，其中，所述噪声置信度分数和所述平均均方根增益与所述音频信号的当前帧相关联，其中，计算所述平均均方根增益包括：

13.如权利要求7至12中任一项所述的计算机实施的方法，其中，所述第一多个特征包括多个时间特征、多个频谱特征、多个时间-频率特征和第一多个统计量中的一种或多种，和/或

14.如权利要求7至13中任一项所述的计算机实施的方法，进一步包括基于所述噪声置信度分数计算权重，其中，计算所述第二置信度分数包括：

15.如权利要求14所述的计算机实施的方法，其中，所述第一多个特征是从所述音频信号的短片段中的第一多个帧中提取的，并且其中，所述第二多个特征是从所述音频信号的片段中的第二多个帧中提取的。

16.如权利要求14至15中任一项所述的计算机实施的方法，其中，所述权重是所述当前帧的帧权重，其中，计算所述帧权重包括：

17.如权利要求14至16中任一项所述的计算机实施的方法，其中，所述音频信号包括片段，其中，所述片段包括多个帧，其中，所述第二多个特征包括多个帧特征和多个统计量，其中，所述多个帧特征是逐帧提取的，并且其中，所述多个统计量是基于所述多个帧特征逐片段计算的。

18.如权利要求1至17中任一项所述的计算机实施的方法，其中，所述第二机器学习模型使用正训练数据和负训练数据进行离线训练，

19.一种非暂态计算机可读介质，所述非暂态计算机可读介质存储计算机程序，所述计算机程序在由处理器执行时控制装置执行包括如权利要求1至18中任一项所述的方法的处理。

20.一种用于音频处理的装置，所述装置包括：

技术总结一种音频处理方法包括使用第一模型将音频信号分类为噪声或非噪声。对于噪声信号，使用第二模型将音频信号分类为用户生成内容(UGC)噪声或专业生成内容(PGC)噪声。对于非噪声信号或PGC噪声，使用第一音频处理过程来处理音频信号。对于UGC噪声，使用第二音频处理过程来处理音频信号。技术研发人员：杨子瑜,双志伟,芦烈受保护的技术使用者：杜比实验室特许公司技术研发日：技术公布日：2024/4/17