技术新讯 > 乐器声学设备的制造及制作,分析技术 > 对于专业生成和用户生成的音频内容的管理的制作方法 > 正文

对于专业生成和用户生成的音频内容的管理的制作方法

国知局
2024-06-21 11:53:44

本申请涉及音频处理和回放。

背景技术：

1、本节中描述的方法是可以寻求的方法，但不一定是先前已经被想到或寻求的方法。因此，除非另有说明，否则不应假定本节中描述的任何方法仅仅由于它们包含在本节中而被认为是现有技术。

2、技术进步使得制作和共享数字媒体内容变得更加容易。因此，可供消费的数字媒体内容的数量和种类不断增长，从传统的电视节目、电影和音乐到现代的视频博客、播客和有声读物。如今，专业生成内容(pgc)和用户生成内容(ugc)对应于制作数字媒体内容的两种类别，都可在社交媒体平台上广泛使用。pgc是指首先在录音室通过专业设备录制并由专业工程师或艺术家进行后期制作的数字媒体内容。ugc是指在非专业环境(例如家庭或办公室)中、常常使用平板电脑、智能手机或笔记本电脑等用户设备录制的数字媒体内容。下面的讨论将集中于数字音频内容。

3、数字音频内容的生成方式直接影响数字音频内容应如何处理以便回放。为了正确传达制作过程中创建的声音效果，pgc在传送到输出设备(例如扬声器或耳机)之前，需要经过精心设计的信号处理链进行处理。例如，这样的信号处理链可以包括虚拟器、对话增强器、音量调节器或均衡器。另一方面，ugc经常由于以下原因而出现质量问题：录音环境中可能存在的噪音或混响、或录音设备的限制，这些问题在任何后期制作中都无法解决。因此，ugc通常需要经过增强以修复缺陷，然后才能交付到输出设备进行消费。有时，使用用户设备或在非专业环境中生成的数字音频内容也通过使用音频编辑或混合工具进行后期制作。出于确定在回放之前如何处理数字音频内容的目的，这样的数字音频内容可以被认为是pgc。

4、由于数字音频内容通常被提交到社交媒体平台，而没有附带关于数字音频内容被如何制作的信息，因此，有益的是，确定这样的数字音频内容是pgc还是ugc，以便向用户提供最佳回放体验。

技术实现思路

1、公开了一种将音频分类为ugc和pgc的计算机实现的方法。该方法包括通过处理器接收在多个帧和多个频带上的时频表示中的具有两个通道的数字音频内容。该方法还包括通过处理器对于多个帧的至少子集中的每个帧和多个频带中的每个频带计算对应的空间指标集合的相应的值集合以获得每个频带的值集合，该空间指标集合被应用于该两个通道并且包括耳间电平差(ild)、耳间相位差(ipd)或耳间相干性(ic)中的至少一者。另外，该方法包括根据多个频带中的每个频带的该值集合来计算统计特征的集合，该统计特征的集合包括关于多个频带中的仅一个频带的第一统计特征、以及多个频带中的数个频带上的第二统计特征。该方法还包括以该统计特征集合作为输入数据以及以数字音频内容是ugc还是pgc的指示作为输出数据来执行分类模型；并传输输出数据。

2、本说明书中描述的技术可以优于传统的音频处理技术。例如，该方法通过基于音频制作条件识别适当的处理管线而能够实现有效的音频回放。该方法通过考虑不同类型的音频特征来提供分类准确性，这些特征捕获了各种音频域中ugc和pgc之间的差异。具体来说，空间特征的考虑与双通道回放体验直接相关。

技术特征：

1.一种将音频分类为用户生成内容(ugc)或专业生成内容(pgc)的计算机实现的方法，包括：

2.根据权利要求1所述的计算机实现的方法，还包括：

3.根据权利要求1或2所述的计算机实现的方法，所述计算包括将覆盖当前帧的移动窗口应用到所述数字音频内容并且计算所述移动窗口覆盖的所有帧上的所述空间指标集的所述值集合。

4.根据权利要求1-3中任一项所述的计算机实现的方法，所述第一统计特征是对于所述空间指标集中的每个空间指标的帧子集上的空间指标的值的均值或方差。

5.根据权利要求1-4中任一项所述的计算机实现的方法，所述第二统计特征是比率，其中比率的分子与对于多个频带中的最低频带子集中的每个频带最频繁出现的空间指标的值有关，并且比率的分母与对于多个频带中的最高频带子集中的每个频带或者对于多个频带中的每个频带最频繁地出现的空间指标的值有关。

6.根据权利要求1-5中任一项所述的计算机实现的方法，所述执行包括将所述第一统计特征、与所述第一统计特征相关联的所述一个频带的索引、以及所述第二统计特征合并到特征向量中。

7.根据权利要求1-6中任一项所述的计算机实现的方法，还包括：

8.根据权利要求7所述的计算机实现的方法，还包括：

9.根据权利要求7所述的计算机实现的方法，还包括：

10.根据权利要求7所述的计算机实现的方法，还包括：

11.根据权利要求1-10中任一项所述的计算机实现的方法，还包括：

12.根据权利要求1-11中任一项所述的计算机实现的方法，所述分类模型是高斯混合模型、自适应增强算法、支持向量机或深度神经网络。

13.一种存储指令的非暂时性计算机可读介质，所述指令在由一个或多个处理器执行时使所述一个或多个处理器执行权利要求1-12中任一项所述的方法。

14.一种用于将音频分类为用户生成内容(ugc)或专业生成内容(pgc)的计算机系统，包括：

15.根据权利要求14所述的计算机系统，所述一个或多个处理器还被配置为执行所述分类模型的发送。

16.根据权利要求14或15所述的计算机系统，所述计算包括将覆盖当前帧的移动窗口应用到片段并且计算所述移动窗口覆盖的所有帧上的所述空间指标集的所述值集合。

17.根据权利要求14-16中任一项所述的计算机系统，所述一个或多个处理器还被配置为执行：

18.根据权利要求17所述的计算机系统，所述一个或多个处理器还被配置为执行：

19.根据权利要求17所述的计算机系统，所述一个或多个处理器还被配置为执行：

20.根据权利要求17所述的计算机系统，所述一个或多个处理器还被配置为执行：

技术总结公开了一种用于管理用户生成内容(UGC)和专业生成内容(PGC)的系统。该系统被编程为接收来自社交媒体平台的具有两个通道的数字音频数据。该系统被编程为从数字音频数据提取空间特征，该空间特征捕获该两个通道中的差异。该系统还被编程为从数字音频数据中提取时间特征、频谱特征和背景特征。然后，系统被编程为使用所提取的特征来确定在播放之前是将数字音频数据作为UGC还是PGC处理。技术研发人员：杨少凡,李凯受保护的技术使用者：杜比实验室特许公司技术研发日：技术公布日：2024/5/27