技术新讯 > 乐器声学设备的制造及制作,分析技术 > 音频处理方法、装置、设备及存储介质与流程 > 正文

音频处理方法、装置、设备及存储介质与流程

国知局
2024-06-21 11:42:01

本申请涉及人工智能领域，特别涉及一种音频处理方法、装置、设备及存储介质。

背景技术：

1、在对音频进行处理时，通常需要对音频的内容进行识别，判断该音频是否属于广告。

2、相关技术中，在对音频的内容进行识别时，通常会对已知音频的广告部分提取特征，并建立音频广告特征库。对于未知音频，同样将未知音频中的广告部分进行特征提取，并将其与音频广告特征库中的特征进行匹配检索，如果匹配成功，则认定该未知音频为广告。

3、然而，这种特征匹配的方法对音频广告特征库依赖性高，如果音频广告特征库较小或者更新不及时，就无法监测到新的未知音频是否属于广告，会存在漏检的情况。因此，如何对音频进行高效准确的识别和判断，是目前亟需解决的问题。

技术实现思路

1、本申请提供了一种音频处理方法、装置、设备及存储介质，所述技术方案如下：

2、根据本申请的一方面，提供了一种音频处理方法，所述方法包括：

3、获取音频中待预测的人声片段；

4、对所述待预测的人声片段进行识别，得到文本识别内容，所述文本识别内容是所述待预测的人声片段对应的文本内容；

5、对所述文本识别内容进行检测，得到所述文本识别内容的检测结果。

6、根据本申请的另一方面，提供了一种音频处理装置，所述装置包括：

7、获取模块，用于获取音频中待预测的人声片段；

8、识别模块，用于对所述待预测的人声片段进行识别，得到文本识别内容，所述文本识别内容是所述待预测的人声片段对应的文本内容；

9、检测模块，用于对所述文本识别内容进行检测，得到所述文本识别内容的检测结果。

10、根据本申请的一方面，提供了一种音频处理方法，所述方法包括：将所述音频分为多个片段，所述多个片段包括所述语音片段和非语音片段；基于所述神经网络模型标记出所述多个片段中的语音片段，输出所述语音片段。

11、根据本申请的一方面，提供了一种音频处理方法，所述方法包括：将所述语音片段输入所述人声分离模型，所述语音片段包括所述人声片段和背景扰动音片段，所述背景扰动音片段是所述语音片段中除所述人声片段外的其他片段；基于所述人声分离模型将所述人声片段和所述背景扰动音片段进行分离，输出所述待预测的人声片段。

12、根据本申请的一方面，提供了一种计算机设备，所述计算机设备包括：处理器和存储器，所述存储器中存储有至少一段程序；所述处理器，用于执行所述存储器中的所述至少一段程序以实现上述音频处理方法。

13、根据本申请的一方面，提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有可执行指令，所述可执行指令由处理器加载并执行以实现上述音频处理方法。

14、根据本申请的一方面，提供了一种计算机程序产品，所述计算机程序产品包括计算机指令，所述计算机指令存储在计算机可读存储介质中，处理器从所述计算机可读存储介质读取并执行所述计算机指令，以实现上述音频处理方法。

15、本申请提供的技术方案带来的有益效果至少包括：

16、通过对音频中待预测的人声片段进行识别，可以得到文本识别内容，文本识别内容是待预测的人声片段对应的文本内容，对文本识别内容进行检测，可以得到文本识别内容的检测结果。通过获取音频中的人声片段，可以有针对性的对音频进行审核，通过对人声片段进行识别，可以将语音内容转换为文本形式，对转为文本形式的文本识别内容进行检测，可以直接得到该音频的检测结果。这种对音频的检测方式不需要在有限的音频广告特征库中进行匹配检索，同时不需要人工进行审核，节省了人工时间和成本，提高了音频检测的准确性和效率。

技术特征：

1.一种音频处理方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述对所述待预测的人声片段进行识别，得到文本识别内容，包括：

3.根据权利要求2所述的方法，其特征在于，所述基于所述语音识别模型对所述待预测的人声片段进行识别，得到所述文本识别内容，包括：

4.根据权利要求1至3任一所述的方法，其特征在于，所述对所述文本识别内容进行检测，得到所述文本识别内容的检测结果，包括：

5.根据权利要求4所述的方法，其特征在于，所述基于所述大型语言模型对所述文本识别内容进行检测，得到所述文本识别内容的检测结果，包括：

6.根据权利要求1至5任一所述的方法，其特征在于，所述方法还包括：

7.根据权利要求6所述的方法，其特征在于，所述将所述第一数据样本输入通用语音识别模型进行训练，得到所述语音识别模型，包括：

8.根据权利要求6所述的方法，其特征在于，所述第二数据样本包括第一字段和第二字段；

9.根据权利要求1至8任一所述的方法，其特征在于，所述获取音频中待预测的人声片段，包括：

10.一种音频处理装置，其特征在于，所述装置包括：

11.一种计算机设备，其特征在于，所述计算机设备包括：处理器和存储器，所述存储器中存储有至少一段程序；所述处理器，用于执行所述存储器中的所述至少一段程序以实现上述如权利要求1至9任一所述的音频处理方法。

12.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有可执行指令，所述可执行指令由处理器加载并执行以实现上述如权利要求1至9任一所述的音频处理方法。

13.一种计算机程序产品，其特征在于，所述计算机程序产品包括计算机指令，所述计算机指令存储在计算机可读存储介质中，处理器从所述计算机可读存储介质读取并执行所述计算机指令，以实现上述如权利要求1至9任一所述的音频处理方法。

技术总结本申请公开了一种音频处理方法、装置、设备及存储介质，属于人工智能领域。该方法包括：获取音频中待预测的人声片段；对所述待预测的人声片段进行识别，得到文本识别内容，所述文本识别内容是所述待预测的人声片段对应的文本内容；对所述文本识别内容进行检测，得到所述文本识别内容的检测结果。本申请中，通过获取音频中的待预测人声片段，可以有针对性的对音频进行审核，通过对人声片段进行识别，可以将语音内容转换为文本形式，对转为文本形式的文本识别内容进行检测，可以直接得到该音频的检测结果，提高了音频检测的准确性和效率。技术研发人员：轩晓光,劳振锋,陈传艺,黄杰雄受保护的技术使用者：广州酷狗计算机科技有限公司技术研发日：技术公布日：2024/4/8