技术新讯 > 乐器声学设备的制造及制作,分析技术 > 音频检测方法、装置、介质、计算设备及程序产品与流程 > 正文

音频检测方法、装置、介质、计算设备及程序产品与流程

国知局
2024-06-21 11:55:33

本公开的实施方式涉及人工智能，更具体地，本公开的实施方式涉及一种音频检测方法、装置、介质、计算设备及程序产品。

背景技术：

1、本部分旨在为本公开的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。

2、音乐创作可以包括作曲、编曲、配乐等领域，音乐创作通常需要具备一定的乐理和乐器知识，门槛较高。随着ai(artificial intelligence，人工智能)技术的发展，可以通过ai来辅助甚至直接进行音乐创作，以生成音频。

3、然而，通过ai虽然可以快速获得音频，但音频的质量却无法把控，只能通过人工检测音频是否符合预期。随着音频数量的增多，人工检测音频耗时耗力，效率低下，且容易出现错漏。

技术实现思路

1、本公开提供一种音频检测方法、装置、介质、计算设备及程序产品，以解决音频检测效率低下的问题。

2、在本公开实施方式的第一方面中，提供了一种音频检测方法，包括：

3、获取待检测音频；

4、对所述待检测音频进行特征提取，获得所述待检测音频的第一特征；

5、若所述第一特征和基准音频的第二特征的相似度大于或等于相似度阈值，得到第一检测结果，所述第一检测结果表示所述待检测音频通过音频检测，所述基准音频和所述待检测音频是通过人工智能模型基于同一输入条件生成的；

6、若所述第一特征和所述第二特征的相似度小于所述相似度阈值，得到第二检测结果，所述第二检测结果表示所述待检测音频未通过音频检测。

7、在本公开的一个实施例中，所述对所述待检测音频进行特征提取，获得所述待检测音频的第一特征，包括：

8、将所述待检测音频输入至特征提取模型进行特征提取，获得所述待检测音频的第一特征，其中，所述特征提取模型是通过迁移学习进行模型训练得到的。

9、在本公开的另一实施例中，所述特征提取模型是通过以下方式构建的：

10、获取音效分类模型，所述音效分类模型包含骨干网络和用作分类器的全连接层；

11、去除所述音效分类模型包含的全连接层，得到特征提取模型。

12、在本公开的又一个实施例中，所述获取音效分类模型，包括：

13、获取预训练模型，所述预训练模型是基于第一数据集训练得到的分类模型，所述第一数据集包括第一音频样本；

14、基于第二数据集对所述预训练模型进行调整，获得音效分类模型，所述第二数据集包括第二音频样本。

15、在本公开的又一个实施例中，所述预训练模型包括骨干网络和用作分类器的全连接层，所述第二音频样本预先标注有音效类别，所述基于第二数据集对所述预训练模型进行调整，获得音效分类模型，包括：

16、调整所述预训练模型的全连接层的节点数，以使所述节点数与所述第二数据集中音效类别的数量相同；

17、将所述第二音频样本输入调整节点数后的预训练模型，获取所述预训练模型输出的分类结果；

18、根据所述第二音频样本标注的音效类别和所述分类结果，调整所述预训练模型的参数，以得到音效分类模型。

19、在本公开的又一个实施例中，在将所述第二音频样本输入调整节点数后的预训练模型之前，还包括：

20、针对所述第二数据集中的第二音频样本进行数据增强，所述数据增强包括音频随机裁剪拼接和/或音频混合。

21、在本公开的又一个实施例中，所述相似度阈值通过以下方式获得：

22、获取第三数据集，所述第三数据集包括正样本和负样本，所述正样本是与所述基准音频属于同一音效类别的音频，所述负样本是与所述基准音频属于不同音效类别的音频；

23、基于初始阈值，分别预测所述正样本的识别准确率和所述负样本的识别准确率；

24、根据所述正样本的识别准确率和所述负样本的识别准确率，调整所述初始阈值以得到相似度阈值。

25、在本公开的又一个实施例中，所述基于初始阈值，分别预测所述正样本的识别准确率和所述负样本的识别准确率，包括：

26、计算所述正样本与所述基准音频的第一相似度，并根据所述第一相似度大于所述初始阈值的正样本计算所述正样本的识别准确率；

27、计算所述负样本与所述基准音频的第二相似度，并根据所述第二相似度小于所述初始阈值的负样本计算所述负样本的识别准确率。

28、在本公开的又一个实施例中，所述根据所述正样本的识别准确率和所述负样本的识别准确率，调整所述初始阈值以得到相似度阈值，包括：

29、根据所述正样本的识别准确率和所述负样本的识别准确率建立目标函数，所述目标函数的自变量为所述初始阈值；

30、调整所述初始阈值以得到对应的所述目标函数的值；

31、选取所述目标函数的最大值对应的初始阈值为相似度阈值。

32、在本公开实施方式的第二方面中，提供了一种音频检测装置，包括：

33、获取模块，用于获取待检测音频；

34、特征提取模块，用于对所述待检测音频进行特征提取，获得所述待检测音频的第一特征；

35、第一检测模块，用于在所述第一特征和基准音频的第二特征的相似度大于或等于相似度阈值的情况下，得到第一检测结果，所述第一检测结果表示所述待检测音频通过音频检测，所述基准音频和所述待检测音频是通过人工智能模型基于同一输入条件生成的；

36、第二检测模块，用于在所述第一特征和所述第二特征的相似度小于所述相似度阈值的情况下，输出第二检测结果，所述第二检测结果表示所述待检测音频未通过音频检测。

37、在本公开实施方式的第三方面中，提供了一种计算机可读存储介质，该计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现如第一方面中任一项所述的方法。

38、在本公开实施方式的第四方面中，提供了一种计算设备，包括：至少一个处理器；

39、以及与所述至少一个处理器通信连接的存储器；

40、其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述计算设备执行如第一方面中任一项所述的方法。

41、在本公开实施方式的第五方面中，提供了一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如第一方面任一项所述的方法。

42、根据本公开实施方式的音频检测方法、装置、介质、计算设备及程序产品，通过提取待检测音频的第一特征，并获取该第一特征与基准音频的第二特征之间的相似度，可以根据该相似度是否达到预设的相似度阈值来判定待检测音频是否通过音频检测。本公开实施方式的音频检测方法，可以将对待检测音频的音频检测转换为待检测音频的特征与基准音频的特征之间的相似度比对，从而无需人工一一听取待检测音频，可以加快音频检测速度，提高音频检测效率。

技术特征：

1.一种音频检测方法，其特征在于，包括：

2.根据权利要求1所述的音频检测方法，其特征在于，所述对所述待检测音频进行特征提取，获得所述待检测音频的第一特征，包括：

3.根据权利要求2所述的音频检测方法，其特征在于，所述特征提取模型是通过以下方式构建的：

4.根据权利要求3所述的音频检测方法，其特征在于，所述获取音效分类模型，包括：

5.根据权利要求4所述的音频检测方法，其特征在于，所述预训练模型包括骨干网络和用作分类器的全连接层，所述第二音频样本预先标注有音效类别，所述基于第二数据集对所述预训练模型进行调整，获得音效分类模型，包括：

6.根据权利要求5所述的音频检测方法，其特征在于，在将所述第二音频样本输入调整节点数后的预训练模型之前，还包括：

7.一种音频检测装置，其特征在于，包括：

8.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机执行指令，当处理器执行所述计算机执行指令时，实现如权利要求1至6中任一项所述的方法。

9.一种计算设备，其特征在于，包括：

10.一种计算机程序产品，包括计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1至6中任一项所述的方法。

技术总结本公开的实施方式提供了一种音频检测方法、装置、介质及计算设备，涉及人工智能技术领域。该音频检测方法包括：获取待检测音频，并提取待检测音频的第一特征，获取该第一特征与基准音频的第二特征之间的相似度，可以根据该相似度是否达到预设的相似度阈值来判定待检测音频是否通过音频检测。本公开实施方式的音频检测方法，可以将对待检测音频的音频检测转换为待检测音频的特征与基准音频的特征之间的相似度比对，从而无需人工一一听取待检测音频，可以加快音频检测速度，提高音频检测效率。技术研发人员：张卓,王晓坤,陈锦海受保护的技术使用者：杭州网易云音乐科技有限公司技术研发日：技术公布日：2024/6/2