技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种音频事件检测模型生成方法、装置、设备及存储介质与流程 > 正文

一种音频事件检测模型生成方法、装置、设备及存储介质与流程

国知局
2024-06-21 11:40:58

本技术涉及音频事件检测，尤其涉及一种音频事件检测模型生成方法、装置、设备及存储介质。

背景技术：

1、近几年，随着声学技术在不断发展，音频事件检测技术在机器人技术、智能家居、医疗保健以及基于音频的索引和检索等领域有着广泛的应用。音频事件检测是从连续音频数据当中检测是否发生了某类事件，这些事件可能包括噪音、哭声等。

2、音频事件检测模型离不开数量庞大、质量可靠及标签完善的音频数据集的支持，且部分音频事件类别较为罕见，比如枪声数据。在实际场景中，对真实的枪声数据进行大量采集、解析、处理等，较为困难且成本较高，进而导致音频事件检测模型的训练更加困难，泛化性能较差。

技术实现思路

1、本技术提供了一种音频事件检测模型生成方法、装置、设备及存储介质，用以提高音频事件检测模型的泛化性和检测性能。

2、第一方面，提供一种音频事件检测模型生成方法，包括：

3、对获取到的n个原始音频数据进行标注，得到标注后的n个目标音频数据，以及所述n个目标音频数据各自的标签信息，所述n为大于1的整数；

4、对所述n个目标音频数据进行特征提取，得到所述n个目标音频数据的第一特征向量数据；

5、基于扩散模型以及设定的增强模式，对所述第一特征向量数据进行特征增强，得到增强后的特征向量数据；

6、对所述增强后的特征向量数据进行筛选，得到符合筛选要求的目标特征向量数据；

7、根据所述n个目标音频数据各自的标签信息、所述第一特征向量数据，以及所述目标特征向量数据，生成音频事件检测模型。

8、本技术实施例中，技术效果如下：

9、由于经过对原始音频数据的标注，以及对目标音频数据的提特征提取后，可将上述的音频数据进行标记，并将音频数据从时域信号转化为方便处理的第一特征向量数据，更加适合后续音频事件检测模型的构建；再由于基于扩散模型以及设定的增强模式，对该第一特征向量数据进行特征增强，因此增加了第一特征向量数据的多样性，针对稀缺的音频数据也无需进行大量采集，也节约了音频事件检测模型的构建成本；再由于针对增强后的特征向量数据进行筛选，因此可保证特征向量数据的质量，也保证了后续生成的音频事件检测模型具有较好的泛化性和检测性能。

10、在一种可能实现的方式中，所述基于扩散模型以及设定的增强模式，对所述第一特征向量数据进行特征增强，得到增强后的特征向量数据，包括：

11、当所述设定的增强模式为在线模式时，将所述第一特征向量数据编码成第一低维数据，并在所述扩散模型中加入第一随机噪声，根据所述第一随机噪声对所述第一低维数据进行扩散，得到扩散后的第一低维数据；

12、对所述扩散后的第一低维数据进行逆扩散，得到逆扩散后的第一低维数据，以及第二随机噪声；

13、根据所述第一随机噪声、所述第二随机噪声、所述逆扩散后的第一低维数据、所述扩散后的第一低维数据、以及获取到的第一音频文本数据，计算所述扩散模型的第一损失函数；

14、根据所述第一损失函数确定增强后的第二特征向量数据。

15、通过上述方式，基于扩散模型来增加该特征向量数据的数量和多样性，且相较于对抗神经网络，该扩散模型更具稳定性。

16、在一种可能实现的方式中，对所述增强后的特征向量数据进行筛选，包括：

17、当所述第一损失函数满足第一损失函数阈值时，根据约束函数，对所述第二特征向量数据进行筛选；其中，所述约束函数满足以下表达式：

18、所述γ表征设定的上限比例，所述es表征在得到所述第一损失函数时，所述扩散模型所经历过的训练轮次，所述β表征设定的训练轮次，所述λ表征在所述es之后，每隔所述β个训练轮次调整一次设定的第一比例。

19、通过上述方式，由于在线模式下，扩散模型在训练过程中是不断优化的，产生的第二特征向量数据质量也是从差到强，因此在筛选的过程中，可基于损失函数的比较，对扩散模型增强后的第二特征向量数据进行筛选和控制，可控制后续用于训练音频检测事件模型的特征向量数据的数量，还可避免生成低质量的特征向量数据对模型训练产生不好的影响，从而有助于提高音频检测事件模型的检测性能和泛化性。

20、在一种可能实现的方式中，所述基于扩散模型以及设定的增强模式，对所述第一特征向量数据进行特征增强，得到增强后的特征向量数据，包括：

21、当所述设定的增强模式为离线模式时，将获取到的第三随机噪声和/或第二音频文本数据、所述第一特征向量数据输入到所述扩散模型中，输出得到增强后的第三特征向量数据。

22、通过上述方式，基于扩散模型来增加该特征向量数据的数量和多样性，且相较于对抗神经网络，该扩散模型更具稳定性。

23、在一种可能实现的方式，所述对所述增强后的特征向量数据进行筛选，包括以下任意一种方式：

24、根据设定的第二比例，对所述第三特征向量数据进行筛选；

25、根据预训练模型，对所述第三特征向量数据进行筛选；其中，所述预训练模型用于识别所述第三特征向量数据中各特征向量数据各自的类别。

26、通过上述方式，由于离线模式下，扩散模型中的生成网络单元不再参与训练，输出的第三特征向量数据相对稳定，因此在筛选过程中，可通过指定的比例进行筛选，或通过预训练模型进行筛选，可控制后续用于训练音频检测事件模型的特征向量数据的质量与数量，且相比在线模式，提高了数据处理的效率，减少资源的消耗。

27、在一种可能实现的方式中，所述将根据所述n个目标音频数据各自的标签信息、所述第一特征向量数据，以及所述目标特征向量数据，生成音频事件检测模型，包括：

28、对所述n个目标音频数据各自的标签信息、所述第一特征向量数据、所述目标特征向量数据进行迭代训练；

29、当满足设定的迭代训练结束条件时，训练得到所述音频事件检测模型；其中，所述迭代训练结束条件包括迭代训练次数达到设定次数阈值、迭代训练后所产生的第二损失函数小于设定的第二损失函数阈值中至少一种。

30、在一种可能实现的方式中，所述生成音频事件检测模型之后，还包括：

31、将待检测的音频事件输入到所述音频事件检测模型中，输出得到所述音频事件的检测结果，所述检测结果包括发生所述音频事件的概率值；

32、若所述音频事件的概率值满足设定的概率阈值，则输出所述用于提示发生所述音频事件的提示信息。

33、通过上述方式，基于设定的概率阈值，进一步对音频事件检测模型进行了优化。

34、第二方面，提供一种音频事件检测模型生成装置，包括：

35、标注模块，于对获取到的n个原始音频数据进行标注，得到标注后的n个目标音频数据，以及所述n个目标音频数据各自的标签信息，所述n为大于1的整数；

36、特征提取模块，用于对所述n个目标音频数据进行特征提取，得到所述n个目标音频数据的第一特征向量数据；

37、特征增强模块，用于基于扩散模型以及设定的增强模式，对所述第一特征向量数据进行特征增强，得到增强后的特征向量数据；

38、筛选模块，用于对所述增强后的特征向量数据进行筛选，得到符合筛选要求的目标特征向量数据；

39、模型训练模块，用于根据所述n个目标音频数据各自的标签信息、所述第一特征向量数据，以及所述目标特征向量数据，生成音频事件检测模型。

40、在一种可能实现的方式中，所述特征增强模块，具体用于：

41、当所述设定的增强模式为在线模式时，将所述第一特征向量数据编码成第一低维数据，并在所述扩散模型中加入第一随机噪声，根据所述第一随机噪声对所述第一低维数据进行扩散，得到扩散后的第一低维数据；

42、对所述扩散后的第一低维数据进行逆扩散，得到逆扩散后的第一低维数据，以及第二随机噪声；

43、根据所述第一随机噪声、所述第二随机噪声、所述逆扩散后的第一低维数据、所述扩散后的第一低维数据、以及获取到的第一音频文本数据，计算所述扩散模型的第一损失函数；

44、根据所述第一损失函数确定增强后的第二特征向量数据。

45、在一种可能实现的方式中，所述筛选模块，具体用于：

46、当所述第一损失函数满足第一损失函数阈值时，根据约束函数，对所述第二特征向量数据进行筛选；其中，所述约束函数满足以下表达式：

47、所述γ表征设定的上限比例，所述es表征在得到所述第一损失函数时，所述扩散模型所经历过的训练轮次，所述β表征设定的训练轮次，所述λ表征在所述es之后，每隔所述β个训练轮次调整一次设定的第一比例。

48、在一种可能实现的方式中，所述特征增强模块，具体用于：

49、当所述设定的增强模式为离线模式时，将获取到的第三随机噪声和/或第二音频文本数据、所述第一特征向量数据输入到所述扩散模型中，输出得到增强后的第三特征向量数据。

50、在一种可能实现的方式中，所述筛选模块，具体用于以下至少一种方式：

51、根据设定的第二比例，对所述第三特征向量数据进行筛选；

52、根据预训练模型，对所述第三特征向量数据进行筛选；其中，所述预训练模型用于识别所述第三特征向量数据中各特征向量数据各自的类别。

53、在一种可能实现的方式中，所述特征提取模块，具体用于：

54、基于至少一种音频特征提取方法，对所述n个目标音频数据进行特征提取；其中，所述音频特征提取方法中包括对数梅尔谱、梅尔倒谱系数、感知线性预测、通道能量归一化特征、神经网络。

55、在一种可能实现的方式中，所述模型训练模块，具体用于：

56、对所述n个目标音频数据各自的标签信息、所述第一特征向量数据、所述目标特征向量数据进行迭代训练；

57、当满足设定的迭代训练结束条件时，训练得到所述音频事件检测模型；其中，所述迭代训练结束条件包括迭代训练次数达到设定次数阈值、迭代训练后所产生的第二损失函数小于设定的第二损失函数阈值中至少一种。

58、在一种可能实现的方式中，所述装置还包括音频检测模块；

59、所述音频检测模块，用于将待检测的音频事件输入到所述音频事件检测模型中，输出得到所述音频事件的检测结果，所述检测结果包括发生所述音频事件的概率值；

60、若所述音频事件的概率值满足设定的概率阈值，则输出所述用于提示发生所述音频事件的提示信息。

61、第三方面，提供一种电子设备，包括：

62、存储器，用于存放计算机程序；处理器，用于执行所述存储器上所存放的计算机程序时，实现第一方面中任一项所述的方法步骤。

63、第四方面，提供一种计算机可读存储介质，所述计算机可读存储介质内存储有计算机程序，所述计算机程序被处理器执行时实现第一方面中任一项所述的方法步骤。

64、上述第二方面至第四方面中的各个方面以及各个方面可能达到的技术效果请参照上述针对第一方面或第一方面中的各种可能方案可以达到的技术效果说明，这里不再重复赘述。

标签：装置模型音频技术资料下载

本文地址：https://www.jishuxx.com/zhuanli/20240618/22874.html

上一篇
语音合成方法及装置、电子设备和存储介质与流程

下一篇
返回列表

一种音频事件检测模型生成方法、装置、设备及存储介质与流程

相关技术

最新技术

技术分类