技术新讯 > 乐器声学设备的制造及制作,分析技术 > 音频检测模型的训练方法、音频检测方法以及相关装置与流程 > 正文

音频检测模型的训练方法、音频检测方法以及相关装置与流程

国知局
2024-06-21 11:54:53

本技术涉及音频检测，特别是涉及音频检测模型的训练方法、音频检测方法以及相关装置。

背景技术：

1、音频检测任务是一种音频处理技术，用于识别和检测音频信号中的特定事件或目标，可以是简单的声音，如拍手声、敲门声、尖叫声等，或更复杂的声音，如音乐片段、说话声或环境声音等。音频事件检测在许多领域都有广泛的作用，如音频监控、智能家居、生物声学研究等。

2、当前音频检测以深度学习技术为主要解决方法，即模型通过大量数据来学习各种音频的特征。音频检测训练数据需要标注出音频的起止时间，数据标注耗费大量人力，因而当前高质量的标注数据集较少，数据集的不足限制了模型的性能。并且，实际应用场景中的音频信号可能具有各种变化，如背景噪声、混响、音调变化等，这又需要模型在各种位置场景下具有良好的泛化能力。因此，如何在小数据集上训练出泛化能力足够强的音频检测模型具有重要意义。

技术实现思路

1、本技术提供的音频检测模型的训练方法、音频检测方法以及相关装置，能够提升目标音频检测模型的检测准确性。

2、为解决上述技术问题，本技术采用的一个技术方案是：提供一种音频检测模型的训练方法，该方法包括：获取音频训练数据；音频训练数据对应有真实标签；将音频训练数据输入至第一音频检测模型，得到第一音频检测结果；其中，第一音频检测模型为已训练模型；以及将音频训练数据输入至第二音频检测模型，得到第二音频检测结果；第一音频检测模型的网络规模大于第二音频检测模型的网络规模；利用真实标签和第二音频检测结果确定第一损失值，以及利用第一音频检测结果和第二音频检测结果确定第二损失值，利用第二音频检测结果对应的加性角度softmax值和第一音频检测结果确定第三损失值；结合第一损失值、第二损失值和第三损失值对第二音频检测模型进行迭代训练，并将训练完成后的第二音频检测模型作为目标音频检测模型。

3、其中，利用第二音频检测结果对应的加性角度softmax值和第一音频检测结果确定第三损失值，包括：基于第二音频检测结果获取对应的加性角度softmax值；以及基于第一音频检测结果获取对应的第一softmax值；基于加性角度softmax值和第一softmax值确定第三损失值。

4、其中，基于第二音频检测结果获取对应的加性角度softmax值，包括：根据第二音频检测结果获取对应的目标特征以及权重向量；基于目标特征以及权重向量得到目标角度；利用目标角度、缩放参数以及间距参数获取对应的加性角度softmax值。

5、其中，将音频训练数据输入至第一音频检测模型，得到第一音频检测结果之前，包括：获取已训练的初始音频检测模型；基于第二音频检测模型的网络规模调整初始音频检测模型的网络结构，得到第一音频检测模型；其中，第一音频检测模型的网络规模小于初始音频检测模型的网络规模。

6、其中，第一音频检测模型的全连接层对应的检测类别数与第二音频检测模型的全连接层对应的检测类别数相同。

7、其中，将音频训练数据输入至第一音频检测模型，得到第一音频检测结果，包括：对音频训练数据进行第一数据增强，并将增强后的音频训练数据输入至第一音频检测模型，得到第一音频检测模型输出的第一音频检测结果；将音频训练数据输入至第二音频检测模型，得到第二音频检测结果，包括：对音频训练数据进行第二数据增强，并将增强后的音频训练数据输入至第二音频检测模型，得到第二音频检测结果；

8、或者，将音频训练数据输入至第二音频检测模型，得到第二音频检测结果，包括：对音频训练数据进行第二数据增强，并将增强后的音频训练数据输入至第二音频检测模型，得到第二音频检测结果；

9、或者，将音频训练数据输入至第一音频检测模型，得到第一音频检测结果，包括：对音频训练数据进行第一数据增强，并对增强后的音频训练数据进行特征提取，并将提取的特征输入至第一音频检测模型，得到第一音频检测结果；将音频训练数据输入至第二音频检测模型，得到第二音频检测结果，包括：对音频训练数据进行第二数据增强，并对增强后的音频训练数据进行特征提取，并将提取的特征输入至第二音频检测模型，得到第二音频检测结果；

10、或者，将音频训练数据输入至第二音频检测模型，得到第二音频检测结果，包括：对音频训练数据进行第二数据增强，并对增强后的音频训练数据进行特征提取，并将提取的特征输入至第二音频检测模型，得到第二音频检测结果；其中，第一数据增强对应的增强方式少于第二数据增强对应的增强方式。

11、其中，将音频训练数据输入至第一音频检测模型，得到第一音频检测结果，包括：将音频训练数据输入至第一音频检测模型进行特征提取，对提取的特征进行第一特征增强，并根据增强后的特征输出第一音频检测结果；将音频训练数据输入至第二音频检测模型，得到第二音频检测结果，包括：将音频训练数据输入至第二音频检测模型进行特征提取，对提取的特征进行第二特征增强，并根据增强后的特征输出第二音频检测结果；

12、或者，将音频训练数据输入至第二音频检测模型，得到第二音频检测结果，包括：将音频训练数据输入至第二音频检测模型进行特征提取，对提取的特征进行第二特征增强，并根据增强后的特征输出第二音频检测结果；

13、或者，将音频训练数据输入至第一音频检测模型，得到第一音频检测结果，包括：将音频训练数据进行特征提取，对提取的特征进行第一特征增强，并将增强后的特征输入至第一音频检测模型，得到第一音频检测结果；将音频训练数据输入至第二音频检测模型，得到第二音频检测结果，包括：将音频训练数据进行特征提取，对提取的特征进行第二特征增强，并将增强后的特征输入至第二音频检测模型，得到第二音频检测结果；

14、或者，将音频训练数据输入至第二音频检测模型，得到第二音频检测结果，包括：将音频训练数据进行特征提取，对提取的特征进行第二特征增强，并将增强后的特征输入至第二音频检测模型，得到第二音频检测结果；

15、其中，第一特征增强对应的增强方式少于第二特征增强对应的增强方式。

16、其中，利用真实标签和第二音频检测结果确定第一损失值，包括：利用交叉熵函数计算真实标签和第二音频检测结果之间的第一损失值；利用第一音频检测结果和第二音频检测结果确定第二损失值，包括：计算第一音频检测结果和第二音频检测结果之间的kl-散度，并将kl-散度作为第二损失值。

17、为解决上述技术问题，本技术采用的另一技术方案是：提供一种音频检测方法，该方法包括：获取待检测音频；将待检测音频输入至目标音频检测模型，得到对应的音频检测结果；其中，目标音频检测模型通过如上述任一技术方案提供的方法训练得到。

18、为解决上述技术问题，本技术采用的另一技术方案是：提供一种电子设备，该电子设备包括存储器以及与存储器耦接的处理器，存储器存储有至少一计算机程序，至少一计算机程序被处理器加载并执行时，用于实现如上述任一技术方案提供的方法。

19、为解决上述技术问题，本技术采用的另一技术方案是：提供一种计算机可读存储介质，该计算机可读存储介质有至少一段程序，至少一段程序被处理器加载并执行时，用于实现如上述任一技术方案提供的方法。

20、区别于当前技术，本技术提供的音频检测模型的训练方法、音频检测方法以及相关装置，采用知识蒸馏的方式，利用较大规模的已训练的第一音频检测模型辅助完成第二音频检测模型的训练，能够在小数据集上训练出泛化能力足够强的第二音频检测模型，进一步，在训练过程中结合三种损失值进行训练，能够提升作为目标音频检测模型的第二音频检测模型的检测准确性，以及加性角度softmax值对应的第三损失值，能够使第二音频检测模型的输出在不同类别之间有更大的间隔，相同类别内部更加聚拢，提高第二音频检测模型对相近声音的辨别能力，从而提高准确率，减低误报。