技术新讯 > 乐器声学设备的制造及制作,分析技术 > 报警声检测与关键词识别的联合训练方法、系统、设备及介质与流程 > 正文

报警声检测与关键词识别的联合训练方法、系统、设备及介质与流程

国知局
2024-06-21 11:51:23

本发明涉及音频识别，特别是涉及一种报警声检测与关键词识别的联合训练方法、系统、设备及介质。

背景技术：

1、随着音频识别技术的发展，报警声检测(alarm sound detection，简称asd)与关键词识别(keyword spotting)都得到广泛的应用。音频采集设备实时对周围环境的声音进行采集，采集到的音频可以划分为用户发出的主动声音(例如发出关键词“关灯”等)和非用户产生的被动声音(例如门铃被按响了)。报警声检测旨在对音频接收设备收集到的实时语音进行检测，判断当前语音片段是否报警声，如果存在报警声可以及时对用户发出报警提醒，可以对主动声音和被动声音进行检测；而对于关键字识别，常被用户用于通过主动声音控制智能设备进行下一步操作。

2、在音频研究行业内，报警声检测和关键词识别被视为两个不一样的任务和研究领域。现有的方案通常使用两个不同的深度学习模型来分别实现关键字识别和报警声检测，但是这会造成移动边缘设备计算资源占用过多的情况，进而影响移动设备的能耗，对于资源受限环境，通常是舍弃其中一种功能或者降低两个模型的参数量来维持两种功能的实现。与此同时，先后使用两个不同的模型对音频进行检测和关键词识别会增加延时，报警声检测功能的实现需要等到关键词识别功能完成后进行，可能导致报警不及时，整个系统的实时性能差。

技术实现思路

1、鉴于以上所述现有技术的缺点，本发明的目的在于提供一种报警声检测与关键词识别的联合训练方法、系统、设备及介质，用于解决现有技术中存在的技术问题。

2、为实现上述目的及其他相关目的，本发明提供一种报警声检测与关键词识别的联合训练方法，包括以下步骤：

3、获取训练数据集，所述训练数据集包括报警声数据集和关键词数据集；

4、利用所述报警声数据集进行预训练，得到对应的预训练大模型；

5、按照预设时长对所述报警声数据集进行分割，得到报警声分割数据集；其中，所述报警声分割数据集中单个数据时长小于所述报警声数据集中单个数据时长；

6、利用所述预训练大模型对所述报警声分割数据集进行检测，并根据检测结果对所述报警声分割数据集标注数据标签；

7、将带标签的报警声分割数据集与所述关键词数据进行组合，生成联合训练数据集；以及，基于所述联合训练数据集进行分类训练，生成用于同时进行报警声检测和关键词识别的音频识别模型。

8、于本发明的一实施例中，基于所述联合训练数据集进行分类训练，生成用于同时进行报警声检测和关键词识别的音频识别模型的过程包括：

9、对所述联合训练数据集进行傅里叶变换，提取傅里叶变换特征；

10、将所述傅里叶变换特征通过梅尔滤波器，提取梅尔滤波器系数特征；

11、对所述梅尔滤波器系数特征进行取对数和离散余弦变换，得到梅尔频率倒谱系数特征；

12、将所述梅尔频率倒谱系数特征输入至神经网络中进行分类训练，生成用于同时进行报警声检测和关键词识别的音频识别模型。

13、于本发明的一实施例中，若所述神经网络包括卷积层和全连接层，则将所述梅尔频率倒谱系数特征输入至神经网络中进行分类训练的过程包括：

14、将所述梅尔频率倒谱系数特征输入至多个卷积层中进行卷积，并通过全连接层将每个卷积层提取的局部特征进行整合映射，输出用于同时进行报警声检测和关键词识别的音频识别模型。

15、于本发明的一实施例中，所述数据标签包括基于预设报警声类别确定，所述预设报警声类别包括以下至少之一：婴儿哭声、狗叫声、蜂鸣器声、敲门声、爆炸声、流水声。

16、于本发明的一实施例中，在生成所述音频识别模型后，所述方法还包括：

17、将所述音频识别模型部署至边缘设备中，并将所述边缘设备设置于目标区域，以通过所述边缘设备对所述目标区域进行报警声检测与关键词识别；

18、若所述目标区域内的报警声检测结果存在预设报警声类别中至少一种，则发出告警信息；反之，则不发出告警信息。

19、于本发明的一实施例中，所述关键词数据集中单个数据时长小于所述报警声数据集中单个数据时长；和/或，所述关键词数据集中单个数据时长等于所述报警声分割数据集中单个数据时长。

20、于本发明的一实施例中，利用所述预训练大模型对所述报警声分割数据集进行检测时，所述方法还包括：

21、对所述报警声分割数据集进行数据填充，以利用所述预训练大模型对填充后的报警声分割数据集进行检测。

22、本发明还提供一种报警声检测与关键词识别的联合训练系统，所述系统包括有：

23、数据采集模块，用于获取训练数据集，所述训练数据集包括报警声数据集和关键词数据集；

24、预训练模块，用于利用所述报警声数据集进行预训练，得到对应的预训练大模型；

25、分割模块，用于按照预设时长对所述报警声数据集进行分割，得到报警声分割数据集；其中，所述报警声分割数据集中单个数据时长小于所述报警声数据集中单个数据时长；

26、标签模块，用于利用所述预训练大模型对所述报警声分割数据集进行检测，并根据检测结果对所述报警声分割数据集标注数据标签；

27、联合训练模块，用于将带标签的报警声分割数据集与所述关键词数据进行组合，生成联合训练数据集；以及，基于所述联合训练数据集进行分类训练，生成用于同时进行报警声检测和关键词识别的音频识别模型。

28、本发明还提供一种计算机设备，包括：

29、处理器；

30、以及，存储有指令的计算机可读介质，当所述处理器执行所述指令时，使得所述设备执行如上述中任一所述的报警声检测与关键词识别的联合训练方法。

31、本发明还提供一种计算机可读介质，其上存储有指令，所述指令由处理器加载并执行如上述中任一所述的报警声检测与关键词识别的联合训练方法。

32、如上所述，本发明提供一种报警声检测与关键词识别的联合训练方法、系统、设备及介质，具有以下有益效果：

33、本发明采用联合训练方式，可以将报警声分割数据集与关键词识别数据集进行组合，生成联合数据集，然后再通过联合数据集对神经网络进行训练，生成用于同时进行报警声检测和关键词识别的音频识别模型。所以，本发明使用联合数据集对神经网络进行联合训练，训练出的音频识别模型能够同时实现关键字识别和报警声检测功能，而且联合训练方式能够降低报警声检测和关键词识别在边缘设备部署时的难度，减少资源消耗、降低设备功耗。同时，本发明通过引入报警声数据能够提高关键词识别任务的抗噪声能力，以及通过引入关键词数据也增加了报警声检测任务的负样本，增强了对非报警声的识别准确率。此外，本发明通过使用时长较长的报警声数据进行预训练，可以获得高延时、高准确性的预训练模型，同时利用预训练模型对分割后时长较短的报警声分割数据进行标签标注。而且使用时长较短的报警声分割数据训练出来的模型，在进行推理时，可以由原始时间延时至分割后的预设时长，从而进一步降低延时。