技术新讯 > 乐器声学设备的制造及制作,分析技术 > 事件检测模型的训练方法、事件检测方法及相关设备与流程  >  正文

事件检测模型的训练方法、事件检测方法及相关设备与流程

  • 国知局
  • 2024-06-21 11:37:24

本技术涉及音频处理,具体涉及一种事件检测模型的训练方法、事件检测方法及相关设备。

背景技术:

1、目前,在广告智能生产业务中,需要识别一段音频中特定事件发生的时间段(即起始时刻和终止时刻),以从音频中切分出素材进行广告生成,而在识别一段音频中特定事件发生的起始时刻和终止时刻需要依赖事件检测技术。

2、事件检测指的是从一段待识别音频中识别特定事件发生的起始时刻和终止时刻,例如“唱歌”、“对话”、“鸟叫”、“打斗”等事件发生起始时刻和终止时刻。目前事件检测一般通过机器学习模型来完成,比如采用全监督算法,即在训练集中给出具体事件是什么以及该事件发生的起始时刻和终止时刻的标注,然后对模型进行训练,最终得到完全训练好的事件检测模型,再基于该完全训练好的事件检测模型达到识别音频中的事件的目的。但是,上述训练事件检测模型的方法需要依赖人工精确标注音频事件发生的起始时刻和终止时刻,使得标注成本很大,而且进而降低了模型训练的效率。

技术实现思路

1、本技术实施例提供了一种事件检测模型的训练方法、事件检测方法及相关设备,不仅降低了模型训练成本,还加快了模型训练的训练效率。

2、第一方面,本技术实施例提供一种事件检测模型的训练方法,事件检测模型包括n个参考分类器和目标分类器,该方法包括:

3、获取训练音频,其中,训练音频标注有第一标签,第一标签用于表示训练音频包括的m个事件;

4、将训练音频进行分段,得到多个音频段;

5、对每个音频段进行特征提取,得到多个音频段对应的多个第一特征向量;

6、基于n个参考分类器和多个第一特征向量,对每个音频段进行n次事件分类,得到在每次事件分类后,每个音频段在各个预设事件下的第一分类概率,其中,任意两次事件分类下确定出的目标音频段互斥,每次事件分类下的目标音频段为该次事件分类下每个音频段的最大第一分类概率处于预设置信度区间的音频段;

7、基于在每次事件分类后,每个音频段在各个预设事件下的第一分类概率,生成第二标签,其中,第二标签用于表示训练音频中包括的y个事件以及每个事件的起始时刻和终止时刻;

8、基于目标分类器对多个第一特征向量进行分类,得到每个音频段在各个预设事件下的第二分类概率;

9、基于第一标签、第二标签、在每次事件分类后,每个音频段在各个预设事件下的第一分类概率,以及每个音频段在各个预设事件下的第二分类概率,对事件检测模型进行训练,得到训练好的目标分类器。

10、第二方面,本技术实施例提供一种事件检测方法,该方法包括:

11、获取待识别音频;

12、将待识别音频进行分段,得到多个待识别音频段;

13、对每个待识别音频段进行特征提取,得到多个待识别特征向量;

14、将多个待识别特征向量输入训练好的目标分类器进行事件检测,得到待识别音频中目标事件的起始时刻和终止时刻。

15、第三方面,本技术实施例提供一种事件检测模型的训练装置,事件检测模型包括n个参考分类器和目标分类器,该装置包括:获取单元和处理单元;

16、获取单元,用于获取训练音频,其中,训练音频标注有第一标签,第一标签用于表示训练音频中包括的m个事件;

17、处理单元,用于将训练音频进行分段,得到多个音频段;

18、处理单元,用于对每个音频段进行特征提取,得到多个音频段对应的多个第一特征向量;

19、处理单元,用于基于n个参考分类器和多个第一特征向量,对每个音频段进行n次事件分类,得到在每次事件分类后,每个音频段在各个预设事件下的第一分类概率,其中,任意两次事件分类下确定出的目标音频段互斥,每次事件分类下的目标音频段为该次事件分类下每个音频段的最大第一分类概率处于预设置信度区间的音频段;

20、处理单元,用于基于在每次事件分类后,每个音频段在各个预设事件下的第一分类概率,生成第二标签,其中,第二标签用于表示训练音频中包括的y个事件以及每个事件的起始时刻和终止时刻;

21、处理单元,用于基于目标分类器对多个第一特征向量进行分类,得到每个音频段在各个预设事件下的第二分类概率;

22、处理单元,用于基于第一标签、第二标签、在每次事件分类后,每个音频段在各个预设事件下的第一分类概率,以及每个音频段在各个预设事件下的第二分类概率,对事件检测模型进行训练,得到训练好的目标分类器。

23、第四方面,本技术实施例提供一种事件检测装置,该事件检测装置包括:获取单元和处理单元;

24、获取单元,用于获取待识别音频;

25、处理单元,用于将待识别音频进行分段,得到多个待识别音频段;

26、处理单元,用于对每个待识别音频段进行特征提取,得到多个待识别特征向量;

27、处理单元,用于将多个待识别特征向量输入训练好的目标分类器进行事件检测,得到待识别音频中目标事件的起始时刻和终止时刻。

28、第五方面,本技术实施例提供一种电子设备,包括:处理器和存储器,处理器与存储器相连,存储器用于存储计算机程序,处理器用于执行存储器中存储的计算机程序,以使得电子设备执行如第一方面和第二方面的方法。

29、第六方面,本技术实施例提供一种计算机可读存储介质,计算机可读存储介质存储有计算机程序,计算机程序使得计算机执行如第一方面和第二方面的方法。

30、第七方面,本技术实施例提供一种计算机程序产品,计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,计算机可操作来使计算机执行如第一方面和第二方面的方法。

31、实施本技术实施例,具有如下有益效果:首先获取训练音频,其中,训练音频标注有第一标签,第一标签用于表示训练音频中包括的m个事件;然后将训练音频进行分段,得到多个音频段;然后对每个音频段进行特征提取,得到多个音频段对应的多个第一特征向量;然后基于n个参考分类器和多个第一特征向量,对每个音频段进行n次事件分类,得到在每次事件分类后,每个音频段在各个预设事件下的第一分类概率,其中,任意两次事件分类下确定出的目标音频段互斥,每次事件分类下的目标音频段为该次事件分类下每个音频段的最大第一分类概率处于预设置信度区间的音频段;然后基于在每次事件分类后,每个音频段在各个预设事件下的第一分类概率,生成第二标签,其中,第二标签用于表示训练音频中包括的m个事件以及每个事件的起始时刻和终止时刻;然后基于目标分类器对多个第一特征向量进行分类,得到每个音频段在各个预设事件下的第二分类概率;最后基于第一标签、第二标签、在每次事件分类后,每个音频段在各个预设事件下的第一分类概率,以及每个音频段在各个预设事件下的第二分类概率,对事件检测模型进行训练,得到训练好的目标分类器,对训练音频只需要标注出包括的m个事件,不需要标注出每个事件发生的起始时刻和终止时刻,节约了时间,降低了成本,另外基于多个参考分类器和目标分类器进行事件分类后每个音频段在各个预设事件下的分类概率再自动生成第二标签,而第二标签表示的是训练音频中包括的y个事件以及每个事件的起始时刻和终止时刻,这相比于人工标注事件以及每个事件的起始时刻和终止时刻的方式效率更高,进而加快了模型训练的效率,然后在基于目标损失对事件检测模型进行训练,所得到的是训练好的目标分类器,也即是说,基于目标损失对事件检测模型进行训练时(即对多个参考分类器和目标分类器进行优化),不需要得到完全训练好的事件检测模型,即不需要将所有多个参考分类器均训练好,只需要最终得到训练好的目标分类器,便可以基于训练好的目标分类器进行事件检测,达到事件检测的目的,而不需要将事件检测模型完全训练好之后再基于该事件检测模型进行事件检测,这不仅节约了训练的成本,还加快了训练的效率。

本文地址:https://www.jishuxx.com/zhuanli/20240618/22502.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。