技术新讯 > 乐器声学设备的制造及制作,分析技术 > 模型训练方法、装置、电子设备和介质与流程  >  正文

模型训练方法、装置、电子设备和介质与流程

  • 国知局
  • 2024-06-21 11:29:27

本申请属于人工智能,具体涉及一种模型训练方法、装置、电子设备和介质。

背景技术:

1、声音事件检测是指识别出音频信号中具有的音频事件的事件类型,并检测出音频事件出现的起始时间和结束时间。声音事件检测在音频识别和语音控制等诸多领域都有着较为广泛的应用。

2、声音事件检测中,使用神经网络模型对音频信号中的事件类型进行识别。神经网络模型在训练过程中,通过音频样本和对应的标签构建,采用静态的卷积核学习从音频样本提取的特征和每个类别的标签之间的联系。静态的卷积核不能根据输入变化,影响训练完成的神经网络模型的性能。

技术实现思路

1、本申请实施例的目的是提供一种模型训练方法、装置、电子设备和介质,可解决静态的卷积核不能根据输入变化,影响训练完成的神经网络模型的性能的技术问题。

2、第一方面,本申请实施例提供了一种模型训练方法,方法包括:

3、获取音频训练样本,对音频训练样本进行特征提取,得到特征信息;

4、基于特征信息和第一卷积核生成自适应卷积核,第一网络模型包括第一卷积核;

5、将第一网络模型中的第一卷积核替换为自适应卷积核,得到第二网络模型;

6、将特征信息输入第二网络模型,第二网络模型输出与音频训练样本对应的预测事件类别;

7、根据预测事件类别对第一网络模型进行训练。

8、第二方面,本申请实施例提供了一种模型训练装置,该装置包括:

9、特征提取模块,用于获取音频训练样本,对音频训练样本进行特征提取,得到特征信息;

10、自适应卷积核生成模块,用于基于特征信息和第一卷积核生成自适应卷积核,第一网络模型包括第一卷积核;

11、网络模型生成模块,用于将第一网络模型中的第一卷积核替换为自适应卷积核,得到第二网络模型;

12、输出模块,用于将特征信息输入第二网络模型,第二网络模型输出与音频训练样本对应的预测事件类别;

13、模型训练模块,用于根据预测事件类别对第一网络模型进行训练。

14、第三方面,本申请实施例提供了一种电子设备,该电子设备包括处理器和存储器,存储器存储可在处理器上运行的程序或指令,程序或指令被处理器执行时实现如第一方面提供的方法的步骤。

15、第四方面,本申请实施例提供了一种可读存储介质,可读存储介质上存储程序或指令,程序或指令被处理器执行时实现如第一方面提供的方法的步骤。

16、第五方面,本申请实施例提供了一种芯片,芯片包括处理器和通信接口,通信接口和处理器耦合,处理器用于运行程序或指令,实现如第一方面提供的方法。

17、第六方面,本申请实施例提供一种计算机程序产品,该程序产品被存储在存储介质中,该程序产品被至少一个处理器执行以实现如第一方面提供的方法。

18、在本申请提供的实施例中,通过获取音频训练样本,对音频训练样本进行特征提取,得到特征信息,基于特征信息和第一卷积核生成自适应卷积核,从而制造自适应卷积核对特征信息的依赖性;自适应卷积核根据第一卷积核和特征信息确定,通过将特征信息输入第二网络模型,根据第二网络模型输出的预测事件类别对第一网络模型进行训练,从而利用自适应卷积核在特征信息的提取过程中学习到的特征表达方式,在第二网络模型输出预测事件类别的过程中对特征信息中不同特征点赋予不同的关注度,有利于第一网络模型建立音频训练样本和预测事件类别之间的函数关系,提高训练得到的第一网络模型的性能。

技术特征:

1.一种模型训练方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述音频训练样本关联有标签数据,根据所述预测事件类别对所述第一网络模型进行训练,包括:

3.根据权利要求1所述的方法,其特征在于,所述特征信息包括至少一个第一通道,所述第一通道包括一个特征矩阵,所述特征矩阵包括沿时间轴和频率轴进行二维分布的特征信息;

4.根据权利要求3所述的方法,其特征在于,所述第一卷积核包括k个第一基核,k为正整数;所述根据所述第一注意力权重调整所述第一卷积核,得到一维的频率自适应卷积核,包括:

5.根据权利要求3所述的方法,其特征在于,所述第一卷积核包括多个第一基核,所述将所述第一池化数据输入第一卷积网络,得到第一注意力权重,包括:

6.根据权利要求3所述的方法,其特征在于,所述第一卷积核包括多个第一基核,所述将所述第二池化数据输入第二卷积网络,得到第二注意力权重,包括:

7.根据权利要求2所述的方法,其特征在于,所述获取音频训练样本,对所述音频训练样本进行特征提取,得到特征信息之前包括:

8.一种模型训练装置,其特征在于,包括:

9.一种电子设备,其特征在于,包括处理器和存储器,所述存储器存储可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如权利要求1至7任一项所述的模型训练方法中的步骤。

10.一种可读存储介质,其特征在于,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如权利要求1至7任一项所述的模型训练方法中的步骤。

技术总结本申请公开了一种模型训练方法、装置、电子设备和介质,属于声音事件检测领域。模型训练方法包括获取音频训练样本,对音频训练样本进行特征提取,得到特征信息;基于特征信息和第一卷积核生成自适应卷积核,第一网络模型包括第一卷积核;将第一网络模型中的第一卷积核替换为自适应卷积核,得到第二网络模型;将特征信息输入第二网络模型,第二网络模型输出与音频训练样本对应的预测事件类别;根据预测事件类别对第一网络模型进行训练。技术研发人员:石杨受保护的技术使用者:维沃移动通信有限公司技术研发日:技术公布日:2024/2/21

本文地址:https://www.jishuxx.com/zhuanli/20240618/21799.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。