技术新讯 > 乐器声学设备的制造及制作,分析技术 > 模型训练、音频分类方法、电子设备及计算机存储介质与流程  >  正文

模型训练、音频分类方法、电子设备及计算机存储介质与流程

  • 国知局
  • 2024-06-21 11:43:45

本申请涉及音频分析,特别是涉及一种模型训练、音频分类方法、电子设备及计算机存储介质。

背景技术:

1、在音频处理和音频分类领域,传统的音频分类方法依赖于大量标记的样本和预定义的特征提取,这在面对少样本甚至无样本的情况,或是面对多源、复杂的音频内容时,常常面临分类准确性降低的问题。

技术实现思路

1、为解决上述技术问题,本申请提出了一种模型训练方法、音频分类方法、电子设备以及计算机存储介质。

2、为解决上述技术问题,本申请提出了一种模型训练方法,所述模型训练方法包括:获取待训练音频,基于所述待训练音频提取声音属性向量;将所述声音属性向量与所述待训练音频进行数据融合,得到第一增强训练音频;利用所述待训练音频和所述第一增强训练音频对音频分类模型进行训练。

3、其中,所述基于所述待训练音频提取声音属性向量,包括:利用所述音频分类模型中的特征提取模型,提取所述待训练音频中的原始音频特征;利用所述音频分类模型中稀频率正则化的特征处理模型,对所述原始音频特征进行正则化处理,得到所述待训练音频的声音属性向量。

4、其中,所述模型训练方法还包括:获取所述待训练音频的频谱图;在所述频谱图上进行时间扭曲、频率掩蔽,和/或时间掩蔽,得到第二增强训练音频;所述利用所述待训练音频和所述第一增强训练音频对音频分类模型进行训练,包括:利用所述待训练音频、所述第一增强训练音频和所述第二增强训练音频对音频分类模型进行训练。

5、其中,所述在所述频谱图上进行时间扭曲、频率掩蔽,和/或时间掩蔽,得到第二增强训练音频,包括:按照选择的时间扭曲点将所述频谱图上的数据点按照扭曲参数进行时间扭曲,得到所述第二增强训练音频;和/或,按照选择的频率遮挡区域将所述频谱图上被遮挡的数据点的值设置为第一预设值,得到所述第二增强训练音频;和/或,按照选择的时间遮挡区域将所述频谱图上被遮挡的数据点的值设置为第二预设值,得到所述第二增强训练音频。

6、其中,所述利用所述待训练音频和所述第一增强训练音频对音频分类模型进行训练,包括:将所述待训练音频和所述第一增强训练音频输入所述音频分类模型的胶囊网络,获取所述胶囊网络输出的预测标签;利用所述待训练音频的真实标签与所述预测标签对所述音频分类模型进行训练。

7、其中,所述将所述待训练音频和所述第一增强训练音频输入所述音频分类模型的胶囊网络,获取所述胶囊网络输出的预测标签,包括:提取所述待训练音频和所述第一增强训练音频的待训练特征;将所述真实标签的类别语义向量与所述待训练特征进行整合,得到整合特征;将所述整合特征输入所述音频分类模型的胶囊网络,获取所述胶囊网络输出的预测标签;所述真实标签为未出现过的新类别标签。

8、其中,所述将所述声音属性向量与所述待训练音频进行数据融合,得到第一增强训练音频之后,所述模型训练方法还包括:按照所述待训练音频的真实标签设置所述第一增强训练音频的标签。

9、为解决上述技术问题,本申请提出一种音频分类方法,包括:将音频输入到音频分类模型中,获取所述音频的音频分类;其中,所述音频分类模型由上述所述的模型训练方法获取。

10、为解决上述技术问题,本申请提出一种电子设备,所述电子设备包括存储器以及与所述存储器耦接的处理器;其中,所述存储器用于存储程序数据,所述处理器用于执行所述程序数据以实现如上述所述的模型训练方法和/或上述所述的音频分类方法。

11、为解决上述技术问题,本申请提出一种计算机存储介质,所述计算机存储介质用于存储程序数据,所述程序数据在被计算机执行时,用以实现如上述所述的模型训练方法和/或上述所述的音频分类方法。

12、与现有技术相比,本申请的有益效果是:电子设备获取待训练音频,基于所述待训练音频提取声音属性向量;将所述声音属性向量与所述待训练音频进行数据融合,得到第一增强训练音频;利用所述待训练音频和所述第一增强训练音频对音频分类模型进行训练。通过上述方式,通过将所述声音属性向量与所述待训练音频进行数据融合,得到新的训练样本,通过将原始输入和模型的输出相加,可以得到一个包含原始信息的新的输出,有效地增加了模型训练时的数据量,提高模型的鲁棒性和泛化能力。

技术特征:

1.一种基于音频分类的模型训练方法,其特征在于,所述模型训练方法包括:

2.根据权利要求1所述的模型训练方法,其特征在于,

3.根据权利要求1所述的模型训练方法,其特征在于,

4.根据权利要求3所述的模型训练方法,其特征在于,

5.根据权利要求1所述的模型训练方法,其特征在于,

6.根据权利要求5所述的模型训练方法,其特征在于,

7.根据权利要求5所述的模型训练方法,其特征在于,

8.一种音频分类方法,其特征在于,所述音频分类方法包括:

9.一种电子设备,其特征在于,所述终端设备包括存储器以及与所述存储器耦接的处理器;

10.一种计算机存储介质,其特征在于,所述计算机存储介质用于存储程序数据,所述程序数据在被计算机执行时,用以实现如权利要求1至7任一项所述的模型训练方法。

技术总结本申请提出一种模型训练、音频分类方法、电子设备及计算机存储介质。所述模型训练方法包括:获取待训练音频,基于所述待训练音频提取声音属性向量;将所述声音属性向量与所述待训练音频进行数据融合,得到第一增强训练音频;利用所述待训练音频和所述第一增强训练音频对音频分类模型进行训练。通过上述方式,通过将所述声音属性向量与所述待训练音频进行数据融合,得到新的训练样本,有效地增加了模型训练时的数据量,提高模型的鲁棒性和泛化能力。技术研发人员:吕少卿,俞鸣园,王克彦,曹亚曦,孙俊伟,费敏健受保护的技术使用者:浙江华创视讯科技有限公司技术研发日:技术公布日:2024/4/17

本文地址:https://www.jishuxx.com/zhuanli/20240618/23169.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。