技术新讯 > 乐器声学设备的制造及制作,分析技术 > 干声分类模型训练方法、干声分类及电子设备和存储介质与流程  >  正文

干声分类模型训练方法、干声分类及电子设备和存储介质与流程

  • 国知局
  • 2024-06-21 11:31:13

本申请涉及音频检测,更具体地说,涉及一种干声分类模型训练方法、一种干声分类方法及电子设备和计算机可读存储介质。

背景技术:

1、在相关技术的干声分类方法中,一个分类模型模型检测出特定的类别,例如,呼吸音检测模型,就只能区分呼吸音和非呼吸音。如图1所示,采用单任务串联组合方式构建级联模型,输入特征分别输入四个模型(mode1、mode2、mode3、mode4)中,分别执行四个任务(task1、task2、task3、task4),实现多个类别的干声检测结果(result),例如,task1用于区分呼吸音和非呼吸音,task2用于区分齿音和非齿音,task3用于区分喷麦和非喷麦,task4用于区分气泡音和非气泡音。对于干声是否属于不同的类别,需要分别使用不同的检测模型,也需要分别训练不同的检测模型,模型的训练和干声类别的检测效率较低。

2、因此,如何提高干声分类模型的训练效率,以及,提高干声类别的检测效率是本领域技术人员需要解决的技术问题。

技术实现思路

1、本申请的目的在于提供一种干声分类模型训练方法、一种干声分类方法及一种电子设备和一种计算机可读存储介质,提高了干声分类模型训练效率,提高了干声类别的检测效率。

2、为实现上述目的,本申请第一方面提供了一种干声分类模型训练方法,包括:

3、标注音频的干声类别,所述干声类别大于等于2;

4、提取标注后的音频的音频特征,利用所述音频特征生成音频训练数据集,所述音频训练数据集包括多类特征信息;

5、将所述音频训练数据集输入多层卷积层后,经过双向lstm网络,再输入全连接层,最后得到共享音频特征,双向lstm网络用以保证音频训练数据集的时序稳定,所述共享音频特征参与多层卷积层、双向lstm及全连接层的梯度计算;

6、将所述共享音频特征输入多个干声类别任务网络,得到所述音频训练数据集的干声类别的分类结果;

7、基于所述音频标注的干声类别和所述音频训练数据集的干声类别的分类结果训练包含所述多层卷积层、所述双向lstm网络、所述全连接层、多个所述干声类别任务网络的干声分类模型。

8、其中,所述标注音频的干声类别之前,还包括:

9、对所述音频进行切片处理得到多个音频片段,并对多个所述音频片段的音量进行归一化处理;

10、相应的,所述标注音频的干声类别,包括:

11、标注多个所述音频片段的干声类别;

12、相应的,所述提取标注后的音频的音频特征,包括:

13、提取多个所述音频片段的音频特征。

14、其中,所述提取标注后的音频的音频特征,包括:

15、提取标注后的音频的语音活性特征作为音频特征,

16、和/或,提取标注后的音频的基频特征作为音频特征,

17、和/或,提取标注后的音频的能量包络作为音频特征,

18、和/或,提取标注后的音频的频域特征作为音频特征。

19、其中,所述干声类别任务网络为二分类任务网络,所述干声类别任务网络输出的分类结果为所述音频训练数据集是否属于所述干声类别任务网络对应的干声类别。

20、其中,所述基于所述音频标注的干声类别和所述音频训练数据集的干声类别的分类结果训练包含所述多层卷积层、所述双向lstm网络、所述全连接层、多个所述干声类别任务网络的干声分类模型,包括:

21、基于每个所述干声类别任务网络输出的分类结果和所述音频标注的干声类别计算每个所述干声类别任务网络的损失函数的损失值;

22、计算所有所述干声类别任务网络对应的损失值的损失和,基于所述损失和更新所述多层卷积层、所述双向lstm网络、所述全连接层、多个所述干声类别任务网络的模型参数,直至所述损失和收敛得到训练完成的干声分类模型。

23、其中,所述干声类别任务网络的损失函数为:

24、

25、其中,n为所述干声类别任务网络分类的类别数量,yi为基于所述训练音频的干声类别确定的第i个类别的真实分布,为所述干声类别任务网络输出的第i个类别的分布。

26、其中,所述干声类别包括呼吸声、齿音、喷麦、气泡音中任一项或任几项的组合。

27、为实现上述目的,本申请第二方面提供了一种干声分类方法,包括:

28、获取目标音频,并提取所述目标音频的目标音频特征;

29、将所述目标音频特征输入如上述干声分类模型训练方法训练完成的干声分类模型,得到所述目标音频的分类结果。

30、为实现上述目的,本申请第三方面提供了一种电子设备,包括:

31、存储器,用于存储计算机程序;

32、处理器,用于执行所述计算机程序时实现如上述干声分类模型训练方法或如上述干声分类方法的步骤。

33、为实现上述目的,本申请第四方面提供了一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上述干声分类模型训练方法或如上述干声分类方法的步骤。

34、通过以上方案可知,本申请提供的一种干声分类模型训练方法,包括:标注音频的干声类别,所述干声类别大于等于2;提取标注后的音频的音频特征,利用所述音频特征生成音频训练数据集,所述音频训练数据集包括多类特征信息;将所述音频训练数据集输入多层卷积层后,经过双向lstm网络,再输入全连接层,最后得到共享音频特征,双向lstm网络用以保证音频训练数据集的时序稳定,所述共享音频特征参与多层卷积层、双向lstm及全连接层的梯度计算;将所述共享音频特征输入多个干声类别任务网络,得到所述音频训练数据集的干声类别的分类结果;基于所述音频标注的干声类别和所述音频训练数据集的干声类别的分类结果训练包含所述多层卷积层、所述双向lstm网络、所述全连接层、多个所述干声类别任务网络的干声分类模型。

35、在本申请中,通过一个干声分类模型区分不同类别的音频,在该干声分类模型中,不同的干声类别任务网络用于确定音频是否属于对应的干声类别,各干声类别任务网络共享编码器、多个卷积层、神经网络层、全连接层,提高了干声分类模型的训练效率,提高干声类别的检测效率。在训练过程中,可以利用其中一种子任务中所蕴涵的信息来提升其他子任务的准确率,提高了训练完成的干声分类模型的分类准确率。本申请还公开了一种干声分类方法,一种电子设备和一种计算机可读存储介质,同样能实现上述技术效果。

36、应当理解的是,以上的一般描述和后文的细节描述仅是示例性的,并不能限制本申请。

技术特征:

1.一种干声分类模型训练方法,其特征在于,包括:

2.根据权利要求1所述干声分类模型训练方法,其特征在于,所述标注音频的干声类别之前,还包括:

3.根据权利要求1所述干声分类模型训练方法,其特征在于,所述提取标注后的音频的音频特征,包括:

4.根据权利要求1所述干声分类模型训练方法,其特征在于,所述干声类别任务网络为二分类任务网络,所述干声类别任务网络输出的分类结果为所述音频训练数据集是否属于所述干声类别任务网络对应的干声类别。

5.根据权利要求4所述干声分类模型训练方法,其特征在于,所述基于所述音频标注的干声类别和所述音频训练数据集的干声类别的分类结果训练包含所述多层卷积层、所述双向lstm网络、所述全连接层、多个所述干声类别任务网络的干声分类模型,包括:

6.根据权利要求5所述干声分类模型训练方法,其特征在于,所述干声类别任务网络的损失函数为:

7.根据权利要求1所述干声分类模型训练方法,其特征在于,所述干声类别包括呼吸声、齿音、喷麦、气泡音中任一项或任几项的组合。

8.一种干声分类方法,其特征在于,包括:

9.一种电子设备,其特征在于,包括:

10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7任一项所述干声分类模型训练方法或如权利要求8所述干声分类方法的步骤。

技术总结本申请公开了一种干声分类模型训练方法、干声分类方法及设备和介质,干声分类模型训练方法包括:标注音频的干声类别,干声类别大于等于2;提取标注后的音频的音频特征,利用音频特征生成音频训练数据集;将音频训练数据集输入多层卷积层后,经过双向LSTM网络,再输入全连接层,最后得到共享音频特征,共享音频特征参与多层卷积层、双向LSTM及全连接层的梯度计算;将共享音频特征输入多个干声类别任务网络,得到音频训练数据集的干声类别的分类结果;基于音频标注的干声类别和音频训练数据集的干声类别的分类结果训练干声分类模型。本申请提高了干声分类模型的训练效率,提高了训练完成的干声分类模型的分类准确率。技术研发人员:陈梦受保护的技术使用者:腾讯音乐娱乐科技(深圳)有限公司技术研发日:技术公布日:2024/2/29

本文地址:https://www.jishuxx.com/zhuanli/20240618/22012.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。