技术新讯 > 乐器声学设备的制造及制作,分析技术 > 模型训练方法、音频识别方法及相关设备与流程 > 正文

模型训练方法、音频识别方法及相关设备与流程

国知局
2024-06-21 11:37:33

本申请实施例涉及音频，尤其涉及模型训练方法、音频识别方法及相关设备。

背景技术：

1、日常生活中，用户对音频识别功能的需求越来越广泛，常见的有听歌识曲和哼唱识别等功能。

2、随着音频数据的海量增长，更多研究者致力于用深度学习网络来解决音频识别问题，然而，其中训练网络需要依赖于大量的标注数据。对于研究而言，标注数据(或称有标签数据)匮乏，要想获取大量的标注数据，就意味着要在数据分类和标注环节付诸大量的人工成本和时间，耗力又耗时。针对于此，有必要提供有效的解决方案。

技术实现思路

1、本申请实施例提供了模型训练方法、音频识别方法及相关设备，用于通过少量的标注数据提高音频识别方法的准确率。

2、本申请实施例第一方面提供一种模型训练方法，包括：

3、对库内每条无标签音频的主旋律特征note序列进行增强处理，得到增强后的note序列，所述增强后的note序列在信噪比、序列长度或音速上与增强前的note序列存在差异；

4、使用所述增强后的note序列训练初始模型，得到中期模型；

5、将改版音频的note序列和所述改版音频的源音频的note序列输入所述中期模型，并计算所述中期模型分别输出的改版音频嵌入特征和源音频嵌入特征间的特征相似度；其中，所述改版音频和所述源音频均为有标签音频，所述有标签音频的数量少于所述无标签音频的数量；

6、基于所述特征相似度训练所述中期模型，得到目标模型。

7、本申请第一方面所述的方法在具体实施时，可采用本申请第二方面所述的内容实现。

8、本申请实施例第二方面提供一种音频识别方法，包括：

9、将待识别音频的主旋律特征note序列输入目标模型，以得到所述note序列对应的嵌入特征，所述目标模型根据第一方面或第一方面的任一具体实现方式所述的模型训练方法训练得到；

10、计算所述note序列的嵌入特征和各源音频的嵌入特征间的特征相似度；

11、将各所述特征相似度中数值最大者对应的源音频，确定为所述待识别音频对应所属的目标音频。

12、本申请实施例第三方面提供一种电子设备，包括：

13、中央处理器，存储器以及输入输出接口；

14、所述存储器为短暂存储存储器或持久存储存储器；

15、所述中央处理器配置为与所述存储器通信，并执行所述存储器中的指令操作以执行本申请实施例第一方面或第一方面的任一具体实现方式所描述的方法。

16、本申请实施例第四方面提供一种计算机可读存储介质，包括指令，当所述指令在计算机上运行时，使得计算机执行如本申请实施例第一方面或第一方面的任一具体实现方式所描述的方法。

17、本申请实施例第五方面提供一种包含指令或计算机程序的计算机程序产品，当所述计算机程序产品在计算机上运行时，使得计算机执行如本申请实施例第一方面或第一方面的任一具体实现方式所描述的方法。

18、从以上技术方案可以看出，本申请实施例至少具有以下优点：

19、考虑到了实际场景中，改版音频与源音频间存在差异，故选择对无标签音频的note序列做增强处理，以期丰富训练样本及提高模型落地时的鲁棒性；其中，通过大量的无标签note特征对初始模型进行初步训练，有助于提高模型的自监督学习效果，并降低对有标签样本数据的成本投入和用时。此外，使用少量的有标签note特征对模型再训练，能进一步增强模型在音频识别任务中的实际预测性能，提升用户体验。

技术特征：

1.一种模型训练方法，其特征在于，包括：

2.根据权利要求1所述的模型训练方法，其特征在于，所述对库内每条无标签音频的主旋律特征note序列进行增强处理的过程包括，至少执行下述任一操作：

3.根据权利要求1或2所述的模型训练方法，其特征在于，使用所述增强后的note序列训练初始模型之前，所述方法还包括：

4.根据权利要求1所述的模型训练方法，其特征在于，所述方法还包括：

5.根据权利要求1所述的模型训练方法，其特征在于，所述使用所述增强后的note序列训练初始模型，包括：

6.根据权利要求1所述的模型训练方法，其特征在于，所述基于所述特征相似度训练所述中期模型，包括：

7.一种音频识别方法，其特征在于，包括：

8.根据权利要求7所述的音频识别方法，其特征在于，若所述特征相似度包含多类相似度量值，则所述将各所述特征相似度中数值最大者对应的源音频，确定为所述待识别音频对应所属的目标音频，包括：

9.一种电子设备，其特征在于，包括：

10.一种计算机可读存储介质，其特征在于，包括指令，当所述指令在计算机上运行时，使得计算机执行如权利要求1至8中任意一项所述的方法。

技术总结本申请公开了模型训练方法、音频识别方法及相关设备，包括：对库内每条无标签音频的主旋律特征note序列进行增强处理；使用增强后的note序列训练初始模型，得到中期模型；将改版音频的note序列和改版音频的源音频的note序列输入中期模型，并计算中期模型分别输出的改版音频嵌入特征和源音频嵌入特征间的特征相似度；基于特征相似度训练中期模型，得到目标模型。其中，对无标签音频的note序列做增强处理，能丰富训练样本及提高模型落地时的鲁棒性，有助于提高模型的自监督学习效果，并降低对有标签样本数据的成本投入和用时。此外，使用少量的有标签note特征对模型再训练，能进一步增强模型在音频识别任务中的实际预测性能，提升用户体验。技术研发人员：陈颖,龚韬,谭志力受保护的技术使用者：腾讯音乐娱乐科技（深圳）有限公司技术研发日：技术公布日：2024/3/21