技术新讯 > 乐器声学设备的制造及制作,分析技术 > 零样本音频分类模型训练方法、零样本音频分类方法与流程 > 正文

零样本音频分类模型训练方法、零样本音频分类方法与流程

国知局
2024-06-21 11:32:45

本申请涉及人工智能，尤其涉及一种零样本音频分类模型训练方法、零样本音频分类方法、电子设备及存储介质。

背景技术：

1、监督学习在许多领域都大有可为。然而，它仅限于在训练过程中包含的预定义类别。在音频分类中，目前的数据集只包含日常常听到的声音，而很少包含特定领域的罕见声音。因此，有监督的音频分类需要对未见过的声音进行耗时耗力的注释，阻碍了其在现实世界中的应用。

2、为了克服对训练数据详尽标注的依赖，近年来零样本音频分类备受关注。零样本音频分类旨在识别和分类在训练模型过程中从未见过的声音类别。大多数研究都是学习音频特征与类别语义特征之间的相关性。相关技术中使用双线性模型计算给定音频和类别嵌入的音频-类别相似度。文本标签为维基百科中的类别和定义，例如，乌鸦类别的文本标签为“与中型到大型鸟类corvus相关的声音”。相关技术中添加了同义词、语义扩展和拟声词作为辅助信息。然而，标签和辅助信息往往不足以区分声音，尤其是相似的声音。由于定义的是发声对象而非听觉属性，它们无法反映近似类别(如机枪和手枪)之间的差异。

技术实现思路

1、本申请实施例提供一种零样本音频分类模型训练方法、零样本音频分类方法、电子设备及存储介质，用于至少解决上述技术问题之一。

2、第一方面，本申请实施例提供一种零样本音频分类模型训练方法，包括：

3、获取样本音频所属声音类别对应的声音属性描述；

4、根据所述声音属性描述确定对应于所述样本音频的属性描述文本；

5、根据所述样本音频和所述属性描述文本之间的相似度进行零样本音频分类模型训练。

6、在一些实施例中，获取样本音频所属声音类别对应的声音属性描述，包括：

7、获取样本音频所属声音类别对应的声音属性；

8、采用预设语言模型生成对应于声音属性的描述信息作为声音属性描述。

9、在一些实施例中，所述声音属性描述包括多个属性的描述信息，

10、根据所述声音属性描述确定对应于所述样本音频的属性描述文本，包括：

11、从多个属性的描述信息中选择部分属性的描述信息；

12、根据所述部分属性的描述信息确定对应于所述样本音频的属性描述文本。

13、在一些实施例中，根据所述样本音频和所述属性描述文本之间的相似度进行零样本音频分类模型训练，包括：

14、对所述样本音频进行音频编码处理得到样本音频嵌入向量；

15、对所述属性描述文本进行文本编码处理得到样本文本嵌入向量；

16、根据所述样本音频嵌入向量和所述样本文本嵌入向量之间的相似度进行零样本音频分类模型训练。

17、在一些实施例中，根据所述样本音频嵌入向量和所述样本文本嵌入向量之间的相似度进行零样本音频分类模型训练，包括：

18、获取对应于样本音频嵌入向量的音频全连接投影层嵌入；

19、获取对应于样本文本嵌入向量的文本全连接投影层嵌入；

20、根据所述音频全连接投影层嵌入和文本全连接投影层嵌入之间的余弦相似度进行零样本音频分类模型训练。

21、在一些实施例中，零样本音频分类模型包括文本编码器和音频编码器，

22、根据所述音频全连接投影层嵌入和文本全连接投影层嵌入之间的余弦相似度进行零样本音频分类模型训练，包括：

23、根据所述音频全连接投影层嵌入和文本全连接投影层嵌入之间的余弦相似度对所述音频编码器进行训练。

24、在一些实施例中，声音属性包括：声音类别、声音频率、音色、拟声词、比喻、时间、情感、强度和纹理中的至少一者。

25、第二方面，本申请还提供一种零样本音频分类方法，包括：采用本申请任一实施例所述的方法训练得到的零样本音频分类模型对音频进行分类。

26、第三方面，本申请还提供一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行本申请任一实施例所述方法的步骤。

27、第四方面，本申请还提供一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现本申请任一实施例所述方法的步骤。

28、本申请实施例中根据声音属性描述确定对应于所述样本音频的属性描述文本，使得本申请中的描述文本侧重多样化的声音属性，声音属性更能代表声音的内在特征，从而提升了训练得到的零样本音频分类模型的识别准确率。

技术特征：

1.一种零样本音频分类模型训练方法，包括：

2.根据权利要求1所述的方法，其特征在于，获取样本音频所属声音类别对应的声音属性描述，包括：

3.根据权利要求1所述的方法，其特征在于，其特征在于，所述声音属性描述包括多个属性的描述信息，

4.根据权利要求1所述的方法，其特征在于，根据所述样本音频和所述属性描述文本之间的相似度进行零样本音频分类模型训练，包括：

5.根据权利要求4所述的方法，其特征在于，

6.根据权利要求5所述的方法，其特征在于，所述零样本音频分类模型包括文本编码器和音频编码器，

7.根据权利要求1-6中任一项所述的方法，其特征在于，声音属性包括：声音类别、声音频率、音色、拟声词、比喻、时间、情感、强度和纹理中的至少一者。

8.一种零样本音频分类方法，包括：采用权利要求1-7中任一项所述的方法训练得到的零样本音频分类模型对音频进行分类。

9.一种电子设备，其包括：至少一个处理器，以及与所述至少一个处理器通信连接的存储器，其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行权利要求1-8中任一项所述方法的步骤。

10.一种存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现权利要求1-8中任一项所述方法的步骤。

技术总结本申请公开一种零样本音频分类模型训练方法，包括：获取样本音频所属声音类别对应的声音属性描述；根据所述声音属性描述确定对应于所述样本音频的属性描述文本；根据所述样本音频和所述属性描述文本之间的相似度进行零样本音频分类模型训练。本申请根据声音属性描述确定对应于所述样本音频的属性描述文本，使得本申请中的描述文本侧重多样化的声音属性，声音属性更能代表声音的内在特征，从而提升了训练得到的零样本音频分类模型的识别准确率。技术研发人员：俞凯,吴梦玥,徐薛楠,张平越受保护的技术使用者：思必驰科技股份有限公司技术研发日：技术公布日：2024/3/5