技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种基于多核多维分类的歌曲分类方法  >  正文

一种基于多核多维分类的歌曲分类方法

  • 国知局
  • 2024-06-21 11:55:41

本发明涉及数据处理,更具体地,涉及一种基于多核多维分类的歌曲分类方法。

背景技术:

1、数字音乐和互联网技术的蓬勃发展使歌曲的出现和传播速度大大加快,而云服务和智能手机的出现则为人们提供了更加便利的途径来收藏或收听数量庞大的音乐作品。然而,海量的歌曲造成了严重的信息过载问题,导致人们无法快速地从中获取符合自己喜好的歌曲。

2、现有的一些歌曲分类方法,利用多维分类模型进行分类,然而现有的多维分类算法使用一对一的策略分解拆分不同维度之间的多类分类器,拆分之后的多个二分类器的关系通过链式结构,结合前分类器的分类结果提升当前分类器分类精度。由于使用链式结构来构建多维分类器,该模型分类性能容易受到所选定的链式顺序的影响;在链式结构中,链式分类器的错误可能会在序列中传播,影响后续的分类器性能。现有的多维分类算法仅在单核学习下进行,容易出现限制性、泛化能力不足、局限性和解释性差的问题;综上,利用现有的多维分类算法进行歌曲分类,容易出现分类不够准确等问题。

技术实现思路

1、本发明为克服上述现有技术中的缺陷,提供一种基于多核多维分类的歌曲分类方法,有效提高了分类精度。

2、为解决上述技术问题,本发明采用的技术方案是:

3、一种基于多核多维分类的歌曲分类方法,包括以下步骤:

4、s1. 收集音乐音频样本;

5、s2. 提取音乐音频样本特征;

6、s3. 对音频样本特征进行标记得到音频样本多维分类数据集:将音频样本特征使用多个维度的标签进行标记,包括体裁维度的标签、语言维度的标签、乐器维度的标签、情感维度的标签;

7、s4. 对获得的多维分类数据集进行预处理;

8、s5.构建基于多核学习的多维分类模型:定义为 k个基核,非负正则化参数为,和;第 m个分类器中的第 k个基核的分类器法向量为,平方rhks范数表示为,分类器截距为,松弛变量为, 第 m个分类器的第 k个基核权重为,第 m个分类器的权重向量为为权重矩阵,包含了 m个分类器的权重向量,为关系矩阵;将多核学习引入多维分类问题中,并提出以下待优化问题:

9、

10、

11、

12、

13、(1)

14、s6. 对步骤s5提出的优化问题进行求解,得到,, b和 c的值,代入第 m个二分类器的预测方程,从而获得每个二分类器的预测方程;其中,为被预测的音频样本;

15、s7. 在每个维度中,通过与该维度相关的二分类器对进行预测,统计每个二分类器的预测结果对该维度的潜在标签进行投票,得票最高的标签即为该维度的预测结果,将所有维度的预测结果进行整合,即为对应的音频样本在各个维度上的预测结果。

16、根据以上技术手段,本发明提出了如公式(1)所表达的优化问题,第一项到第三项为在多维分类框架下,使用支持向量机作为基分类器,引入多核学习,解决了多维分类在单核函数下所出现的限制性、泛化能力不足、局限性和解释性差的问题。并且在上述基础上,为了进一步提升分类精度,引入第四项用于学习不同维度之间的核空间关系。通过一对一的分解策略拆分每个维度的多类分类器为多个二分类器,结合第四项使得相似的二分类器之间,能够选择相似核权重参数,不同的二分类器之间,能够避开相似的核权重参数,提升了模型的分类精度。

17、进一步地,所述步骤s2包括:将收集到音频样本转换为梅尔频谱图,将图像中的每个像素的rgb值转换为一个向量得到样本特征;其中,提取的音乐音频样本特征包括梅尔频谱特征、梅尔频谱图的统计量(均值、方差、每个频带上的最大和最小能量值)、梅尔频谱图的一阶和二阶导数(一阶差分和二阶差分)和梅尔频谱图的时域能量。

18、进一步地,所述体裁维度的标签包括古典音乐、摇滚音乐、乡村音乐、流行音乐、爵士音乐、金属音乐;所述语言维度的标签包括英语、法语、德语、西班牙语;所述乐器维度的标签包括小提琴、钢琴、吉他、贝斯;所述情感维度的标签包括悲伤、欢快、宣泄。

19、进一步地,所述步骤s4具体包括:假设一个多维分类任务具有 q个维度,每个维度的分类任务有个候选标签,将其中一个维度的分类任务进行一对一分解,则得到个二分类子问题;此时,将 q个维度一对一分解之后,得到个二分类子问题;接下来,将采用一对一分解策略分解的子数据集,用于二分类器的训练;此时,定义为第 m个子数据集上的第 i个样本,为与样本相关的分类标签,当取值为1时,样本与正标签相关,当取值为-1时,样本与负标签相关,则分解之后的第 m个子数据集表示为:,其中,第 m个子数据集的样本总数 。

20、进一步地,在步骤s6中,参数,、求解过程包括:

21、s611. 初始化关系矩阵 c=和权重矩阵 b=;其中,表示单位矩阵,表示矩阵元素全部为1;

22、s612. 基于上述关系矩阵 c和权重矩阵 b为已知值,公式(1)转化为如下二次规划问题:

23、

24、

25、(2)

26、s613. 通过引入拉格朗日乘子,将公式(2)转化为其对偶形式:

27、

28、(3)

29、s614. 修改svm优化工具包求解上述公式(3),从而求得参数、、。

30、进一步地,在步骤s6中,权重矩阵 b的求解过程包括:

31、s621. 基于步骤s614求得的,,已经为已知值、以及已知的关系矩阵 c,定义,;;符号表示矩阵和的对应元素进行相乘;为的向量,为的向量,将公式(1)转化为仅与权重矩阵 b相关的公式:

32、(4)

33、s622. 对(4)进行求导,定义,以得到权重矩阵 b的表达式为:

34、(5)。

35、进一步地,在步骤s6中,关系矩阵 c的求解过程包括:

36、s631. 基于已知的,,和权重矩阵 b,将公式(1)转化为表示只与 c相关的公式:

37、

38、(6)

39、s632. 定义,有如下求解过程:

40、

41、

42、

43、(7)

44、s633.根据柯西-施瓦茨不等式和引入约束条件,当和时,求得关系矩阵 c:

45、(8)。

46、本发明还提供一种基于多核多维分类的歌曲分类系统,包括:

47、收集模块:用于收集音乐音频样本;

48、提取模块:用于提取音乐音频样本特征;

49、标记模块:用于对音频样本特征进行标记得到音频样本多维分类数据集;包括将音频样本特征使用多个维度的标签进行标记,包括体裁维度的标签、语言维度的标签、乐器维度的标签、情感维度的标签;

50、预处理模块:用于对标记模块标记后的音频样本特征进行预处理;

51、构建多维分类模型模块:用于构建基于多核学习的多维分类模型,包括:定义为 k个基核,非负正则化参数为,和;第 m个分类器中的第 k个基核的分类器法向量为,平方rhks范数表示为,分类器截距为,松弛变量为, 第 m个分类器的第 k个基核权重为,第m个分类器的权重向量为为权重矩阵,包含了 m个分类器的权重向量,为关系矩阵;将多核学习引入多维分类问题中,并提出以下待优化问题:

52、

53、

54、

55、

56、

57、求解模块:用于对构建模块所提出的优化问题进行求解,得到,, b和 c的值,并代入第 m个二分类器的预测方程,从而获得每个二分类器的预测方程;

58、预测模块:用于在每个维度中,通过与该维度相关的二分类器对进行预测,统计每个二分类器的预测结果对该维度的潜在标签进行投票,得票最高的标签即为该维度的预测结果,将所有维度的预测结果进行整合,即为对应的音频样本在各个维度上的预测结果。

59、本发明还提供一种计算机设备,包括存储器和处理器,所述的存储器存储有计算机程序,所述的处理器执行所述的计算机程序时实现以上所述的方法的步骤。

60、本发明还提供一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述的计算机程序被处理器执行时实现以上所述方法的步骤。

61、与现有技术相比,有益效果是:本发明提出的一种基于多核多维分类歌曲分类方法,在多维分类框架下引入多核学习,结合多个核函数并且通过项捕捉不同维度之间的核空间关系,在完成多维分类的基础上提升了模型的分类精度;实现了对歌曲在多维标签下的分类。

本文地址:https://www.jishuxx.com/zhuanli/20240618/24516.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。