技术新讯 > 乐器声学设备的制造及制作,分析技术 > 一种基于CNN与Transformer双流架构的音乐流派分类方法与流程  >  正文

一种基于CNN与Transformer双流架构的音乐流派分类方法与流程

  • 国知局
  • 2024-06-21 11:55:00

本发明涉及声音检测与处理,尤其是一种基于cnn与transformer双流架构的音乐流派分类方法。

背景技术:

1、在现有技术方案中,利用卷积神经网络(cnn)模型或者transformer模型对音乐流派分类,具体步骤是首先将音频文件转换成梅尔频谱图,将梅尔频谱图输入到cnn或者transformer模型进行特征提取,得到特征向量;将特征向量送入全连接分类器分类,得到具体的流派标签。

2、此种方式存在如下缺点:卷积神经网络(convolutional neural networks,cnn)只能提取局部特征,无法对频谱图进行全局建模,导致无法提取到频谱图的全局特征,这在一定程度上破坏了音频的时序性,使得所提特征信息不完整,最终导致音乐流派分类准确率低。

3、transformer模型在中小规模数据集上的性能较为不足。transformer采用了纯自注意力(self-attention)架构,相对于卷积神经网络,transformer缺少至关重要的归纳偏置,例如局部性和平移不变性。这些偏置有助于加速模型的学习过程并提升其泛化能力。因此,transformer模型通常需要大量已标注的数据来训练,才能学习到有效的特征表示。如果训练数据有限,transformer模型的性能可能受到限制。特别是在音乐流派分类这样的任务中,由于当前带有流派标签的音频数据规模相对较小,采用transformer模型进行分类往往会导致准确率较低,难以满足实际需求。

技术实现思路

1、为了克服现有技术中存在的上述问题,本发明提出一种基于cnn与transformer双流架构的音乐流派分类方法。

2、本发明解决其技术问题所采用的技术方案是:一种基于cnn与transformer双流架构的音乐流派分类方法,包括如下步骤:

3、步骤1,将音频文件转为梅尔频谱图;

4、步骤2,将步骤1所得的梅尔频谱图同时输入到卷积模块和transformer编码器中进行特征编码,所述卷积模块用于提取梅尔频谱图的局部特征,所述transformer用于提取梅尔频谱图的全局特征;

5、步骤3,将步骤2所得的局部特征和全局特征进行融合;

6、步骤4,将步骤3所得的结果输入到全连接层进行音乐流派分类。

7、上述的一种基于cnn与transformer双流架构的音乐流派分类方法,所述步骤1具体为:接收待识别的音频文件,并提取所述音频文件中的音频信号;按照预置长度的时间窗,对所述音频信号进行分帧处理,得到多帧音频信号片段;分别对每帧音频信号片段进行短时傅里叶变换,得到所述音频文件对应的频域信号;通过预置的梅尔标度滤波器组,将所述频域信号映射到梅尔频域,得到所述音频文件的梅尔频谱。

8、上述的一种基于cnn与transformer双流架构的音乐流派分类方法,所述卷积模块由四层卷积堆叠而成。

9、上述的一种基于cnn与transformer双流架构的音乐流派分类方法,所述卷积模块包括激活层、卷积层、池化层,所述激活层对步骤1所得的梅尔频谱图数据进行非线性激活处理,激活函数为relu函数;所述卷积层对激活后的数据进行二维卷积处理,得到初步频谱特征,所述池化层对所述初步频谱特征进行最大池化处理,得到所述样本音频特征。

10、上述的一种基于cnn与transformer双流架构的音乐流派分类方法,所述步骤2中的transformer编码器包括两个transformer编码器。

11、上述的一种基于cnn与transformer双流架构的音乐流派分类方法,所述步骤4具体包括:对步骤3所得的数据进行层归一化处理,通过预置的流派分类器全连接层,通过softmax函数,对目标特征向量解码后进行流派分类处理。

12、本发明的有益效果是:(1)局部特征和卷积特征拼接融合可以获得更为丰富的特征向量,相较于单一的卷积神经网络或者单一的transformer编码器,本发明技术可以提取到完整、丰富、鲁棒的音乐特征,从而提高音乐流派分类准确率。

13、(2)由于cnn和transformer编码器共同提取特征,cnn的引入,为transformer编码器带来了良好的归纳偏置(inductive biases),让transformer编码器摆脱了对大规模数据集的过度依赖,使其在小规模音乐流派数据集上也有良好的分类表现。本发明能够有效解决单一的cnn在音乐流派分类过程中,全局特征提取能力不足的问题,同时也让transformer摆脱了对大规模训练数据的过分依赖。本发明中技术在音乐流派分类任务中具有高准确率,即使在中小数据集上也有出色的性能。

技术特征:

1.一种基于cnn与transformer双流架构的音乐流派分类方法,其特征在于,包括如下步骤:

2.根据权利要求1所述的一种基于cnn与transformer双流架构的音乐流派分类方法,其特征在于,所述步骤1具体为:接收待识别的音频文件,并提取所述音频文件中的音频信号;按照预置长度的时间窗,对所述音频信号进行分帧处理,得到多帧音频信号片段;分别对每帧音频信号片段进行短时傅里叶变换,得到所述音频文件对应的频域信号;通过预置的梅尔标度滤波器组,将所述频域信号映射到梅尔频域,得到所述音频文件的梅尔频谱。

3.根据权利要求1所述的一种基于cnn与transformer双流架构的音乐流派分类方法,其特征在于,所述卷积模块由四层卷积堆叠而成。

4.根据权利要求1所述的一种基于cnn与transformer双流架构的音乐流派分类方法,其特征在于,所述卷积模块包括激活层、卷积层、池化层,所述激活层对步骤1所得的梅尔频谱图数据进行非线性激活处理,激活函数为relu函数;所述卷积层对激活后的数据进行二维卷积处理,得到初步频谱特征,所述池化层对所述初步频谱特征进行最大池化处理,得到所述样本音频特征。

5.根据权利要求1所述的一种基于cnn与transformer双流架构的音乐流派分类方法,其特征在于,所述步骤2中的transformer编码器包括两个transformer编码器。

6.根据权利要求1所述的一种基于cnn与transformer双流架构的音乐流派分类方法,其特征在于,所述步骤4具体包括:对步骤3所得的数据进行层归一化处理,通过预置的流派分类器全连接层,通过softmax函数,对目标特征向量解码后进行流派分类处理。

技术总结本发明公开了一种基于CNN与Transformer双流架构的音乐流派分类方法,涉及声音检测与处理技术领域,包括:将音频文件转为梅尔频谱图;将梅尔频谱图同时输入到卷积模块和Transformer编码器中进行特征编码,卷积模块用于提取梅尔频谱图的局部特征,Transformer用于提取梅尔频谱图的全局特征;将局部特征和全局特征进行融合;将融合后的特征输入到全连接层进行音乐流派分类。本发明局部、全局特征的融合使用,有利于提高音乐流派分类准确率;在特征提取过程中,CNN为Transformer编码器来了良好的归纳偏置,解决Transformer编码器先天性归纳偏置不足的问题,让本发明在中小规模音乐流派数据集上有较高的分类准确率。技术研发人员:刘宗银,李凡平,石柱国受保护的技术使用者:以萨技术股份有限公司技术研发日:技术公布日:2024/5/29

本文地址:https://www.jishuxx.com/zhuanli/20240618/24462.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。