基于数据驱动的有监督字典学习音频分类方法、系统及介质与流程

2021-12-17 21:28:00 来源：中国专利 TAG：

技术特征：
1.基于数据驱动的有监督字典学习音频分类方法，其特征在于，包括下述步骤：确定样本集类别数c，利用输入的样本x
n
，及其对应的类标签y
n
训练c个特定类字典d
c
，c∈[1，c]；利用已训练的字典d
c
，c∈[1，c]，得出输入样本x
n
的稀疏编码a
n
，并将稀疏编码作为特征，训练svm分类器；利用已训练的字典d
c
，c∈[1，c]，和已训练的svm分类器对输入样本x
n
进行分类，输出预测标签y
～n
。2.根据权利要求1所述基于数据驱动的有监督字典学习音频分类方法，其特征在于，所述训练c个特定类字典d
c
，c∈[1，c]如下：初始化字典d
c0
，学习率η0，学习率更新率α，迭代次数t；确定损失函数j；开始次数为t的迭代求解过程，当迭代次数为t时，固定字典d
t
‑1，计算稀疏编码的集合a
t
；固定稀疏编码的集合a
t
，更新字典d
ct
；t＝t 1，进入下一次迭代，直至t＝t。3.根据权利要求2所述基于数据驱动的有监督字典学习音频分类方法，其特征在于，所述损失函数j具体形式为：j(a，d)＝j1(d，a) μj2(d，a) λj3(a) γ1j4(a) γ2j5(d)；(d)；(d)；(d)；(d)；其中，μ为样本约束参数，λ为分类器约束参数，γ1为稀疏编码约束参数，γ2为字典学习约束参数。4.根据权利要求2所述基于数据驱动的有监督字典学习音频分类方法，其特征在于，所述开始次数为t的迭代求解过程，当迭代次数为t时，固定字典d
t
‑1，计算稀疏编码集合a
t
的步骤具体通过lasso算法最小化损失函数j(d
t
‑1，a
t
)得到a
t
。5.根据权利要求2所述基于数据驱动的有监督字典学习音频分类方法，其特征在于，所述固定稀疏编码的集合a
t
，更新字典d
ct
的步骤具体如下：计算损失函数j关于字典d的梯度g
t
；初步更新，d
ct/2
＝d
ct
‑1‑
ηg
t
；通过近端投影算子prox对初步更新的字典进行约束；直至j(d
ct
，a
t
)＜j(d
ct
‑1，a
t
‑1)，结束对字典的更新。6.根据权利要求1所述基于数据驱动的有监督字典学习音频分类方法，其特征在于，所述训练svm分类器具体为：训练得一个超平面，将不同的样本分开；其测试阶段即为判断样
本在超平面所分割空间的哪一边。7.基于数据驱动的有监督字典学习音频分类系统，其特征在于，应用于权利要求1
‑
6中任一项所述的基于数据驱动的有监督字典学习音频分类方法，包括字典训练模块、svm分类器训练模块、预测输出模块；所述字典训练模块用于确定样本集类别数c，利用输入的样本x
n
，及其对应的类标签y
n
训练c个特定类字典d
c
，c∈[1，c]；所述svm分类器训练模块用于利用已训练的字典d
c
，c∈[1，c]，得出输入样本x
n
的稀疏编码a
n
，并将稀疏编码作为特征，训练svm分类器；所述预测输出模块用于利用已训练的字典d
c
，c∈[1，c]，和已训练的svm分类器对输入样本x
n
进行分类，输出预测标签y
～n
。8.一种存储介质，存储有程序，其特征在于：所述程序被处理器执行时，实现权利要求1
‑
6任一项所述的基于数据驱动的有监督字典学习音频分类方法。

技术总结
本发明公开了一种基于数据驱动的有监督字典学习音频分类方法、系统及介质。该方法包括：确定样本集类别数；利用输入的样本及其对应的类标签训练特定类字典；利用已训练的字典得出输入样本的稀疏编码，并将稀疏编码作为特征，训练SVM分类器；利用已训练的字典和已训练的SVM分类器对输入样本进行分类，输出预测标签。本发明通过每个类学习一个字典来实现最小化类内均匀性，最大化类的可分性，提高稀疏性以控制信号在字典上分解的复杂性，同时最小化基于类的重构错误，并提高字典的成对正交性。本发明能够广泛应用于多个场景中，如计算听觉场景识别和音乐和弦识别；其在数据集上的测试也相对稳定，泛化能力表现优秀。泛化能力表现优秀。泛化能力表现优秀。

技术研发人员：陈真邱小群向友君张淘珊
受保护的技术使用者：华南理工大学
技术研发日：2021.08.26
技术公布日：2021/12/16

再多了解一些

2/2 首页上一页 1 2

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种基于人脸的生物特征识别的装置的制作方法

基于数据驱动的有监督字典学习音频分类方法、系统及介质与流程

相关文献

最热文献