一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种分数阶图嵌入多重集典型相关分析方法

2022-08-03 00:27:16 来源:中国专利 TAG:


1.本发明属于模式识别领域,具体涉及一种分数阶嵌入的多视图典型相关分析方法。


背景技术:

2.在实际应用中,同一对象集总是可由不同视图的高维数据集进行描述。由于数据采 集能力的不断提高,使得这种多维特征在许多领域中更为常见和更容易获得。然而,数 据集的高维性无疑增加了处理的难度和消耗的时空成本。因此,从具有不同特征的数据 集中找寻其共同的低维表示,即多视图学习,是一个有意义和挑战性的课题。
3.近年来,研究人员提出了多种有效的方法,其中典型相关分析(cca)是最流行的 方法之一。与主成分分析(pca)不同,cca的目的是寻求同一组特征内部的线性投影, 使每个视图都与其余视图的相似性最高,而主成分分析主要用于分析单个视图,这就不 可避免地忽略了数据集的内部联系。由于cca良好的特性,其在图像识别、分类、回 归、缺陷预测、自然语言处理、遗传学等领域都有大量的应用。
4.结合不同的需求,研究者引入了许多基于cca的扩展方法。提出并扩展了核cca (kcca)和局部保持cca(lpcca)来寻找两个数据集之间潜在的非线性关联。此 外,与神经网络相结合,cca在近年来备受关注的深度学习方面也有所应用。某些高 维数据也获得了人们的关注。当数据的维数足够高时,无用信息在数据分析中总是占很 大的比例。如果典型相关变量包含了原始空间中的所有特征,那么得到的典型的载荷矩 阵通常不是稀疏的,这使得cca的效果大大降低。因此,为了弥补这一缺陷,稀疏cca 被提出,其使得在学习典型相关表示时忽略了集合的许多不相关的特征。
5.当遇到至少三种特征视图时,cca由于其较低的效率和非最优结果而显得无能为 力。因此,多视图典型相关分析(mcca)被用于这种多特征提取。求解mcca的直 接方法是使每个多集标准变量之间的成对相关的总和最大化,这也被称为相关和 (sumcor)算法。然而,sumcor的计算是一个np-hard问题,这就促使了一些松 弛理论的建立:rupnik等人将半定规划(sdp)边界应用于全局最优性,kanatsoulis等 人提出了一个算法框架,在计算多个大视图的规范组件时,可以处理各种结构提升项。 kettenning等人还总结了mcca的其他主要解决方案,包括平方相关和(sscor)、广 义方差(genvar)、最大方差(maxvar)和最小方差程序(minvar)。本文基于 maxvar-cca,它可以通过特征分解来求解,得到一个简单的解决方案。
6.近年来,为了充分利用数据集的已知信息,许多研究集中在图嵌入上。由于图是特 征提取的一种重要表现形式,它出现在各种各样的现实场景中,因此有效的图分析提供 了更深入的数据集背后的信息,从而对特征提取有很大的帮助。yuan等人和chen等人 分别提出了作用于每个视图的多图拉普拉斯算子(grmccs)和单一图作用于公共源 (gmcca)的策略。两种方法在分类精度上都表现出了良好的性能。
7.然而,当利用mcca及其扩展方法(如gmcca)时,用于特征提取的训练样本 可能存
在噪声干扰和其他不良信息,从而导致得到的低维特征偏离真实特征。在图像识 别任务中,如果不能准确估计出区别于其他实体的最有代表性的特征,则会导致识别率 显著降低。除此之外,还存在训练样本数量小于样本得特征维数的情况,称为小样本问 题。在这种情况下,有限的样本也是导致偏差的因素之一,因为当样本规模不够大时, 无法深入了解数据的结构,最终导致低维数据的不准确。


技术实现要素:

8.发明目的:针对现实应用中常见的噪声干扰,数据量远小于数据维度等干扰特征提 取的因素,提出一种分数阶图嵌入多重集典型相关分析方法。
9.技术方案:一种分数阶图嵌入多重集典型相关分析方法,包括如下步骤:
10.步骤1:用户输入的各视图样本用矩阵表示,其中xi=(x
i1
,x
i2
,

,x
in
), x
ij
表示第i个视图的第j个样本,j=1,2,

,n,m代表视图数,n代表样本数,di为 第i个视图中各样本的原始维数;
11.步骤2:对视图样本矩阵xi进行奇异值分解,将视图样本矩阵分解为:
12.xi=uiλ
ivit

13.其中λi=diag(λ1,λ2,

,λr)是xi的奇异值矩阵,diag(
·
)表示对角矩阵,λ1≥λ2≥

≥λr为 xi的奇异值,r为矩阵xi的秩,ui和vi分别是xi的左奇异矩阵和右奇异矩阵;
14.步骤3:将用户输入的分数阶参数αi嵌入至对应视图的奇异值矩阵λi中,0≤αi≤1, 得到利用ui、vi得到分数阶嵌入的视图样本矩阵:
[0015][0016]
步骤4:利用分数阶嵌入的视图样本矩阵构建拉普拉斯矩阵包括如下 步骤:
[0017]
步骤4a:利用构建样本的无向近邻图矩阵其中a
ij
为a的 第i行第j列的元素,表示第i个样本和第j个样本间的距离权重;
[0018]
步骤4b:利用a计算对角矩阵其中
[0019]
步骤4c:根据矩阵a和d,计算拉普拉斯矩阵:
[0020][0021]
步骤5:建立多重集典型相关分析的最优化模型为:
[0022][0023]
其中为不同视图之间潜在的共同低维表示,d为低维表示的维数,为将 样本投影至目标子空间的投影矩阵,i为单位矩阵,||
·
||f为矩阵的frobenius范数;
[0024]
利用步骤4c得到的拉普拉斯矩阵建立正则化器其中tr(
·
)表示矩阵的迹,||
·
||2表示向量的2范数,si和sj分别表示潜在低维表示
的第i列和第j列,即第i个和第j个样本的低维表示;然后使用步骤3所得分数阶嵌入 的视图样本矩阵得到分数阶图嵌入多重集典型相关分析方法的目标函数:
[0025][0026]
其中γ>0是平衡图结构和典型相关的正则化参数;
[0027]
首先固定s,求所述目标函数对wi的偏导并令其为零,计算得到最优化的投影矩阵 为:然后,将所得的wi代入所述目标函数,并利用拉格朗日 乘数法得到最优解s
opt
为下式的前d个最大特征值所对应的特征向量:
[0028][0029]
最后,对应的投影矩阵wi为
[0030]
步骤6:输出所求得的最优解s
opt
以及对应的投影矩阵
[0031]
有益效果:本发明提出了一种分数阶图嵌入多重集典型相关分析方法,该方法针对 现实应用中常见的噪声干扰,数据量远小于数据维度等干扰特征提取的因素。在本发明 方法中,通过在样本数据的奇异值上直接添加分数阶参数来缓解噪声干扰、小样本问题 带来的估计偏差,使得奇异值更加接近真实值,从而提升后续特征提取的精确度,使得 投影后得到的低维表示更加能够反映真实个体的特征,提升识别率。本方法仅在降维前 调整样本数据的奇异值,在并未提高原有算法的时间复杂度的同时,提升了算法的性能。
附图说明
[0032]
图1是本发明方法的流程图;
[0033]
图2是模拟样本数据与真实协方差矩阵的偏离度分析图;
[0034]
图3是分数阶嵌入前后的样本数据与真实协方差矩阵的偏离度分析对比图;
[0035]
图4是于orl人脸数据库上在不同投影维度下的对比实验结果;
[0036]
图5是于extendedyale-b人脸数据库上在不同训练样本数下的对比实验结果。
[0037]
具体实施方式
[0038]
下面结合附图对本发明做更进一步的解释。
[0039]
如图1所示,一种分数阶图嵌入多重集典型相关分析方法,包括如下步骤:
[0040]
步骤1:用户输入的各视图样本用矩阵表示,其中xi=(x
i1
,x
i2
,...,x
in
), x
ij
表示第i个视图的第j个样本,j=1,2,

,n,m代表视图数,n代表样本数,di为 第i个视图中各样本的原始维数;
[0041]
步骤2:对视图样本矩阵xi进行奇异值分解,将视图样本矩阵分解为:
[0042]
xi=uiλ
ivit

[0043]
其中λi=diag(λ1,λ2,

,λr)是xi的奇异值矩阵,diag(
·
)表示对角矩阵,λ1≥λ2≥

≥λr为xi的奇异值,r为矩阵xi的秩,ui和vi分别是xi的左奇异矩阵和右奇异矩阵;
[0044]
步骤3:将用户输入的分数阶参数αi嵌入至对应视图的奇异值矩阵λi中,0≤αi≤1, 得到利用ui、vi得到分数阶嵌入的视图样本矩阵:
[0045][0046]
步骤4:利用分数阶嵌入的视图样本矩阵构建拉普拉斯矩阵包括如下 步骤:
[0047]
步骤4a:利用构建样本的无向近邻图矩阵其中a
ij
为a的 第i行第j列的元素,表示第i个样本和第j个样本间的距离权重;
[0048]
步骤4b:利用a计算对角矩阵其中
[0049]
步骤4c:根据矩阵a和d,计算拉普拉斯矩阵:
[0050][0051]
步骤5:建立多重集典型相关分析(mcca)的最优化模型为:
[0052][0053]
其中为不同视图之间潜在的共同低维表示,d为低维表示的维数,为将 样本投影至目标子空间的投影矩阵,i为单位矩阵,||
·
||f为矩阵的frobenius范数;
[0054]
利用步骤4c得到的拉普拉斯矩阵建立正则化器其中tr(
·
)表示矩阵的迹,||
·
||2表示向量的2范数,si和sj分别表示潜在低维表示的第i列和第j列,即第i个和第j个样本的低维表示;然后使用步骤3所得分数阶嵌入 的视图样本矩阵和步骤5,得到分数阶图嵌入多重集典型相关分析方法的目标函 数:
[0055][0056]
其中γ>0是平衡图结构和典型相关的正则化参数;
[0057]
首先固定s,求目标函数对wi的偏导并令其为零,计算得到最优化的投影矩阵为: 然后,将所得的wi代入目标函数,并利用拉格朗日乘数法得 到最优解s
opt
为下式的前d个最大特征值所对应的特征向量:
[0058][0059]
最后,对应的投影矩阵wi为
[0060]
步骤6:输出所求得的最优解s
opt
以及对应的投影矩阵
[0061]
为了对所提方法(fgmcca)的有效性进行测试,本发明在matlab中对方法进 行了实现和测试,并与mcca,gmcca,hesmcc,l
2,1-cca这些已有的方法进行对 比,验证本方法的性能。实验包括一个模拟数据实验以及三个现有数据库的实验。在现 有数据库中,为获得图片不同视图的特征,对每一张图片首先进行了二阶daubechies 变换和三阶coiflets小波变换以获得数据的不同低频特征,与原视图一起构成了具有三 个视图特征的数据集。为避免样本矩阵奇异的问题,首先对样本的各个视图利用pca 进行降维处理,将至的维数固定为150维。同时,为体现本算法对于噪声的鲁棒性,对 于每一个数据库,在实验前都对图片进行了不同的噪声处理。在fgmcca算法中,每 个视图对应的分数阶参数αi从{0.1,0.2,...,1}中训练得到,并固定为相同的数值。设置无 向近邻图矩阵a中元素a
ij
为:
[0062][0063]
其中,代表第i个样本的组内与之距离最近的p个样本的集合,表示训练集x
tr
中第i个样本的第一视图中对应的向量。对于图正则化参数γ,在10-3
和103之间取等30 个等对数间隔,从中选取最优值(gmcca中亦同)。实验中,使用基于余弦距离的最 近邻算法作为分类器。
[0064]
实验1:分数阶嵌入对样本协方差矩阵纠正能力的分析。
[0065]
本实验利用不同维数的符合多元高斯分布的数据来模拟样本矩阵,并利用如下两种 准则来描述样本相较于真实值的偏移:
[0066][0067][0068]
其中,c代表真实的协方差矩阵,代表相应的模拟样本的协方差矩阵,||
·
||f表示矩阵 的frobenius范数(f范数),||
·
||2表示矩阵的2范数或称为谱范数。
[0069]
图2依次为两种准则下模拟样本的协方差矩阵与真实值的偏离度,可以看出随着样 本维数的增加,其中(a)为f范数下的偏移,(b)为谱范数下的偏移,协方差矩阵的偏离 度在两种准则下都显著上升,此结果表明,样本的特征维数越高则其与真实值得偏离就 越大,从而使得特征提取后的低维表示不足以精确的表示原始数据。
[0070]
图3依次为两种准则下加入分数阶前后模拟样本的协方差矩阵与真实值的偏离度对 比,其中(a)为f范数下的偏移,(b)为谱范数下的偏移,fe代表嵌入后的偏移,noisysamples代表嵌入前的偏移。可以看出,在样本矩阵加入分数阶后,其与真实值得偏移 明显缓和,并且随着样本维数的增加,其增长缓慢。
[0071]
实验2:不同投影维度下本发明方法性能分析。
[0072]
本实验使用orl人脸数据库,数据库总共包含10个人的共400张灰度图片,每个 人40张。实验中随机选取每个人的5张图片作为训练样本,另5张作为测试样本。在 识别之前在每张人脸数据中加入噪声密度为0.2的椒盐噪声,实验时不断增加投影子空 间的维数对
比不同方法的识别率。图4中的(a)、(b)、(c)三幅图依次为10次随机实验三 个视图的平均识别率,显然各种方法在投影维数增加时识别率都成上升趋势,而 fgmcca始终保持着最高的识别率,且在较低的子空间维数时就以保持了稳定的高识 别率。说明本方法提取出的最显著的特征能够更好的区分不同个体。
[0073]
实验3:不同训练样本数下本发明方法性能分析。
[0074]
本实验使用extendedyale-b人脸数据库,数据库总共包含38个的每个人64张正脸 灰度图片,实验前在每张图片中加入0均值0.05方差的高斯噪声。实验中子空间维数固 定为70,每个人的训练样本数从5张至40张以5为间隔依次递增。图5中的(a)、(b)、 (c)三幅图分别为10次随机实验的平均识别率对比图,显然,对于不同的训练样本数, 本发明方法一直表现出最好的性能,并且与第二名的方法一直保持有一定差距。本实验 表明,fgmcca算法对于样本数的敏感度不高,能够在不用的训练样本数下保持一定 的稳定性以及对噪声的鲁棒性。
[0075]
实验4:持续升高的噪声干扰下本发明方法的鲁棒性分析。
[0076]
本实验基于coil-20物体数据库,为进一步展示fgmcca的抗噪声性能,对此数 据库中的每一张图片加入噪声密度持续增大的椒盐噪声,由0.1升至0.7,而持续升高的 噪声代表着原有图片信息的不断减少。实验中,固定除hesmcc外的每种方法的投影空 间维数为5,而由于hesmcc在此条件下的识别率过低,一般小于0.1,并且此实验旨 在验证本发明方法对于持续升高的噪声的鲁棒性,因此我将hesmcc的投影空间维数升 至60,在此数值下,噪声密度为0.1时,其识别率与其余方法相近。随着噪声的不断增 强,各种方法的识别率都有所下降,但就下降速度而言,fgmcca较为和缓,并且与 其余方法的识别率差距在逐渐加大,显然,本发明方法降低了噪声干扰对于识别率的影 响。
[0077]
以上所述仅是本发明的优选实施方式,应当指出,对于本技术领域的普通技术人员 来说,在不脱离本发明原理的前提下,还可以做出若干改进和润饰,这些改进和润饰也 应视为本发明的保护范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献