一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

属性图调整的迹值比线性判别分析降维方法、设备及介质

2022-11-19 09:29:28 来源:中国专利 TAG:


1.本发明属于数据处理技术领域,具体涉及一种属性图调整的迹值比线性判别分析降维方法、设备及介质。


背景技术:

2.在大数据时代,实际应用场景中所获得的数据量是巨大的,直接进行处理对算法运行时间和内存带来的挑战是极大的,并且数据中的大量冗余信息会影响对数据的处理。降维可以将高维数据投影到其低维内部空间,而不丢失判别信息。这是计算机视觉、模式识别和机器学习中高维数据分析的必要步骤。目前可用的降维算法可以分为两大类:第一类是无监督算法如主成分分析、局部保留投影、邻域保留投影算法、局部线性嵌入;第二类是有监督算法如线性判别分析、最大间距准则、典型相关分析、偏最小二乘法。
3.迹值比线性判别分析是一种经典的基于线性子空间学习的监督降维算法,是线性判别分析的迹值比形式。线性判别分析的主要缺点之一是它无法提取数据流形的局部结构信息。为了克服这一缺点,研究者们提出了许多方法来探索局部数据结构。局部线性判别分析([1]sugiyama,m.."local fisher discriminant analysis for supervised dimensionality reduction."international conference on machine learning acm,2006.)结合了线性判别分析和局部保留投影的思想,以局部的方式评估类内散度矩阵和类间散度矩阵,从而实现了类的可分性和局部结构的保存。自适应判别分析([1]nie,f.,et al."adaptive local linear discriminant analysis."acm transactions on knowledge discovery from data 14.1(2020):9.1-9.19.)将样本的重要性测量和子空间学习结合在一个统一的框架中。自适应局部线性判别分析通过自适应学习k个最近邻图来提取数据本身的局部连通性,与此同时更新子空间。自适应局部线性判别分析还提出了一种有效的迭代优化算法来解决最小化问题。
[0004]
很明显,属性之间并不是相互独立的,甚至是相关的,但是无论是线性判别分析还是上述方法都没有考虑属性之间的相似性对降维的影响,这使得降维后的数据集丢失了原始数据集的重要信息。


技术实现要素:

[0005]
本发明的目的在于提供一种属性图调整的迹值比线性判别分析降维方法,解决了线性判别分析以及当下一些先进算法不考虑属性相似性,以致于丢失原始数据集重要信息的问题。
[0006]
本发明是通过以下技术方案来实现:
[0007]
一种属性图调整的迹值比线性判别分析降维方法,包括如下步骤:
[0008]
步骤1、构建属性图;
[0009]
构建属性图的具体过程为:将样本集x中不同样本点上相同属性的值的集合看作一个该属性的向量,将此向量看成一个属性点,d个属性的样本集则生成d个属性点;
[0010]
将每个属性点看成一个全连接的无向加权图的顶点,生成该无向加权图的顶点集,任意俩个顶点之间相连接的边采用高斯核函数加权,得到该样本集x的属性图;
[0011]
步骤2、计算属性图的拉普拉斯矩阵l以及样本集x的类内散度矩阵sw、类间散度矩阵sb和总散度矩阵s
t

[0012]
步骤3、根据属性图的拉普拉斯矩阵l、类内散度矩阵sw、类间散度矩阵sb和总散度矩阵s
t
构建以判别投影矩阵w为优化变量的属性图调整的迹值比线性判别分析最优化问题,设计最优化问题对应的目标函数;
[0013]
步骤4、采用itr算法对所构建的最优化问题的目标函数进行优化求解,得到最优判别投影矩阵w
*

[0014]
步骤5、利用最优判别投影矩阵w
*
对样本集进行变换从而实现降维。
[0015]
进一步,步骤1中,高斯核函数如下:
[0016][0017]
其中a
p
和aq分别代表p属性对应的属性点和q属性对应的属性点,σ为常量;p=1,2,...d,q=1,2,...,d。
[0018]
进一步,步骤2中,计算属性图的拉普拉斯矩阵l具体为:
[0019]
首先计算每一个属性点的度,属性点a
p
对应的度计算为
[0020]
然后计算属性图的度矩阵b,度矩阵b是一个对角矩阵,记为b
pp
,其中b
pp
=b
p
,p=1,2,...d;
[0021]
接着计算属性图的邻接矩阵a,邻接矩阵a由a
pq
组成;
[0022]
最后计算属性图的拉普拉斯矩阵如下:
[0023]
l=b-a。
[0024]
进一步,步骤2中,计算样本集x的类内散度矩阵sw、类间散度矩阵sb和总散度矩阵s
t
具体为:
[0025]
样本集x=[x1,x2,...,xn]
t
∈rn×d含有n个样本点,每个样本点用xi表示,样本集共有m个类别,xk是属于第k类的样本点的集合;
[0026]
类内散度矩阵sw定义如下:
[0027][0028]
类间散度矩阵sb定义如下:
[0029][0030]
总散度矩阵s
t
定义如下:
[0031][0032]
其中uk表示第k类样本的样本中心点,u表示所有样本的中心点,nk表示xk中样本点的数目,t表示矩阵或向量的转置。
[0033]
进一步,步骤3中,用该属性图的拉普拉斯矩阵l来约束判别投影矩阵w,在最小化tr(w
t
sww)和最大化tr(w
t
sbw)的同时最小化tr(w
t
lw),用参数λ来调节对基于属性图的调整项tr(w
t
lw)的考虑比例;
[0034]
设计最优化问题的最小化目标函数或最大化目标函数
[0035]
其中优化变量为投影矩阵w=[w1,w2,...,wc]∈rd×c,约束为w
t
w=1,参数λ为常量,c为降维后维度。
[0036]
进一步,最小化tr(w
t
lw)的过程表达式为:
[0037][0038]
其中w
ph
和w
qh
分别表示wh的第p个元素和wh的第q个元素,wh是w的第h列向量;
[0039]
p属性对应的属性点和q属性对应的属性点这两个属性越相似,a
pq
值越大,对应的(w
ph-w
qh
)2值越小,w
ph
和w
qh
越相似;
[0040]
相似的属性具有相似的权值,因此在降维过程中考虑了属性之间的相关性。
[0041]
进一步,参数λ的取值范围为0≤λ≤1。
[0042]
进一步,步骤5中,样本集x乘以最优判别投影矩阵w
*
实现降维,降维后的样本集的表达式为:x

=xw
*

[0043]
其中,x’为降维后的样本集。
[0044]
本发明还公开了一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现所述属性图调整的迹值比线性判别分析降维方法的步骤。
[0045]
本发明还公开了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现所述属性图调整的迹值比线性判别分析降维方法的步骤。
[0046]
与现有技术相比,本发明具有以下有益的技术效果:
[0047]
本发明公开了一种属性图调整迹值比线性判别分析有监督降维算法。本算法将同一属性上所有样本点的属性值组成的向量表示成一个属性点,对每对属性点之间的边用高斯核函数加权生成属性图。在最大化投影变换后的类间散度、最小化投影变换后的类内散度的同时引入属性图对判别投影矩阵的调整项,使得相似的属性在判别投影矩阵中有相似的权值。本发明提出的算法是对传统的迹值比线性判别分析算法的改进,大大提升了降维效果,通过调整参数可以退化为传统的迹值比线性判别分析算法。本发明所提出算法对于参数不敏感,并且在降到不同维度时表现稳定。本发明优于一些已有的线性判别分析改进算法,在降维时能更好的保留原始数据的信息。
附图说明
[0048]
图1是本发明的构建过程;
[0049]
图2是未降维前的原始数据集可视化在二维的结果;
[0050]
图3是采用属性图调整的迹值比线性判别分析降维后可视化在二维的结果;
[0051]
图4是作为对比采用迹值比线性判别分析降维后可视化在二维的结果;
[0052]
图5是作为对比采用局部线性判别分析降维后可视化在二维的结果;
[0053]
图6是作为对比采用自适应局部线性判别分析降维后可视化在二维的结果;
[0054]
图7是本发明所含参数敏感性分析的结果;
[0055]
图8是本发明与其他算法降到不同维度后采用邻近算法分类的准确率对比图。
具体实施方式
[0056]
为了使本发明的目的、技术方案及优点更加清楚明了,以下结合附图及实施例进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本发明,并不用于限定本发明,即所描述的实施例仅仅为本发明一部分实施例,而不是全部实施例。
[0057]
本发明附图及实施例描述和示出的组件可以以各种不同的配置来布置和设计,因此,以下附图中提供的本发明实施例的详细描述并非旨在限制要求保护的本发明的范围,而仅仅是表示本发明选定的一种实施例。基于本发明的附图及实施例,本领域技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护范围。
[0058]
需要说明的是:术语“包含”、“包括”或者其他任何其他变体意在涵盖非排他性的包含,使得包括一系列要素的过程、元素、方法、物品或者设备不仅仅只包括那些要素,还包括没有明确列出的其他要素,或者是还包括该其过程、元素、方法、物品或者设备所固有的要素。此外,术语“水平”“竖直”是基于附图所示装置或部件的方位和位置关系,仅是为了更好的描述本发明,而不是要求所示的装置、部件或设备必须具有该特定方位,因此不能理解为对本发明的限制。
[0059]
以下结合实施例对本发明的特征和性能进一步详细说明。
[0060]
下面结合具体数据集来说明本发明的具体实施方式。在数据集movement_libras上实现本发明并分析本发明有益的技术效果。movement_libras数据集含有360个样本点、90种属性、15个类别,每个类包含24个样本实例,其中每个类都引用libras(葡萄牙语名称“lngua brasileira de sinais”,官方巴西信号语言)中的一种手部运动类型。数据集在视频预处理中,按照均匀分布从每个视频中选取45帧进行时间归一化。在每一帧中,找到被分割对象(手)的质心像素,它们构成了具有45个点的曲线f的离散版本。所有曲线都在酉空间中进行归一化后进行映射操作,即将每条曲线f映射为具有90个特征的表示,以表示运动的坐标。
[0061]
本发明提出一种属性图调整的迹值比线性判别分析降维方法,方法构建过程如图1所示,图1左边描述了属性图生成的过程,图1右下描述了属性图拉普拉斯矩阵计算过程,图1右上表示的是属性图调整的迹值比线性判别分析降维方法的优化问题的目标函数以及构建过程。具体包括以下步骤:
[0062]
步骤一、构建属性图;
[0063]
将样本集movement_libras中360个样本点上相同属性的值的集合看作一个该属性的向量a
p
∈r
360
×1,将此向量看成一个属性点,共得到90个属性点。将每个属性点看成一个顶点可以生成一个无向加权图,也就是属性图。为呈现清晰,图1左边只呈现五个属性点生成的属性图,以作为说明。
[0064]
属性图中每一对属性点之间的边采用高斯核函数属性图中每一对属性点之间的边采用高斯核函数加权,高斯核函数的参数σ对本发明影响甚微,这里选取为0.9。
[0065]
步骤二、计算属性图的拉普拉斯矩阵l以及样本集x的类内散度矩阵sw、类间散度
矩阵sb和总散度矩阵s
t

[0066]
计算属性点a
p
,p=1,2,...90对应的度计算属性图的度矩阵和邻接矩阵。属性图的度矩阵b∈r
90
×
90
是对角矩阵,其中b
pp
=b
p
。属性图的邻接矩阵a∈r
90
×
90
由a
pq
组成,p=1,2,...90,q=1,2,...,90。
[0067]
用公式l=b-a计算属性图的拉普拉斯矩阵l∈r
90
×
90

[0068]
样本集x=[x1,x2,...,xn]
t
∈rn×d含有n个样本点,每个样本点用xi表示,样本集共有m个类别,xk是属于第k类的样本点的集合;
[0069]
类内散度矩阵
[0070]
类间散度矩阵
[0071]
总散度矩阵其中uk表示第k类样本的样本中心点,u表示所有样本的中心点,nk表示xk中样本点的数目,t表示矩阵或向量的转置。
[0072]
步骤三:根据属性图的拉普拉斯矩阵l、类内散度矩阵sw、类间散度矩阵sb和总散度矩阵s
t
构建以判别投影矩阵w为优化变量的属性图调整的迹值比线性判别分析最优化问题,设计最优化问题对应的目标函数;具体为:
[0073]
用该属性图的拉普拉斯矩阵l来约束判别投影矩阵w,在最小化tr(w
t
sww)和最大化tr(w
t
sbw)的同时最小化tr(w
t
lw),用参数λ来调节对基于属性图的调整项tr(tr(w
t
lw)的考虑比例;
[0074]
设计最优化问题的最小化目标函数或最大化目标函数其中优化变量为投影矩阵w=[w1,w2,...,wn]∈r
90
×c,约束为w
t
w=1,λ为参数,λ选取0.4,选取原因后续会进行详细说明,c为降维后维度,根据需要选取。
[0075]
步骤四:采用itr算法求解上诉目标函数得到最优判别投影矩阵w
*

[0076]
步骤五:利用最优判别投影矩阵w
*
对样本集进行变换从而实现降维。降维后的样本集的表达式为:x

=xw
*

[0077]
其中,x’为降维后的样本集。
[0078]
将原始movement_libras样本集用tsne方法二维进行可视化如图2所示,原始样本集采用本发明提出的方法降维到36维后也在二维进行可视化如图3所示。图中knn指标代表原始高维数据中k最近邻作为k最近邻保留的比例,量化了局部或微观结构的保存。knc指标为原始数据中k最近类的分数,在嵌入中保留为k最近类的分数,量化了介观结构的保存。cpd指标为在高维空间和嵌入中的成对距离之间的斯皮尔曼相关性,量化了全局或宏观旋转结构的保存。
[0079]
为了体现本发明的优点,加入三种对比算法,采用迹值比线性判别分析、局部线性判别分析和自适应局部线性判别分析三种方法将数据集降维到36维后在二维进行可视化,分别如图4、图5、图6所示。
[0080]
对比图2与图3,图2与图4,图2与图5,图2与图6综合可以看出图2与图3的三个评价指标更为接近,同时图2与图3的数据结构也最为相近,也就是在图2中距离相近类在图3中也更加接近,图2中距离较远的类在图3中也更加接近,说明本发明在减少数据集维度的同时最大限度的保留了数据集的原始信息,在原始数据集中相邻的类别依然相邻,而其他三
种方法都对原始数据集的信息有不同程度的丢失。同时对比图3,图4,图5,图6可以看出采用本发明方法降维后的样本集具有更好的可分性。
[0081]
对步骤三中参数λ的选择进行进一步说明,首先对样本集每个样本点进行归一化处理,然后对样本集进行分层抽样,得到70%的样本即252个样本作为训练集,其他30%的样本即108个样本作为测试集。准确性作为一种评价度量,被定义为分类器正确分类的样本数量与给定测试数据集的样本总数的比率。对训练数据集和测试数据集分别降维到36维后,用降维后的训练数据集训练k值为1的knn分类器,用训练好的knn分类器对测试数据集进行分类,评估测试数据集的分类准确率。将参数λ从0取到1,间隔为0.1。分类准确率随参数取值的变化如图7所示。从图中可以看出本发明的方法对于参数不敏感,参数取为1时,本发明退化为传统的迹值比线性判别分析。图7参数取为1时准确率明显下降,这也反应出本发明的发明优于传统迹值比线性判别分析。基于上述研究,对参数λ的选择可以选择不为1的任意值,这里采用0.4。
[0082]
对数据集的使用往往针对不对问题需要采用不同维度,本发明将用本发明提出的降维算法分别降到数据集秩的0.1倍到1倍,间隔为0.1,即9、18、27、36、45、54、63、72、81、90维。降维后依然用k值为1的knn分类器进行性能评估,也就是对训练数据集和测试数据集分别降维后,用降维后的训练数据集训练k值为1的knn分类器,用训练好的knn分类器对测试数据集进行分类,计算测试数据集的分类准确率。为了体现本发明的优点,本发明同时采用迹值比线性判别分析、局部线性判别分析和自适应局部线性判别分析三种方法重复本段描述的实验。实验结果如图8所示,从图中可以看出本发明的方法在降到不同维度时准确率都是四种方法中最高的,并且相较于其他三种方法的不稳定,本发明的方法在维度减小时,性能并不会出现大幅下降。
[0083]
因为上述研究较为依赖于knn分类器,为排除knn分类器对本发明评估的影响,本发明设计采用一百棵树的随机森林、支持向量机以及朴素贝叶斯三种分类器来替换knn分类器评估本发明性能。
[0084]
本发明将训练数据集和测试数据集分别降维到36维后,用降维后的训练数据集训练上述三种分类器,用训练好的分类器对测试数据集进行分类,计算测试数据集的分类准确率。同时为了体现本发明的优点,本发明同时采用迹值比线性判别分析、局部线性判别分析和自适应局部线性判别分析三种方法重复本段描述的实验。实验结果为用本发明算法、迹值比线性判别分析、局部线性判别分析和自适应局部线性判别分析四种方法降维后用随机森林分类的准确率分别为86.96%、34.23%、73.26%和72.34%。用本发明算法、迹值比线性判别分析、局部线性判别分析和自适应局部线性判别分析四种方法降维后用支持向量机分类的准确率分别为55.56%、33.33%、33.33%和23.33%。用本发明算法、迹值比线性判别分析、局部线性判别分析和自适应局部线性判别分析四种方法降维后用朴素贝叶斯分类器分类的准确率分别为86.67%、37.78%、75.56%和62.22%。从实验结果可以看出采用不同分类器评估本发明的方法依然是最优的,这排除了分类器对发明评估的影响。
[0085]
本发明提出了一种属性图构建的思路,有效的解决了传统迹值比线性判别分析无法考虑到数据局部结构的问题。同时给出了最大化迹值比形式的目标函数,以及最小化迹值比形式的目标函数。本发明对属性相关性的度量具有可解释性,可以直接反映在公式中。步骤三中最小化w
t
lw的过程,即属性图嵌入项可以单独写为:
rom、光学存储器等)上实施的计算机程序产品的形式。
[0097]
本发明的属性图调整的迹值比线性判别分析降维方法如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明实现上述实施例方法中的全部或部分流程,也可以通过计算机程序来指令相关的硬件来完成,所述的计算机程序可存储于一计算机可读存储介质中,该计算机程序在被处理器执行时,可实现上述各个方法实施例的步骤。其中,所述计算机程序包括计算机程序代码,所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。计算机可读存储介质包括永久性和非永久性、可移动和非可移动媒体可以由任何方法或技术来实现信息存储。信息可以是计算机可读指令、数据结构、程序的模块或其他数据。需要说明的是,所述计算机可读介质包含的内容可以根据司法管辖区内立法和专利实践的要求进行适当的增减,例如在某些司法管辖区,根据立法和专利实践,计算机可读介质不包括电载波信号和电信信号。其中,所述计算机存储介质可以是计算机能够存取的任何可用介质或数据存储设备,包括但不限于磁性存储器(例如软盘、硬盘、磁带、磁光盘(mo)等)、光学存储器(例如cd、dvd、bd、hvd等)、以及半导体存储器(例如rom、eprom、eeprom、非易失性存储器(nandflash)、固态硬盘(ssd))等。
[0098]
在示例性实施例中,还提供计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现所述属性图调整的迹值比线性判别分析降维方法的步骤。处理器可能是中央处理单元(centralprocessingunit,cpu),还可以是其他通用处理器、数字信号处理器(digitalsignalprocessor,dsp)、专用集成电路(applicationspecificintegratedcircuit,asic)、现成可编程门阵列(field-programmablegatearray,fpga)或者其他可编程逻辑器件、分立门或者晶体管逻辑器件、分立硬件组件等。
[0099]
最后应当说明的是:以上实施例仅用以说明本发明的技术方案而非对其限制,尽管参照上述实施例对本发明进行了详细的说明,所属领域的普通技术人员应当理解:依然可以对本发明的具体实施方式进行修改或者等同替换,而未脱离本发明精神和范围的任何修改或者等同替换,其均应涵盖在本发明的权利要求保护范围之内。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献