一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于连续小波投影的光谱信息挖掘方法与流程

2021-10-24 08:18:00 来源:中国专利 TAG:光谱 投影 小波 挖掘 连续


1.本发明属于农业光谱技术领域,具体涉及一种基于连续小波投影的光谱信息挖掘方法。


背景技术:

2.光谱技术是通过测量不同波长下目标物体的辐射强度来反应物体的本真属性,主要研究物质和能量辐射间的相互作用。鉴于光谱对物质特征的分析能力,光谱在20世纪就已经被物理学家和化学家引入作为重要的实验分析手段。目前光谱技术已经应用于大多数的科学和技术领域,在植物监测方面,由于植物的光谱特性很大程度上取决于其生物物理和生物化学特性,光谱技术成为植物特性估算和生态系统评价的有效工具。在植物光谱分析的研究中,一个重要的问题是如何从植物光谱中提取与探测目标(植物类型、状态、生理生化参数等)相关的有效特征信息。目前,针对光谱数据的处理方法主要分为光谱特征选择和光谱特征提取。
3.由于相邻光谱波段之间具有较强的相关性以及较高的冗余度,光谱特征选择是光谱分析中一项重要任务。近年来,大量研究通过统计学方法选择光谱特征并且探索光谱特征的组合优化方法,但是上述方法常基于原始光谱进行组合优化分析,对光谱信息的挖掘深度仍有待拓展。不同于光谱特征选择,光谱特征提取则尝试通过对原始光谱波段作一种特定的线性或非线性变换,来挖掘隐含于光谱中一些更深层次的信息,但是随后的特征选择机制相对简单,往往难以避免特征之间信息冗余的问题。


技术实现要素:

4.针对现有技术的不足,本发明提出了一种基于连续小波投影的光谱信息挖掘方法,对植物的探测光谱进行特征选择与组合优化,选择出具备高敏感性和低冗余性的特征集合,解决特征集合中信息冗余的问题,使后续模型建立与实际应用中实现更高的精度与更低的成本。
5.一种基于连续小波投影的光谱信息挖掘方法,具体包括以下步骤:
6.步骤1、将采集到的光谱信息整理为二维光谱矩阵x
m
×
n
,其中m为样本个数,n为光谱波段数量。
7.步骤2、对二维光谱矩阵x
m
×
n
中的每个样本进行连续小波分解,在q个分解尺度下转化为小波系数,形成三维小波系数矩阵y
m
×
n
×
q

8.步骤3、对步骤二得到的三维小波系数矩阵y
m
×
n
×
q
按照分解尺度q展开,然后依次拼接形成二维小波系数矩阵z
m
×
s
,其中s=n
×
q。
9.步骤4、设置筛选的波长个数,使用投影算法对步骤3得到的二维小波系数矩阵z
m
×
s
进行特征组合,得到c个特征链矩阵w
g
×
s
,其中g为波长的筛选个数,g∈[s
min
,s
max
],c=s
max

s
min
,s
min
、s
max
分别为筛选个数的最小值、最大值。
[0010]
步骤5、对步骤4得到的c个特征链矩阵w
g
×
s
中的每个特征进行敏感性分析,计算每
个特征的敏感性系数,得到对应的c个特征敏感性矩阵m
g
×
s

[0011]
步骤6、计算步骤5得到c个特征敏感性矩阵m
g
×
s
的每列元素的均值,得到c个均值矩阵v1×
s
,找到每个均值矩阵中最大的元素所在的列s
cmax

[0012]
步骤7、将c个特征链矩阵w
g
×
s
的第s
cmax
列的小波系数作为特征组合,输入学习模型中进行训练与预测,得到最优的特征组合数以及对应的特征组合成员,完成光谱信息的挖掘。
[0013]
作为优选,所述学习模型为输入随机森林、朴素贝叶斯模型或多元线性回归模型。
[0014]
本发明具有以下有益效果:
[0015]
1、通过连续小波投影算法,提出的以特征敏感性排序作为特征链选择的依据,保证了排列靠前特征既有高敏感性,又有强互补性,因此特征链的前段能够得到数量少且组合优的特征,实现使用较少量的特征达到较高的模型精度。
[0016]
2、本方法所选特征集展现出数量精简,形式简单的主要特点,可以极大地缓解目前光谱数据分析的计算代价,为特定场景下的光谱仪器开发、大范围植物遥感监测如机载,星载光谱传感器等提供一种高效的数据分析方法。
附图说明
[0017]
图1为连续小波投影算法的流程图;
[0018]
图2为实施例中分类场景下的特征精度变化图;
[0019]
图3为实施例中回归场景下的特征精度变化图;
[0020]
图4为实施例中分类场景下的光谱信息及优选小波特征信息图;
[0021]
图5为实施例中回归场景下的光谱信息和优选小波特征信息图。
具体实施方式
[0022]
以下结合附图对本发明作进一步的解释说明;
[0023]
一种基于连续小波投影的光谱信息挖掘方法,具体包括以下步骤:
[0024]
使用matlab软件对茶树胁迫光谱数据集(teaspec)、玉米叶片光谱实验数据集(cornspec)和叶片光学特性实验数据集(lopex)这三个数据集作为采集到光谱信息。其中teaspec为多分类数据集,,其叶片样本采集于中国农业科学院实验茶园,数据集中包括茶小绿叶蝉(gl)、茶炭疽病(ah)和灼伤(br)这三种茶树胁迫,均属于茶园中常见且易混的病虫害。cornspec数据集中的玉米叶片样本采集于北京小汤山精细农业试验基地,是一个包括玉米叶片光谱和对应叶绿素含量的数据集,用于反演玉米叶绿素(chl)的光谱特征研究。lopex数据集由意大利联合研究中心收集,是一个包括42种植物叶片光谱和对应化学成分的数据集,本实施例选取等效水厚度(ewt)进行讨论分析。
[0025]
步骤1、将三个数据集中的光谱信息整理为二维光谱矩阵x
m
×
n
,其中m为样本个数,n为光谱波段数量,表1中为选用的光谱信息。
[0026][0027]
表1
[0028]
步骤2、如图1所示,对二维光谱矩阵x
m
×
n
中的每个样本进行连续小波分解,在q个分解尺度下转化为小波系数,形成三维小波系数矩阵y
m
×
n
×
q
。使用的小波基函数为:
[0029][0030]
其中,a表示尺度因子,b表示平移因子。小波系数表达式为:
[0031][0032]
其中,f(λ)是反射率光谱,λ=1,2,

,n,小波系数w
f
(a
i
,b
j
)包含了一个大小为q
×
n的二维小波系数图,i=1,2,

,m;j=1,2,

,n。
[0033]
步骤3、对步骤二得到的三维小波系数矩阵y
m
×
n
×
q
按照分解尺度q展开,然后依次拼接形成二维小波系数矩阵z
m
×
s
,其中s=n
×
q。
[0034]
步骤4、设置筛选的波长个数为g,g∈[1,100],使用投影算法对步骤3得到的二维小波系数矩阵z
m
×
s
进行特征组合:
[0035]
s4.1、令h=1,d=1。
[0036]
s4.2、选择矩阵z
m
×
s
中第d列的向量z
d
,记为z
k(0)
;将其他未被选中的列向量集合记作set,
[0037]
s4.3、计算当前向量z
k(h

1)
对set集合中剩余的列向量z
d
投影:
[0038]
pz
d
=z
d

(z
td
z
k(h

1)
)z
k(h

1)
(z
tk(h

1)
z
k(h

1)
)
‑1,d∈set
[0039]
s4.4、获得最大投影值pz
d
所对应的波长k(h):
[0040]
k(h)=arg(max||pz
d
||,d∈set)
[0041]
s4.5、将上述最大投影值pz
d
作为下次迭代的初始值:
[0042]
z
d
=pz
d
,d∈set
[0043]
s4.6、令h=h 1,若h<g,返回s4.2;若h=g,提取的波长位置为{k(h),h=0,1,

,g

1},进入s4.7。
[0044]
s4.7、令g=g 1,若g≤100,返回s4.2;若g>100,进入s4.8。
[0045]
s4.8、令d=d 1,若d≤s,返回s4.2。若d>s,结束循环。
[0046]
得到c个特征链矩阵w
g
×
s
,其中c=100

1=99。
[0047]
连续小波投影算法的精度变化如图2、图3所示,三个数据集的曲线均在极少的特征数下达到顶峰,其中teaspec数据集在精度骤降后缓慢回升,cornspec和lopex数据集的
精度在缓慢下降的中途出现少量的反弹。值得注意的是,尽管曲线在特征数后期存在精度上升或反弹的现象,但是其精度仍无法达到前期少量特征数对应的模型精度。而这种在特征数前期以极少的特征数量呈现出“爆炸式”的精度增长现象,目前还未在其他光谱信息挖掘方法中出现。
[0048]
步骤5、对步骤4得到的c个特征链矩阵w
g
×
s
中的每个特征进行敏感性分析,计算每个特征的敏感性系数,得到对应的c个特征敏感性矩阵m
g
×
s

[0049]
针对二分类问题,对每个特征进行独立t检验,将统计量p值作为敏感性系数;对于多分类问题,对每个特征进行方差分析,将统计量p值作为敏感性系数;对于回归问题,计算每个特征与反演目标的决定系数,将r2值作为敏感性系数。
[0050]
步骤6、计算步骤5得到c个特征敏感性矩阵m
g
×
s
的每列元素的均值,得到c个均值矩阵v1×
s
,找到每个均值矩阵中最大的元素所在的列s
cmax

[0051]
步骤7、将c个特征链矩阵w
g
×
s
的第s
cmax
列的小波系数作为特征组合,输入学习模型中进行训练与预测,将最高的总体精度或者最高的决定系数作为目标值,得到最优的特征组合数以及对应的特征组合成员,完成光谱信息的挖掘。
[0052]
将teaspec数据集选取的特征组合输入到随机森林模型与朴贝叶斯模型中,并进行验证,模型精度如表2所示:
[0053][0054]
表2
[0055]
将cornspec和lopex数据集选取的特征组合输入到多元线性回归模型中,结果如表3所示:
[0056][0057]
表3
[0058]
其中cornspec数据集对应的决定系数r2为0.8521,可以较好地实现对玉米叶片的叶绿素反演。lopex数据集对应的决定系数r2为0.9508,能实现高精度的反演植物叶片的等效水厚度。
[0059]
图4、图5分别为分类场景中teaspec数据集以及回归场景中cornspec和lopex对应的光谱信息及优选小波特征。
[0060]
表4为本方法所选的小波特征参数:
[0061][0062]
表4
[0063]
从表4中可以看到,在teaspec数据集中,连续小波投影算法所选的第一个特征wf
t
01对应分解尺度为7,光谱波长为941nm,该位置主要反应茶树胁迫引起的叶片细胞结构破坏和水分含量下降,能够充分体现其在茶树病虫害区分中的潜力,为整个数据集打下了坚实的基础。后续选择的第二个特征wf
t
02对应分解尺度为6,光谱波长为632nm,位于叶绿素吸收峰附近,能够反应茶树胁迫导致的叶绿体结构变化,从整体的角度看,wf
t
01和wf
t
02的相关性很低(r2=6.0040e

10
),可见两者之间并不存在明显的信息冗余,使得wf
t
02成为了wf
t
01有效的信息补充。连续小波投影算法的高敏感性和强互补性在回归场景中也有所体现,在lopex数据集中,连续小波投影算法选取的三个小波特征分别位于1162,1313和1282nm,均属于叶片水分吸收的重要区域,其中首个特征wf
l
01具有较高的敏感性(r2=0.9172),并且三个特征之间存在较强的互补性,特征两两之间的决定系数分别为3.4977e

11
,5.6800e

07
和1.4226e

06
。同样在cornspec数据集中,cwpa选取的首个特征wf
c
01与反演目标chl具有较高的敏感性(r2=0.7928),位置处于光谱绿峰(560nm),是反应植物生化成分的重要光谱区域。wf
c
02对应分解尺度为9,中心波长为887nm,与wf
c
01的决定系数为1.2803e

10
,形成对首个特征有效的信息补充。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献

  • 日榜
  • 周榜
  • 月榜