一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

基于随机森林的积雪时空分析与预测方法

2022-09-01 05:34:21 来源:中国专利 TAG:


1.本发明属于地学建模分析与应用的技术领域,具体涉及一种基于随机森林的积雪时空分析与预测方法。


背景技术:

2.积雪是全球气候系统的重要组成部分,也是淡水的重要来源,有着显著的季节和年际变化特征,是能够反映全球气候变化的重要指标。积雪数据资料传统的获取手段是地面站点实时观测和积雪野外调查,站点实施观测的指标主要有雪深、积雪密度、雪水当量等,优势在于准确度高、观测数据丰富,不足在于站点分布不均匀,不能全面反映和代表整个区域的积雪特征;积雪野外调查通过设计测雪路线并在其中指定位置附近设计样方进行采样,测量得到该点附近的积雪参数,面临的主要问题是调查的时间连续性不高、空间覆盖范围有限。随着卫星遥感技术的发展,可以利用积雪的反射特性,通过积雪物理特性在不同波段的特性表现,构建了遥感与积雪参数的关联,实现了对积雪大范围连续观测,其中光学遥感利用积雪在可见光波段和近红外波段的反射率差异能够有效识别积雪范围,微波遥感利用其较强的穿透力可以有效观测雪深,并通过积雪密度进一步估算雪水当量。由于地理环境如下垫面的差异,微波辐射信号会收到干扰,同时积雪密度在不同的区域有并不相同,因此有很多学者提出了针对特定区域和地表环境的积雪密度模型和相应的雪水当量生成算法,从而提高了区域雪水当量估算的精度,生产发布了多个雪水当量数据集,如芬兰气象研究所globsnow3.0积雪产品、美国国家冰雪数据中心amsr-e积雪产品、fy3-mwri雪深雪水当量产品等;然而,积雪密度也会降雪累积和积雪消融发生变化引起积雪变质作用,同时复杂地形会影响积雪微波散射信号,参数固定的积雪密度模型和亮温-雪深模型都会影响雪水当量估算精度。
3.大量的研究表明,微波亮温与雪深之间是非线性函数关系,积雪密度模型也不仅是固定系数的模型所能完全解释的,有学者根据积雪物理属性对微波亮温做了修正,提出了动态反演算法,但结果表明该方法普适性受到限制。同时,神经网络、支持向量机、贝叶斯方法、随机森林等机器学习算法被应用到积雪遥感反演中,同时加入先验知识或物理模型,从而能够有效提高积雪估算的精度。利用神经网络方法估算得到的积雪产品具有较高的精度,且不需要对物理过程作为先验知识基础,能够解决复杂的问题,但是要求输入特征的相关性较小,且高度依赖于训练样本,同时无法得到对过程模型的理解。支持向量机反演得到的积雪深度结果能够在一定程度上减小积雪饱和效应,但当样本量很大时其计算量过大。贝叶斯方法能够显著提高精度,但是针对大数据量,蒙特卡洛马尔科夫链算法估计方法会导致计算开销太大。随机森林算法具有抗干扰、抗过拟合、训练速度快等优势,与神经网络算法相比计算量小且精确度高,不需要很多参数就可以得到不错的效果,且不需要对特征进行降维处理,同时在随机森林模型训练过程中能够检测到特征之间的影响并给出特征的重要性排序,在生态、环境等地学领域得到了广泛应用。
4.根据地理学第一定律,积雪与环境因素的空间分布都具有空间自相关性,积雪遥
感反演中都没有考虑到空间效应在反演中的影响。griffith提出的特征向量空间滤值方法,通过地理单元构建的空间权重矩阵特征分解,将空间效应映射成特征向量,通过筛选其中显著的特征向量集,将影响地理变量分布的空间效应过滤出来,能够该表地理变量的空间分布模式和地理单元的空间影响,将其作为自变量加入到模型中,考虑了空间自相关性在统计建模中导致的方差膨胀效应和回归系数的偏移效应,从而降低空间效应对模型的影响、提高模型精度。该方法的优势在于利用空间权重矩阵的特征向量来表达空间影响,具有很强的可扩展性,能够直接应用于线性回归和广义线性回归,并在空气污染、植被覆盖、滑坡灾害等领域开展了应用,结果显示,特征向量空间滤值方法能够显著提高了模型的精度。
5.综上所述,基于机器学习的在积雪遥感估算和预测中,没有考虑积雪与环境因素空间效应的影响,也缺乏积雪变化过程的时空分析,因此,亟待提供一种估计空间效应机器学习方法实现对积雪降尺度制图和短期积雪预测,为积雪变化和全球气候变化提供重要支撑。


技术实现要素:

6.本发明的目的在于针对现有技术的不足之处,提供一种基于随机森林的积雪时空分析与预测方法,本发明同时考虑了积雪与环境因素空间效应的影响,并对积雪变化过程进行了时空分析,使得构建的积雪估算模型更加准确,从而提高降尺度积雪制图及短期积雪预测的精度。
7.为解决上述技术问题,本发明采用如下技术方案:
8.一种基于随机森林的积雪时空分析与预测方法,包括以下步骤:
9.步骤1:获取与积雪相关的数据并对数据进行预处理;获取的数据包括积雪地面观测数据、被动微波遥感传感器亮温数据、积雪密度分布、与积雪相关的环境数据;
10.步骤2:对步骤1获得的数据根据地理单元之间的空间邻接或空间距离关系构建空间权重矩阵;
11.步骤3:将步骤2中得到的空间权重矩阵进行中心化转换并计算其特征值和特征向量,得到的特征向量按照对应特征值大小进行排列;
12.步骤4:按照排序,将特征值λi/λ
max
》0.25对应的特征向量筛选出来,作为特征向量初筛集;
13.步骤5:将步骤1中除亮温数据、积雪密度、积雪地面观测数据以外的所有变量与步骤4中初筛后的特征向量初筛集作为候选变量集,利用变量筛选方法,将其中显著的向量筛选出来,作为环境变量;
14.步骤6:随机森林建模;将积雪地面观测数据作为因变量,将步骤5中筛选得到的环境变量与亮温数据、积雪密度一起作为自变量,利用随机森林方法进行建模,并对参数进行率定和验证,最终通过验证集的最佳指标确定模型的最优参数;
15.步骤7:将步骤6中得到的最优参数代入全体样本中得到随机森林回归模型,可以得到各自变量的重要性排序,分析该区域影响积雪分布的因素;
16.步骤8:按照步骤7中分析结果,将步骤6得到的最优参数代入到新的自变量中,得到积雪的预测值。
17.进一步地,步骤1中,积雪地面观测数据主要来源为积雪地面观测站点和积雪调查
测雪路线两种方式,通常是矢量数据;被动微波遥感传感器亮温数据在不同地区可选择对应精度较高的雪深反演算法及波段组合。
18.进一步地,步骤1中,与积雪相关的环境数据包括但不限于土地覆盖类型、高程、坡度、坡向、植被覆盖类型、叶面积指数、气温、地表温度、降水量、地表热通量、地表反照率、大气压、水蒸气含量、云层水含量、风速。
19.进一步地,步骤1中数据预处理的方法为:对数据进行检查,并对异常值、空值等进行处理,对于栅格数据,根据具体情况选择插值方法插补或直接剔除。
20.进一步地,步骤2中,空间权重矩阵分为两类:基于距离的权重矩阵和基于拓扑关系的权重矩阵,基于距离的权重矩阵针对通过积雪地面观测站点及积雪调查测雪路线获得的矢量积雪数据,选择包括但不限于高斯型、指数型、双重平方型、三重立方型作为权重生成函数;基于拓扑关系的权重矩阵主要针对遥感传感器获取到相关地面信息的栅格数据,选择包括但不限于车相邻、后相邻的邻接方式构建权重矩阵。
21.进一步地,步骤5中,变量筛选方法包括但不限于子集选择法、逐步回归法、lasso(最小绝对值收敛和选择算子)、岭回归、随机森林gini指数筛选。
22.进一步地,步骤6中,确定最优参数的方法为:在建模过程中,划分训练集和测试集,通过设置不同ntree(生成树数量)和mtry(节点数)参数进行遍历,再对其进行评价,最终通过验证集的最佳指标确定模型的最优参数。
23.进一步地,步骤6中,训练集和测试集通常随机选取70%的样本作为训练集,30%作为验证集,随机森林回归的主要参数mtry通过设置取值范围和步长进行遍历,在均方误差、平均绝对误差、决定系数中选其一作为指标,从而确定最优参数。
24.进一步地,步骤7中,时空分析包括按时间变化分析、按空间变化分析、结合时空变化分析,按照时间变化分析因素对积雪贡献的变化,在不同区域分析因素在不同空间对积雪影响的变化,结合不同时间、空间范围的建模结果,分析环境变量、空间变量对积雪时空变化的影响。
25.进一步地,步骤8还包括如下子步骤:
26.步骤8.1:利用粗尺度数据按照步骤1-6进行建模,通过构建粗尺度积雪参数与自变量间的模型,再将精细尺度的环境变量处理好,代入步骤6中得到的最优参数,得到精细尺度的积雪产品;
27.步骤8.2:短期预测利用当期积雪数据与前一期环境变量按照步骤1-6进行建模,得到模型最优参数,再代入当期环境变量,实现对未来短期的积雪预测。
28.与现有技术相比,本发明的有益效果为:
29.1)本发明提供一种基于随机森林的积雪时空分析与预测方法,在积雪遥感估算中考虑了积雪参数与微波亮温、积雪密度、环境因素间复杂的非线性关系,同时考虑了空间效应的影响并将其以特征向量的形式加入到模型中,能更加准确的构建积雪估算模型,从而提高降尺度积雪制图及短期积雪预测的精度;
30.2)本发明所提供的基于随机森林的积雪时空分析与预测方法,采用随机森林回归算法,构建积雪与遥感波段、环境变量、空间变量间的准确模型,提高积雪遥感估算的精度,实现积雪降尺度制图和短期预测。
附图说明
31.图1为本发明实施例的流程图;
32.图2为本发明实施例的数据预处理流程图;
33.图3为本发明实施例的空间权重矩阵特征分解流程图;
34.图4为本发明实施例的随机森林建模示意图。
具体实施方式
35.下面将结合本发明实施例对本发明实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本发明一部分实施例,而不是全部的实施例。基于本发明中的实施例,本领域普通技术人员在没有作出创造性劳动的前提下所获得的所有其他实施例,都属于本发明保护的范围。
36.需要说明的是,在不冲突的情况下,本发明中的实施例及实施例中的特征可以相互组合。
37.下面结合具体实施例对本发明作进一步说明,但不作为本发明的限定。
38.本发明要解决的核心问题是:积雪遥感估算传统算法不能反映微波亮温与雪深之间的非线性复杂函数关系,而基于机器学习的在积雪遥感估算方法能够提高积雪遥感估算的精度,没有充分考虑积雪与环境因素空间效应的影响,也缺乏积雪变化过程的时空分析和模拟,制约了在积雪降尺度制图和预测的精度。本发明提供一种基于随机森林的积雪时空分析与预测方法,在积雪遥感估算中考虑了积雪参数与微波亮温、积雪密度、环境因素间复杂的非线性关系,同时考虑了空间效应的影响并将其以特征向量的形式加入到模型中,能更加准确的构建积雪估算模型,从而提高降尺度积雪制图及短期积雪预测的精度。
39.参见图1,本发明提供的一种基于随机森林的积雪时空分析与预测方法,包括如下步骤:
40.步骤1:数据获取和预处理;
41.步骤1.1:需要获取的数据包括积雪地面观测数据、被动微波遥感传感器亮温数据、积雪密度分布、与积雪相关的环境数据。积雪地面观测数据包括积雪地面观测站点和积雪调查测雪路线两种类型,被动微波遥感传感器亮温数据根据che算法,针对nimbus-7卫星携带的smmr选择18ghz和37ghz亮温波段,对于ssm/i选择19ghz和37ghz亮温波段。与积雪相关的环境数据包括但不限于土地覆盖类型、高程、坡度、坡向、植被覆盖类型、叶面积指数、气温、地表温度、降水量、地表热通量、地表反照率、大气压、水蒸气含量、云层水含量、风速;
42.步骤1.2:将步骤1.1的栅格数据进行重采样,使所有的栅格数据具有统一空间分辨率,并裁剪成相同大小。根据研究区的分布,选择适合的投影坐标系进行投影转换,使之具有统一的空间基准,流程如图2所示;
43.步骤1.3:利用描述性统计方法对步骤1.2中的数据进行检查,并对异常值、空值等进行处理,对于栅格数据,根据具体情况选择插值方法插补或直接剔除;异常值通常设置为空值,系统在建模过程中会自动跳过。插补方法可以采用较为简单的块统计工具,通常设置不同邻域尺寸,将缺失单元附近单元的平均值作为其最终取值,也可以采用考虑了空间效应的克里金等插值方法。
44.步骤2:构建空间权重矩阵;对于积雪地面观测站点及积雪调查测雪路线获得的矢
量积雪数据,利用积雪样本点的空间距离关系构建空间权重矩阵,可选择高斯型、指数型、双重平方型、三重立方型等作为权重生成函数;对于包括微波亮温、环境因素在内的栅格数据,基于拓扑关系的权重矩阵主要针对遥感传感器获取到相关地面信息的栅格数据,选择后相邻(queen)邻接方式构建权重矩阵,流程如图3所示。
45.步骤3:中心化空间权重矩阵的特征分解;将步骤2中得到的空间权重矩阵进行中心化转换并计算其特征值和特征向量,得到的特征向量按照对应特征值大小进行排列。中心化转换的目的是保证得到的特征向量相互正交且不相关,从而空间变量不会引起多重共线性等问题,中心化转换如下式所示;
46.(i-11
t
/n)c(i-11
t
/n);
47.其中,c代表步骤2中构建的空间权重矩阵,i为单元矩阵,1为单位向量,n为矩阵的行列数;
48.步骤4:特征向量初筛;空间效应包括空间自相关和空间异质,由于积雪和环境因素的分布具有很强的空间依赖效应,因此通常仅考虑正空间自相关,由于特征值与对应的特征向量空间效应之间具有特定的函数关系,将特征值λi/λ
max
》0.25对应的特征向量筛选出来,作为特征向量初筛集。
49.步骤5:变量筛选;将步骤1中除亮温数据、积雪密度、积雪地面观测数据以外的所有变量与步骤4中初筛后的特征向量初筛集与作为候选变量集,利用变量筛选方法,将其中显著的向量筛选出来,作为环境变量。常用的变量筛选方法有子集选择法、逐步回归法、最小绝对值收敛和选择算子lasso、岭回归、随机森林gini指数筛选等。
50.步骤6:随机森林建模;将积雪地面观测数据作为因变量,将步骤5中筛选得到的环境变量与亮温数据、积雪密度一起作为自变量,利用随机森林方法进行建模,如图4所示。在建模过程中,划分训练集和测试集,通过设置不同ntree和mtry参数进行遍历,分别计算随机森林模型的均方根误差、平均绝对误差、决定系数等评价指标,最终通过验证集的最佳指标确定模型的最优参数。训练集和测试集通常随机选取70%的样本作为训练集,30%作为验证集。随机森林回归的主要参数生成树数量ntree和节点数mtry通过设置取值范围和步长进行遍历。在均方根误差rmse、平均绝对误差mae、决定系数r2中选其一作为指标,从而确定最优参数。计算公式如下:
51.(1):均方根误差。其中为模型拟合值,为观测值的平均值。
[0052][0053]
(2):平均绝对误差。
[0054][0055]
(3):决定系数。
[0056]
[0057]
步骤7:积雪时空分析;将步骤6中得到的最优参数代入全体样本中得到随机森林回归模型,可以得到各自变量的重要性排序,分析该区域影响积雪分布的因素。时空分析包括按时间变化分析、按空间变化分析、结合时空变化分析,按照时间变化分析因素对积雪贡献的变化,在不同区域分析因素在不同空间对积雪影响的变化,结合不同时间、空间范围的建模结果,分析环境变量、空间变量对积雪时空变化的影响。
[0058]
步骤8:积雪预测;按照步骤7中分析结果,将步骤6得到的最优参数代入到新的自变量中,得到积雪的预测值;
[0059]
步骤8.1:积雪降尺度制图。利用粗尺度数据按照步骤1-6进行建模,通过构建粗尺度积雪参数与自变量间的模型,再将精细尺度的环境变量处理好,代入步骤6中得到的最优参数,进行降尺度制图,得到精细尺度的积雪产品;
[0060]
步骤8.2:积雪短期预测。利用当期积雪数据与前一期环境变量按照步骤1-6进行建模,得到模型最优参数,再代入当期环境变量,最后得到未来积雪模拟值,实现对未来短期的积雪预测。
[0061]
以上仅为本发明较佳的实施例,并非因此限制本发明的实施方式及保护范围,对于本领域技术人员而言,应当能够意识到凡运用本发明说明书内容所作出的等同替换和显而易见的变化所得到的方案,均应当包含在本发明的保护范围内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献