基于Stacking集成学习的农村公路路况指标数据质量修复方法与系统
- 国知局
- 2024-09-05 14:22:28
本发明属于农村公路养护、数据质量修复,具体涉及一种基于stacking集成学习的农村公路路况指标数据质量修复方法与系统。
背景技术:
1、近年来,作为支撑路面技术状况评定、养护决策制定的基础性工作,农村公路路况自动化快速检测系统在各个省份加快建设,农村公路自动化检测路况数据资源积累量庞大,其数据资产价值亟待挖掘和发挥。
2、然而,庞杂多样的农村公路路况检测数据质量问题制约了数据的有效应用,其数据准确性关乎农村公路养护决策的合理性。在进行养护决策前,通常会对不满足准确性、有效性要求的农村公路路况指标数据进行清洗和删除,但由此造成了指标数据随机缺失,将会影响养护决策工作的全路网展开。因此,如何采用科学合理的数据填补方法,对异常值清洗后的低等级农村公路路况指标数据进行延时修复,是农村公路养护、数据质量修复领域亟待解决的问题之一。
3、根据既有文献,近年来,随着实际需求与相关技术的发展,深度学习、机器学习及图网络等算法已在数据质量修复问题中得到较多应用。专利号为cn117786529a的发明中公开了一种风电机组scada数据智能修复方法,该发明建立深度学习生成式对抗网络的生成器及判别器,优化各自参数以进行数据智能修复;专利号为cn117743938a的发明中公开了一种不均衡数据的异常识别与修复方法及系统,通过聚类、孤立森林等算法,划分数据为不同的簇、识别异常数据,并基于异构变分自编码器的数据修复模型,对混合数据异常及缺失进行修复。在交通方面,专利号为cn117633447a的发明公开了一种基于交通流数据采集设备缺失判断的交通流数据修复方法,构建含有图变换网络gtn的生成对抗网络输出修复数据。
4、然而,在路面养护决策、路况数据等方面,尤其针对农村公路自动化检测数据,相关修补研究及发明方法仍处空白,亟需基于机器学习、集成学习等算法,构建农村公路路面状况数据修补模型,科学合理地填补路况指标数据,对其进行准确修复,从而进一步完善养护决策工作的开展。
技术实现思路
1、发明目的:本发明提出了一种基于stacking集成学习的农村公路路况指标数据质量修复方法与系统,针对路况指标数据随机缺失的问题,对低等级农村公路路况指标数据进行修复,能够实质性改善数据质量,为低等级农村公路的技术状况评定、养护管理等工作提供坚实的技术支撑。
2、技术方案:为实现上述发明目的,本发明所述的一种基于stacking集成学习的农村公路路况指标数据质量修复方法,具体包括以下步骤:
3、(1)对农村公路路况指标数据和原始采集数据进行异常清洗,对农村公路路况指标数据的缺失模式进行划分,包括源头缺失模式和子指标缺失模式;
4、(2)对于缺失模式为源头缺失模式的数据,根据病害内在关联和路面衰变规律构建填补特征集;对于缺失模式为子指标缺失模式的数据,根据路面衰变规律构建填补特征集;
5、(3)对于构建的填补特征集,采用lasso回归算法进行变量选择,剔除冗余变量,得到降维后的修补组合;
6、(4)选择stacking集成模型的基学习器,将原始数据拆分为训练集和测试集,对各基学习器进行训练;
7、(5)基于训练好的stacking集成模型,依据降维后的修补组合进行农村公路自动化检测指标数据填补。
8、进一步地,步骤(1)所述农村公路路况指标数据的包括历年路面损坏状况指数(pci)、路面行驶质量指数(rqi)和路面技术状况指数(pqi),其中,总指标为pqi,子指标为pci和rqi;步骤(1)所述原始采集数据是用于计算农村公路路况指标的数据,包括历年与pci有关的病害面积数据、病害率(dr)和与rqi有关的国际平整度(iri),其中病害面积数据如沥青路面的龟裂、纵向裂缝、横向裂缝、坑槽,以及水泥路面的破碎板、裂缝、坑洞、露骨等。
9、进一步地,所述源头缺失模式是指由原始采集数据缺失导致的指标数据缺失。对于源头缺失模式而言,可采用纵向与横向修补并举的修补方法,具体思路包括:①基于病害(沥青路面的龟裂、纵向裂缝、横向裂缝、坑槽病害,水泥路面的破碎板、裂缝、坑洞、露骨病害)之间的相关性互相填补病害面积;②基于未缺失的病害面积数据与dr或pci之间的相关性,修补dr或pci;③基于指标数据本身的时序变化规律填补pci、rqi或pqi数据。其中,pci修补涉及与病害面积相关的多变量缺失,宜从缺失比例最低的变量开始逐一填补。所述子指标缺失模式是指子指标pci、rqi缺失导致的总指标pqi数据缺失。由于根据准确性存疑的原始采集数据无法计算得到合理的指标数据,因此原始采集数据不具有横向填补参考价值,宜采用纵向修补的方法,即基于指标数据本身的时序变化规律填补pci、rqi或pqi数据。
10、进一步地,步骤(3)中采用lasso回归算法进行变量选择,剔除冗余变量,得到降维后的修补组合包括以下步骤:
11、(3-1)对数据集进行标准化处理;
12、(3-2)设定lasso回归目标函数为:
13、
14、其中,βlasso为lasso回归的系数向量,xj为第j个特征变量,p为特征变量的数量,y为观测值,β为待估计的参数向量,βj为第j个特征变量的参数,λ为惩罚项系数,为惩罚项;
15、(3-3)使用k折交叉验证法计算均方误差(rmse),计算不同λ下各特征值影响因素进入模型的先后次序与拟合系数值占比变化情况;
16、(3-4)剔除当横坐标为0时拟合系数仍为0的变量,剩余变量即为降维后的修补组合。
17、进一步地,步骤(4)所述的stacking集成模型的基学习器,包括knn,其填补步骤包括:
18、(4-1-1)将缺失的数据项按照缺失比例,从低到高进行排序;
19、(4-1-2)对于缺失比例最低的数据项,采用均值填补法进行初始填补;
20、(4-1-3)将剩余的缺失比例最低的待修补数据项作为预测目标,其余变量作为影响因素,采用不含缺失值的数据记录训练knn模型进行填补;
21、(4-1-4)将原始数据随机分成k份,每次选取其中1份为训练集,其余为测试集;
22、(4-1-5)遍历所有指定的k值对knn模型进行训练,对每个k值重复k次交叉验证;
23、(4-1-6)计算k次交叉验证准确率的平均值,得到k值对应的模型准确率;
24、(4-1-7)比较所有k值对应的模型准确率,得到最优的k值和对应的knn模型以及对应的填补结果;
25、(4-1-8)使用所获得的填补结果更新填补矩阵,依次填补剩余变量,直到所有数据填补完成。
26、进一步地,步骤(4)所述的stacking集成模型的基学习器,包括missforest,其填补步骤包括:
27、(4-2-1)将缺失的数据项按照缺失比例,从低到高进行排序;
28、(4-2-2)对于缺失比例最低的数据项,采用均值填补法进行初始填补;
29、(4-2-3)将剩余的缺失比例最低的待修补数据项作为预测目标,其余变量作为影响因素,采用不含缺失值的数据记录训练missforest模型进行填补;
30、(4-2-4)原始数据随机分成k份,每次选取其中1份为训练集,其余为测试集;
31、(4-2-5)计算k次交叉验证准确率的平均值,得到最优的missforest模型,以及对应的填补结果;
32、(4-2-6)使用所获得的填补结果更新填补矩阵,依次填补剩余变量,直到所有数据填补完成。
33、进一步地,步骤(4)所述的stacking集成模型的基学习器,包括xgboost,其填补步骤包括:
34、(4-3-1)将缺失的数据项按照缺失比例,从低到高进行排序;
35、(4-3-2)对于缺失比例最低的数据项,采用均值填补法进行初始填补;
36、(4-3-3)将剩余的缺失比例最低的待修补数据项作为预测目标,其余变量作为影响因素,采用不含缺失值的数据记录训练xgboost模型进行填补;
37、(4-3-4)原始数据随机分成k份,每次选取其中1份为训练集,其余为测试集;
38、(4-3-5)对预先设定的学习率learning_rate和每棵树的最大深度max_depth,采用交叉验证对xgboost模型进行训练和超参数调优;
39、(4-3-6)计算k次交叉验证准确率的平均值,得到各学习率和每棵树的最大深度对应的模型准确率;
40、(4-3-7)比较所有模型的准确率,得到最优的学习率、每棵树的最大深度和对应的xgboost模型,以及对应的填补结果;
41、(4-3-8)使用所获得的填补结果更新填补矩阵,依次填补剩余变量,直到所有数据填补完成。
42、进一步地,步骤(5)所述的基于训练好的stacking集成模型,依据降维后的修补组合进行低等级农村公路自动化检测指标数据填补包含以下步骤:
43、(5-1)将knn、missforest、xgboost的预测结果进行横向合并,并作为新的训练集输入次级模型进行训练;
44、(5-2)使用训练好的stacking集成模型,依据降维后的修补组合完成农村公路自动化检测指标数据填补。
45、基于相同的发明构思,本发明提供的一种基于stacking集成学习的农村公路路况指标数据质量修复系统,包括:
46、预处理模块,用于对农村公路路况指标数据和原始采集数据进行异常清洗,对农村公路路况指标数据的缺失模式进行划分,包括源头缺失模式和子指标缺失模式;
47、填补特征集构建模块,用于对于缺失模式为源头缺失模式的数据,根据病害内在关联和路面衰变规律构建填补特征集;对于缺失模式为子指标缺失模式的数据,根据路面衰变规律构建填补特征集;
48、特征集降维模块,用于对于构建的填补特征集,采用lasso回归算法进行变量选择,剔除冗余变量,得到降维后的修补组合;
49、模型训练模块,用于选择stacking集成模型的基学习器,将原始数据拆分为训练集和测试集,对各基学习器进行训练;
50、以及数据填补模块,用于基于训练好的stacking集成模型,依据降维后的修补组合进行农村公路自动化检测指标数据填补。
51、基于相同的发明构思,本发明提供的一种计算机程序产品,包括计算机程序/指令,所述计算机程序/指令被处理器执行时实现所述的基于stacking集成学习的农村公路路况指标数据质量修复方法的步骤。
52、有益效果:与现有技术相比,本发明的基于stacking集成学习的农村公路路况指标数据质量修复方法,结合农村公路自动化检测数据特性,划分了农村公路路况指标数据缺失模式;针对农村公路自动化检测数据采集、清洗过程中路况指标数据随机缺失的问题,根据病害内在关联、路面衰变规律构建填补特征集,采用lasso回归算法进行降维,并基于stacking集成模型进行数据填补。本发明充分利用已有的农村公路自动化检测数据成果,对数据清洗导致的路段指标数据随机缺失问题,采用科学合理的填补方法,修复异常值清洗后的农村公路路况指标数据。本发明填补效果优秀,满足实际工程应用需求,为实质性改善低等级农村公路自动化检测数据质量、农村公路技术状况评定与全路网养护决策提供坚实的技术及数据支撑。
本文地址:https://www.jishuxx.com/zhuanli/20240905/286085.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表