一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

面向多源数据的大气污染溯源方法

2022-11-19 12:43:29 来源:中国专利 TAG:


1.本发明涉及大气治理技术领域。特别是涉及一种面向多源数据的大气污染溯源方法。


背景技术:

2.从大气污染成因来看,气象条件属于外因,污染源排放是内因。但大气污染排放具有隐秘性且受到大气扩散的影响,导致区域pm
2.5
浓度超标而大气污染源往往难以追溯管控、,造成重点区域大气污染治理、处罚工作无法顺利进行.因此实现pm
2.5
污染溯源是开展区域大气污染靶向治理、精细化管控的基础。
3.找准大气污染源头,可分为排放源解析和污染溯源两类方法. 排放源解析法着重解析排放源成分和行业、区域贡献比例,包括基于受体模型的源解析法和基于模式的源解析法,后者包括源开关方法、后向轨迹法和示踪法等。但传统受体模型在应对大型数据集时,计算速率欠佳效率普遍不高;后者继承了空气质量模式的缺点,如输入条件尤其是污染源排放清单存在不确定性等.污染溯源包括去耦合直接方法和伴随方法,主要是求解空气质量模型的敏感度方程组或伴随方程获得目标函数对设计变量的敏感性关系,但排放源清单的不确定性是限制空气质量模式应用的主要因素之一,对大气污染溯源的客观性和准确性产生较大影响.


技术实现要素:

4.为了解决现有大气污染溯源方法中存在的上述缺陷,本发明提出了一种面向多源数据的大气污染溯源方法。
5.本发明在传统的基础上,纳入了区域内污染源排放数据和污染源位置信息等地理时空数据,利用轻量级梯度提升机(lightgbm)算法模拟气象、污染源、大气污染物三者的变化规律,并通过粒子群算法 (pso)确定lightgbm的最佳超参数,改进后的lightgbm-pso算法既有效提升pm2.5浓度预测精度,也可获得不同污染源排放特征因子的贡献度,得到各污染源的贡献排名和区域贡献度,通过贡献度划分污染源等级,结合不同等级污染源空间分布确定溯源结果。
6.本发明通过以下技术方案实现:
7.一种面向多源数据的大气污染溯源方法,包括如下步骤:
8.1.输入模型。输入数据包括气象历史数据、大气污染物浓度历史数据、排放历史数据、位置信息数据等,预处理包括异常值处理和缺失值填补;异常值处理采用3σ法则去除离群值,缺失值填补采用mice算法。
9.2.训练模型。模型由轻量级梯度提升机(lightgbm)和粒子群算法(pso)组成。利用lightgbm算法模拟气象、污染源、大气污染物三者的变化规律,pso算法确定lightgbm算法的超参数,提升模型预测精度。具体步骤如下:
10.1)制作训练集;将预处理后的数据划分不同时间步和样例,步长为1,以未来1h的
pm
2.5
浓度为输出;
11.2)参数初始化;初始化粒子群和设置lightgbm初始参数,训练lightgbm预测模型,训练的目标函数如式(1)所示,其中,yi为标签的真实值,为第k-1次学习的结果,c
k-1
为前k-1棵树的正则化项和,目标函数的含义为寻找一棵合适的树fk使得函数的值最小;
[0012][0013]
运用泰勒公式对损失函数进行展开,简化的目标函数可表示为:
[0014][0015]
其中,
[0016][0017][0018]
3)更新局部位置向量和全局位置向量;粒子群算法的适应度函数是设置为预测误差的评价指标,预测误差评价指标选取均方根误差(root mean square error,rmse)的倒数,rmse为预测值f(xi) 与真实值yi偏差的平方与观测次数n比值的平方根,其衡量的是预测值与真实值之间的偏差,适应度函数fit(x)的计算公式如式5所示:
[0019][0020]
对每个粒子,将其适应度值与其经过的最好位置和所有粒子历史经过的最好位置相比较,得到局部位置向量和全局位置向量;
[0021]
4)更新各粒子根据局部位置向量和全局位置向量进行速度、位置;
[0022]
5)判断终止条件;判断是否到达最大迭代次数或全局收敛,是则保存最优参数,反之,进行下一次迭代;
[0023]
6)获得预测输出;将测试集输入最优lightgbm模型,得到预测输出和各输入特征重要程度。
[0024]
3.溯源污染。将区域气象、污染物浓度和污染源数据及周边区域污染源数据输入模型;模型输出本地源和周边区域污染源贡献度和贡献排名,并以此划分污染等级;污染溯源包括根据不同等级污染源空间分布确定是否监测区域内存在污染排放源或受上风向污染扩散影响,以此得到溯源结果。
[0025]
4.验证模型,利用污染源监控点,如工地扬尘现场监控图像等,结合巡查人员历史
污染事件统计结果,以此判断污染溯源合理性。
[0026]
本发明利用机器学习模型拟合目标区域内的气象、排放和污染物浓度关系和输出各污染源对污染事件的贡献度来评估各污染源的污染等级,实现大气污染溯源。
[0027]
本发明的优点是:利用基于空气污染监测站点的历史数据构建机器学习模型,通过lightgbm-pso算法获得不同污染源排放特征因子的贡献度,得到各污染源的贡献排名和区域贡献度,通过贡献度划分污染源等级,结合不同等级污染源空间分布确定溯源结果,方法简单,通用性好。
附图说明
[0028]
图1是实施本发明方法的系统框架图。
具体实施方式
[0029]
下面结合附图对本发明进行进一步描述。
[0030]
如图1所示,一种面向多源数据的大气污染溯源方法,包括以下步骤:
[0031]
1.输入模型。输入数据包括气象历史数据、大气污染物浓度历史数据、排放历史数据、位置信息数据等,气象数据如气温、相对湿度、气压、降水、风速风向及露点温度等。排放数据如二氧化硫、氮氧化物及烟尘等大气排放物,大气污染物浓度数据如pm
2.5
、 pm
10
、co、so2及o3等质量浓度;位置信息即各监测站点的地理位置信息;采用的污染源监测站点为道路扬尘监测点位,各点位监测范围内可能分布一个或多个污染源,其监测数据代表监测范围内的空气质量状况.即道路扬尘点位的监测数据趋势变化暗含其监测范围内污染排放变化引起的空气质量波动。数据预处理包括异常值处理和缺失值填补;异常值处理采用3σ法则去除离群值,缺失值填补采用mice算法。
[0032]
2.训练模型。模型由轻量级梯度提升机(lightgbm)和粒子群算法(pso)组成。lightgbm相较于xgboost和gbdt具有更高的计算效率,故采用lightgbm算法建立多源数据间的影响关系.同时机器学习模型性能受超参数影响颇深,为了取得更好的模型性能,通过pso 算法对lightgbm模型超参数进行寻优.故利用lightgbm算法模拟气象、污染源、大气污染物三者的变化规律,pso算法确定 lightgbm算法的超参数,提升模型预测精度。具体步骤如下:
[0033]
1)制作训练集;将预处理后的数据划分不同时间步和样例,步长为1,以未来1h的pm2.5浓度为输出;
[0034]
2)参数初始化;初始化粒子群和设置lightgbm初始参数,粒子群初始参数包括种群数量、迭代次数和最大学习因子,lightgbm 初始参数包括树的深度、迭代次数和学习率等,均按照默认值设置;训练lightgbm预测模型,训练的目标函数如式(1)所示,其中, yi为标签的真实值,为第k-1次学习的结果,c
k-1
为前k-1 棵树的正则化项和,目标函数的含义为寻找一棵合适的树fk使得函数的值最小;
[0035]
[0036]
运用泰勒公式对损失函数进行展开,简化的目标函数可表示为:
[0037][0038]
其中,
[0039][0040][0041]
3)更新局部位置向量和全局位置向量;粒子群算法的适应度函数是设置为预测误差的评价指标,预测误差评价指标选取均方根误差(root mean square error,rmse)的倒数,rmse为预测值f(xi) 与真实值yi偏差的平方与观测次数n比值的平方根,其衡量的是预测值与真实值之间的偏差,适应度函数fit(x)的计算公式如式5所示:
[0042][0043]
对每个粒子,将其适应度值与其经过的最好位置和所有粒子历史经过的最好位置相比较,得到局部位置向量和全局位置向量;
[0044]
4)更新各粒子根据局部位置向量和全局位置向量进行速度、位置;
[0045]
5)判断终止条件;判断是否到达最大迭代次数或全局收敛,是则保存最优参数,反之,进行下一次迭代;
[0046]
6)获得预测输出;将测试集输入最优lightgbm模型,得到预测输出和各输入特征重要程度。
[0047]
3.溯源污染。模型输出本地源和周边区域污染源贡献度和贡献排名,并以此划分污染等级,根据污染源贡献度对不同污染源进行分级管控,分级规则参考环境保护部《大气污染源优先控制分级技术指南》.对本地污染源贡献度进行min-max归一化,以0.75,0.5,0.25为断点分为四级;根据不同等级污染源空间分布确定是否监测区域内存在污染排放源或受上风向污染扩散影响,因为当某一点位污染等级高于周围所有站点时,此点位监测范围内一定存在污染贡献极高的污染排放源;当某一点位和周围点位污染等级相同时,极大可能是收到污染扩散的影响,其上风向存在污染排放源.以此得到溯源结果。
[0048]
4.验证模型,利用污染源监控点,如工地扬尘现场监控图像等,结合巡查人员历史污染事件统计结果,以此判断污染溯源合理性。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献