一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于数据挖掘的大气污染预测方法及装置

2022-08-30 22:45:24 来源:中国专利 TAG:


1.本发明涉及环境空气质量监控技术领域,特别是涉及一种基于数据挖掘的大气污染预测方法及装置。


背景技术:

2.大量的研究表明,空气污染与许多疾病密切相关,如肺癌、慢性阻塞性肺病、哮喘等呼吸道疾病。交通相关的空气污染也是导致儿童哮喘发病的一个可能因素。在各种空气污染物中,直径小于2.5微米的颗粒物2.5(pm2.5)引起了人们的广泛关注,因为它能吸收许多有害物质,进入人体呼吸系统后给人体带来巨大的健康风险。此外,pm2.5由于粒径小,可穿透肺泡,并可到达细支气管壁,干扰通过肺部的气体交换。长期暴露于pm2.5可导致心血管和呼吸系统疾病,并增加肺癌的风险。由于人们暴露于不同的pm水平,健康风险可能有所不同。当颗粒物水平被错误计算,特别是被低估时,健康危害也可能被低估。
3.现有的一些空气监测系统通过广泛、大规模的数据收集,以较高的空间分辨率和时间分辨率获取街道空气pm2.5值数据。然而,该系统只是简单的数据接收、存储和展现监测数据,缺乏对数据的大数据分析与处理技术,在实际使用过程中,超标后知后觉,处理和解决城市扬尘污染问题严重滞后。


技术实现要素:

4.基于此,本发明的目的在于,提供一种基于数据挖掘的大气污染预测方法,其通过城市空气质量监控系统获取当前数据以及历史数据,进一步根据该数据进一步对城市pm2.5值进行预测,掌握pm2.5数据分布趋势和分布模式,以此来提前规划从而减少pm2.5的排放。
5.本发明通过以下技术方案来实现:
6.一种基于数据挖掘的大气污染预测方法,包括:
7.根据某区域的pm2.5数据、气象数据以及定位数据构建影响预测的最佳特征变量;
8.针对所述最佳特征变量,建立预测模型;以及
9.对所述预测模型进行训练及测试,获取所述区域将来一时间段的pm2.5值;
10.其中,所述气象数据包括风速、风向、温度、湿度数据;所述定位数据包括经纬度数据以及时间数据;
11.在所述最佳特征变量中引入了用二进制编码类型的日和季节来表示额外特征;
12.在所述最佳特征变量的构建中采用决策树的随机森林或遗传算法。
13.本发明所述的基于数据挖掘的大气污染预测方法,根据当前以及历史数据,构建特征变量,搭建预测模型,对城市pm2.5值进行预测,以进一步掌握pm2.5数据分布趋势和分布模式。
14.进一步地,在所述决策树的随机森林或所述遗传算法中,选择部分特征变量作为个体预测器的输入,建立在神经网络的多层感知器、径向基函数网络和高斯核的支持向量
机;
15.所述特征变量包括过去一段时间的自然参数的平均值、最大值和最小值,以及产生最大pm2.5值的一天中每小时的线性趋势参数。
16.进一步地,在所述多层感知器的训练中,使用了12个隐藏单元;所述神经网络的径向基函数网络产生的效果设置在300高斯值下。
17.进一步地,在所述预测模型的训练中,采用梯度信息通过反向传播算法计算多层网络中的梯度向量。
18.进一步地,所述预测模型的每个输出神经元执行一个简单的加权求和操作,其数学算式表示为
[0019][0020]
其中,为非线性激活函数。
[0021]
进一步地,所述预测模型的预测测试中,对于预测误差用以下数学算式来表示:
[0022][0023][0024]
其中,mae表示平均误差,rms表示标准差,变量y和d分别代表预测结果和日平均污染的真实值。
[0025]
基于上述的基于数据挖掘的大气污染预测方法,本发明还提高一种基于数据挖掘的大气污染预测装置,包括最佳特征变量获取模块、预测模型构建模块以及预测模型训练及测试模块;
[0026]
所述最佳特征变量获取模块用于根据某区域的pm2.5数据、气象数据以及定位数据构建影响预测的最佳特征变量;
[0027]
所述预测模型构建模块用于针对所述最佳特征变量,建立预测模型;
[0028]
所述预测模型训练及测试模块用于对所述预测模型进行训练及测试,获取所述区域将来一时间段的pm2.5值;
[0029]
其中,所述气象数据包括风速、风向、温度、湿度数据;所述定位数据包括经纬度数据以及时间数据;
[0030]
在所述最佳特征变量中引入了用二进制编码类型的日和季节来表示额外特征;
[0031]
在所述最佳特征变量的构建中采用决策树的随机森林或遗传算法。
[0032]
为了更好地理解和实施,下面结合附图详细说明本发明。
附图说明
[0033]
图1为本发明一实施例提高的基于数据挖掘的大气污染预测方法的主要流程图。
具体实施方式
[0034]
请参阅图1,本发明提供的基于数据挖掘的大气污染预测方法包括三个阶段,分别是生成影响预测的最佳特征变量、建立预测模型以及对该预测模型进行训练及测试。下面针对每个阶段进行详细说明。
[0035]
s1,根据pm2.5数据、气象数据以及定位数据构建影响预测的最佳特征变量。
[0036]
s11,构建数据集。
[0037]
具体地,空气质量监测系统通过广泛、大规模的数据收集,以较高的空间分辨率和时间分辨率获取街道空气pm2.5值数据、气象数据以及定位数据。其中,所述气象数据包括风速、风向、温度、湿度数据;所述定位数据包括经纬度数据以及时间数据。
[0038]
在一个实施例中,采用一定时间内的所述pm2.5值数据、气象数据以及定位数据作为数据集。
[0039]
s12,构建特征变量。
[0040]
具体地,上述数据集中的各种参数构成了一组自然参数,利用已知的数学运算如导数、梯度、趋势估计,极值等对所述参数进行关联,可以产生更多的特征变量。有必要对这些众多的特征变量的内容进行分析,从预测的角度检测出最重要的特征。
[0041]
在一个实施例中,考虑污染水平与季节和日子类型的依赖关系。一般来说,工作日的空气污染会比周末更严重;同样,对于供暖区域,冬季污染程度会比其他季节高。因此引入了用二进制编码类型的日和季节来表示的额外特征。
[0042]
在一个实施例中,特征变量包括过去一段时间的自然参数的平均值、最大值和最小值,以及产生最大pm2.5值的一天中每小时的线性趋势参数。
[0043]
在一个实施例中,采用遗传算法(非线性方法)来寻求最重要的特征参数,以产生一个全局最优的特征参数。在使用遗传算法进行特征选择时,使用了代表所选特征集的二值染色体的概念。在这种方法中,染色体的组成值为1表示在输入变量集合中包含特定的特征,而0表示从实际集合中删除特定的特征。遗传算法包括选择父代进行繁殖、与父代进行交叉以及对表示子代的位进行变异操作。
[0044]
相对的,在另一个实施例中,采用逐步拟合的线性方法来寻求最重要的特征参数。逐步线性拟合是一种基于逐次线性回归的方法,对作为预测线性模型输入属性的候选特征进行添加和删除操作。
[0045]
具体地,无论是采用遗传算法还是采用逐步拟合算,均包括以下过程:
[0046]
前向选择,通常从没有变量在模型中,测试的每个变量的意义,添加变量大多数改进模型,并重复这个过程,直到所有的变量设计提高了模型根据假定的标准;
[0047]
后向消去,从某个候选变量集开始,使用选定的模型质量标准来测试每个变量的删除,通过删除可以最大程度地改进模型的变量,并重复这个过程,直到没有进一步的改进。
[0048]
在实际应用中,这两个操作是相互交织的。在这一过程的每一阶段,在增加一个新的变量后,都要进行一个检验,以检查是否可以在不增加回归误差的情况下删除实际集合中的一些变量。当模型质量的度量局部最大化时,或者当实际改进低于一些假定的公差值时,过程终止。上述两个实施例均确定了输入变量集的内容,将其视为预测过程中最具影响力的特征。由于不同的操作原则,这两个集合的内容通常是不一样的。
[0049]
特征变量选择的结果为预测模型提供了输入信息,预测模型负责预测将来一段时间的平均pm2.5水平。
[0050]
s2,针对所构建的特征变量,建立预测模型。
[0051]
可以采用决策树的随机森林或神经网络作为预测模型的主要算法:在决策树方法中,选择的特征被应用到决策树的随机森林中,随机森林同时执行两个功能回归(由单个决策树做出)和集成(将多个决策树的输出结果平均);在神经网络方法中,选择的特征创建个体预测器的输入,建立在神经网络的多层感知器(mlp)、径向基函数(rbf)网络和高斯核的支持向量机(svm)。这些网络的普遍逼近能力将在这一方法中加以利用,并将其结果结合在一起形成一个整体,提供了提高准确性的最终预测。无论是决策树抑或随机森林均在相同的数据集上以独立的方式行动,并且其结果被融合到最终的预测中。
[0052]
s21,构建个体预测模型。
[0053]
随机森林算法是一种典型的分类与回归集成学习方法,其同时应用多个决策树。形成rf的决策树具有多元形式。他们使用一种改进的树学习算法来选择可用特征的随机子集。由于这一点,树木之间的相关性降低了。如果一些特征对目标变量是很强的预测因子,这些特征会在很多树中被选择,导致它们变得相关。变量的随机选择减少了这个问题的规模。通常,对于具有n个特征的数据集,个特征在每个分割中使用。此外,每棵决策树都是根据随机选择的不同观察集进行训练的。
[0054]
mlp是一种典型的采用s型神经元的多层网络结构,通过计算相应的输入向量和神经元的加权向量之间的点积,将输入到网络的信息在每个单元进行局部处理。
[0055]
s22,构建合并预测模型。
[0056]
神经网络(mlp、rbf和svm)对应的单个解与特征集结合,通过遗传算法或逐步拟合选择特征集,构建合并预测结果。具体地,在学习数据上对它们进行训练,然后在单独的测试集上进行测试,并将这些预测器的结果合并在一起,产生预测区间段的最终污染预测。在合并过程中,采用加权平均和随机森林作为积分器;在加权平均方法中,单个预测器的结果被求和,其权重与相应预测器对学习数据的精度成比例。随机森林积分器将单个预测器的结果作为输入属性,并对这些数据执行预测过程。
[0057]
s3,对预测模型进行训练及测试,获取将来一时间段的pm2.5值。
[0058]
对于s1中构建的特征变量,利用部分可用数据对决策树进行训练,输出分类问题中类的模式类或回归任务中单个树的平均预测类;另一部分数据用于对训练好的决策树集成进行外置测试。
[0059]
选取相应的特征作为输入属性,将mlp、rbf和svm三个神经预测因子整合到最终的系统中。在mlp的训练中,使用了12个隐藏单元。rbf网络产生的效果最好在300高斯基下,函数的宽度等于1。svm的超参数如下:c=100,ε=0.01=和高斯分布的统一宽度函数。mpl通过计算相应的输入向量和神经元的加权向量之间的点积,将输入到网络的信息在每个单元进行局部处理。训练前,对权重进行随机初始化。当一个输入向量呈现给网络时,训练网络产生一个期望的输出向量需要系统地改变所有神经元的权值,直到网络在给定的容忍范围内产生期望的输出。这个过程在整个训练集上重复。学习被简化为欧几里得误差度量的最小值。最有效的学习方法应用梯度信息,并使用二阶优化算法,采用反向传播算法计算多层网络中的梯度向量。模型的每个输出神经元执行一个简单的加权求和操作:
[0060][0061]
其中,为非线性激活函数。
[0062]
使用随机选择的学习和测试子集进行了多次预测实验。然后计算所有试验测试数据的平均误差。同样的测试数据集被用于所有的个体预测。在统计数据的基础上,对预测结果进行了比较,对于预测误差用以下数学算式来表示:
[0063][0064][0065]
其中,mae表示平均误差,rms表示标准差。定义中使用的变量y和d分别代表预测结果和日平均污染的真实值。并给出了实际污染与系统预测污染之间的皮尔逊相关系数r。
[0066]
基于上述的基于数据挖掘的大气污染预测方法,本发明还提高一种基于数据挖掘的大气污染预测装置,包括最佳特征变量获取模块、预测模型构建模块以及预测模型训练及测试模块。
[0067]
具体的,所述最佳特征变量获取模块用于根据pm2.5数据、气象数据以及定位数据构建影响预测的最佳特征变量;所述预测模型构建模块用于针对所构建的特征变量,建立预测模型;所述预测模型训练及测试模块用于对预测模型进行训练及测试,获取将来一时间段的pm2.5值。
[0068]
对于装置实施例而言,由于其基本对应于方法实施例,所以相关之处参见方法实施例的部分说明即可。以上所描述的系统实施例仅仅是示意性的,其中所述作为分离部件说明的组件可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部模块来实现本公开方案的目的。本领域普通技术人员在不付出创造性劳动的情况下,即可以理解并实施。上述设备中各个组件的功能和作用的实现过程具体详见上述融合小波和自编码器的信息隐藏方法中对应步骤的实现过程,在此不再赘述。
[0069]
本发明所提供的基于数据挖掘的大气污染预测方法及装置,根据采集到的空气pm2.5值数据、气象数据以及定位数据,根据该数据的当前数值以及历史数值,构建特征变量,搭建预测模型,对城市pm2.5值进行预测,掌握pm2.5数据分布趋势和分布模式,以此来提前规划从而减少pm2.5的排放。
[0070]
以上所述实施例仅表达了本发明的几种实施方式,其描述较为具体和详细,但并不能因此而理解为对发明专利范围的限制。应当指出的是,对于本领域的普通技术人员来说,在不脱离本发明构思的前提下,还可以做出若干变形和改进,这些都属于本发明的保护范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献