基于多层级特征融合的交通流预测方法及系统
- 国知局
- 2024-07-31 20:45:06
本发明涉及特征工程,具体而言,涉及一种基于多层级特征融合的交通流预测方法及系统。
背景技术:
1、在智慧城市的智能交通系统中,交通流预测是缓解交通拥堵与加强交通管理的关键技术。
2、交通流预测是根据历史交通流数据,预测未来时刻的路网交通流。交通流预测在实际生活中具有诸多应用场景,例如:实时路况预测、道路规划设计、应急调度指挥等。
3、只有充分挖掘数据,才能准确地预测交通流,获取分布规律和依赖关系,并设计出合适的预测模型输出结果。由于交通数据具有多源性、随机性、非线性等性质,目前通常采用数据融合的方式进行数据增强与信息补充。
4、然而,现有的数据融合技术只关注数据层融合,忽略了特征层融合与决策层融合,未能实现多层次全方面的数据融合。
5、此外,目前大多数的数据融合技术依赖于神经网络的特征自学习功能,而忽略了基于领域知识进行交通流特征工程的重要性,使得数据特征缺乏可解释性与可读性,影响到交通流预测的准确性。
技术实现思路
1、鉴于此,本发明的目的在于提出一种基于多层级特征融合的交通流预测方法,充分融合交通流特征,提升数据挖掘效果;通过数据层融合、特征层融合和决策层融合,增强特征融合效果与特征可解释性,从而提高交通流预测的准确性。
2、本发明提供基于多层级特征融合的交通流预测方法,包括以下步骤:
3、s1、采集包括路网拓扑数据、交通流量数据、外部环境数据的多源数据;
4、其中,所述路网拓扑数据记录每一条道路的长度、宽度、等级,以及上下游路段;所述交通流量数据记录每条路段在每个时间片的交通流量;所述外部环境数据记录每天的天气、节假期信息;将所述交通流量数据与所述路网拓扑数据通过路段id标识进行连接操作,再与所述外部环境数据通过日期标识进行连接操作,生成包含全部信息的初始联合数据集,完成数据层融合;
5、初始联合数据集的表达式为:
6、
7、式(1)中,t是采样时间片总数,c1代表交通流量数据集中的列数,c2代表路网拓扑数据集中的列数,c3代表外部环境数据集中的列数;
8、s2、基于交通流预测领域先验知识,结合交通流数据蕴含的时间相关性和空间相关性,利用面向全息路网画像的多维度特征提取机制,从采集的多源数据中提取八类时空交通流特征;
9、所述提取八类时空交通流特征的方法包括:从初始联合数据集中提取初始特征集合:
10、
11、式(2)中,t是采样时间片总数,f是特征总数;
12、s3、利用多重特征相关性计算框架,计算初始特征集合的特征区分度、特征之间相关性、特征与目标相关性,筛选出高质量特征;
13、所述筛选出高质量特征的方法包括:基于方差阈值的方法对单个特征进行筛选,方差的计算表达式为:
14、
15、式(3)中,i代表数据行数,总行数为n,此处n=t;j代表数据列数,即第j个特征,μj代表第j个特征的均值;
16、采用基于皮尔森系数的方法计算特征与特征之间的相关性,皮尔森系数计算的计算表达式为:
17、
18、式(4)中,代表j1和j2个特征,代表协方差,代表标准差,e代表数学期望;
19、基于lasso回归的方法计算特征与目标之间的相关性,lasso回归的计算表达式为:
20、
21、式(5)中,x代表特征,y代表目标变量,ω代表权重系数;
22、上一步特征提取的主要目标是尽量全面地刻画路网状态,因此构建了很多特征。本发明中的多重特征相关性计算框架,负责计算特征区分度、特征之间相关性、特征与目标相关性,用于筛选出高质量特征。
23、本发明中的多重特征相关性计算框架采用基于皮尔森系数的方法计算特征与特征之间的相关性,一般地,特征与特征之间存在正相关和负相关关系。正相关关系的特征可以相互补充,也可以用于降维。
24、s4、基于所述多重特征相关性计算框架的计算结果,根据特征层融合算法,选出代表决定性因素的特征进行组合,得到关键特征表示作为预测模型的输入;
25、s5、采用多个学习器协同训练预测模型,将其中一个学习器作为元学习器,剩下的学习器作为基础学习器,并将元学习器和基础学习器的训练进行集成,发挥多学习器训练模型的优势,得到准确的交通流预测模型。
26、进一步地,所述s4步骤的选出代表决定性因素的特征进行组合的方法包括以下步骤:
27、s41、基于各个特征的方差计算结果,结合预设的方差阈值,将特征的方差小于所述方差阈值的特征删除,保留具有较强区分能力的特征;
28、s42、根据lasso回归权重,将各个特征按照权重从大到小的顺序进行排序,依次代表各个特征对目标的影响强度;
29、s43、结合预设的权重阈值,将k个特征整合为与目标强相关特征组,s个特征整合为中相关特征组,t个特征整合为弱相关特征组;
30、s44、依次取出k个强相关特征,结合中相关特征组、弱相关特征组的特征与第k个强相关特征的相关系数,k≤k,判断相关系数是否大于相关阈值;
31、若相关系数不大于相关阈值,则不将该特征加入第k个强相关特征的补充集;若相关系数大于相关阈值,则再判断该特征是否加入过其他强相关特征的补充集;
32、若该特征已加入过其他强相关特征的补充集,则不将该特征加入第k个强相关特征的补充集;若该特征没有加入其他强相关特征的补充集,则进一步判断该特征的权重阈值是否达到加入界限;
33、若该特征的权重阈值没有达到加入界限,则不将该特征加入第k个强相关特征的补充集;若该特征的权重阈值达到加入界限,则将该特征加入第k个强相关特征的补充集;
34、s45、依次合并各强相关特征与其补充集,得到关键特征表示作为预测模型的输入。
35、进一步地,所述s2步骤的八类时空交通流特征包括:道路实体特征、路网拓扑特征、上游流量特征、下游流量特征、长期流量特征、短期流量特征、环境相关特征、时空统计特征;
36、其中,所述道路实体特征是描述该路段的建设形制的自身属性的特征;所述路网拓扑特征是描述该路段的上下游路段的路网关系的特征;所述上游流量特征是描述该路段的上游路段之间流动规律的特征;所述下游流量特征是描述该路段的下游路段之间流动规律的特征;所述短期流量特征是描述预测时间片的时间属性及短时相邻时间片关系的特征;所述长期流量特征是描述过去一段时间内同预测时间片序号一致的时间片特征;所述环境相关特征是描述天气、节假日的外部环境的特征;所述时空统计特征是描述预测时间片的相关维度统计规律的特征;
37、所述道路实体特征、路网拓扑特征、上游流量特征、下游流量特征属于空间特征;所述长期流量特征、短期流量特征、环境相关特征属于时间特征;所述时空统计特征属于时空特征。
38、从空间特征角度来看,道路实体特征、路网拓扑特征是静态特征,这些特征不会随时间而变化;上游流量特征、下游流量特征是动态特征,这些特征是实时变化的。从时间特征角度来看,长期流量特征反映周期变化规律、短期流量特征反映实时变化规律、环境相关特征反映节假日等补充信息。时空统计特征综合考虑时空因素,利用统计方法反映一般变化趋势。
39、由此可见,面向全息路网画像的多维度特征提取机制的优势在于:不仅能够全面刻画路网,还能多角度多粒度地提取时空特征,为交通流预测领域的特征工程提供技术启发。
40、进一步地,所述s2步骤的所述交通流数据蕴含的时间相关性包括:
41、相邻时间片之间的数据存在的依赖关系,以及日期、时段的时间因素对交通流数据的影响。
42、进一步地,所述s2步骤的所述交通流数据蕴含的空间相关性包括:相邻路段与目标路段的交通流量存在的依赖关系,其中,相邻路段包括上游路段和下游路段(上游路段和下游路段对目标路段的影响可能不同),以及路段等级的空间因素对交通流变化的影响。
43、进一步地,所述s5步骤的将元学习器和基础学习器的训练进行集成的方法包括:
44、使用stacking方法进行集成。
45、本发明还提供基于多层级特征融合的交通流预测系统,执行如上述所述的基于多层级特征融合的交通流预测方法,包括:
46、数据层融合模块:用于采集包括路网拓扑数据、交通流量数据、外部环境数据的多源数据;其中,所述路网拓扑数据记录每一条道路的长度、宽度、等级,以及上下游路段;所述交通流量数据记录每条路段在每个时间片的交通流量;所述外部环境数据记录每天的天气、节假期信息;将所述交通流量数据与所述路网拓扑数据通过路段id标识进行连接操作,再与所述外部环境数据通过日期标识进行连接操作,生成包含全部信息的初始联合数据集,完成数据层融合;
47、特征提取模块:用于基于交通流预测领域先验知识,结合交通流数据蕴含的时间相关性和空间相关性,利用面向全息路网画像的多维度特征提取机制,从采集的多源数据中提取八类时空交通流特征;
48、相关性计算模块:用于利用多重特征相关性计算框架,计算初始特征集合的特征区分度、特征之间相关性、特征与目标相关性,筛选出高质量特征;
49、特征层融合模块:用于基于所述多重特征相关性计算框架的计算结果,根据特征层融合算法,选出代表决定性因素的特征进行组合,得到关键特征表示作为预测模型的输入;
50、决策层融合模块:用于采用多个学习器协同训练预测模型,将其中一个学习器作为元学习器,剩下的学习器作为基础学习器,并将元学习器和基础学习器的训练进行集成,发挥多学习器训练模型的优势,得到准确的交通流预测模型。
51、进一步地,所述特征层融合模块包括:
52、强相关特征单元:用于基于各个特征的方差计算结果,结合预设的方差阈值,将特征的方差小于所述方差阈值的特征删除,保留具有较强区分能力的特征;
53、特征权重排序单元:用于根据lasso回归权重,将各个特征按照权重从大到小的顺序进行排序,依次代表各个特征对目标的影响强度;
54、特征整合分组单元:用于结合预设的权重阈值,将k个特征整合为与目标强相关特征组,s个特征整合为中相关特征组,t个特征整合为弱相关特征组;
55、强相关特征补充集单元:用于依次取出k个强相关特征,结合中相关特征组、弱相关特征组的特征与第k个强相关特征的相关系数,k≤k,判断相关系数是否大于相关阈值;若相关系数不大于相关阈值,则不将该特征加入第k个强相关特征的补充集;若相关系数大于相关阈值,则再判断该特征是否加入过其他强相关特征的补充集;若该特征已加入过其他强相关特征的补充集,则不将该特征加入第k个强相关特征的补充集;若该特征没有加入其他强相关特征的补充集,则进一步判断该特征的权重阈值是否达到加入界限;若该特征的权重阈值没有达到加入界限,则不将该特征加入第k个强相关特征的补充集;若该特征的权重阈值达到加入界限,则将该特征加入第k个强相关特征的补充集;
56、关键特征表示单元:用于依次合并各强相关特征与其补充集,得到关键特征表示作为预测模型的输入。
57、本发明还提供一种计算机可读存储介质,其上存储有计算机程序,所述程序被处理器执行时实现如上述所述的基于多层级特征融合的交通流预测方法的步骤。
58、本发明还提供一种计算机设备,所述计算机设备包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如上述所述的基于多层级特征融合的交通流预测方法的步骤。
59、与现有技术相比,本发明的有益效果在于:
60、本发明提供的基于多层级特征融合的交通流预测方法及系统既实现了多层次全方面的交通流数据融合,提升了数据挖掘效果,又基于领域知识提取高质量特征,更是在特征提取、特征筛选等方面为交通流预测领域提供了技术启发,有效提升了特征融合效果与特征可解释性。
本文地址:https://www.jishuxx.com/zhuanli/20240731/187698.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表