基于深度强化学习和态势预测的交通信号协同方法和系统
- 国知局
- 2024-07-31 21:02:32
本发明属于智慧交通领域,具体涉及一种基于深度强化学习和态势预测交通信号协同方法和系统。
背景技术:
1、随着城市规模的扩大,城市交通对人们的生活、出行和办事效率发挥着越来越重要的作用。城市交通一般通过路口的信号灯来科学分配车辆和行人的通行权,确保城市交通安全、有序,提高道路使用效率,改善交通状况。通常情况下,信号灯的变化时间由交通信号灯设备预先设定,并根据道路车流量和行人需求进行合理调整,一般包括机动车信号灯、车道信号灯、人行横道信号灯等,各自通过不同的灯光组合和指示方向,协同指导车辆和行人安全有序地通行。
2、现有技术中,大多数交通信号灯控制方法往往只关注当前的路口交通状态给出绿灯通行相位,但是,由于交通状态的时空动态性,导致基于当前环境状态信息所做出的信控决策并不能准确高效地应用于未来交通状态,所以目前的信控方法并不能很好地从长远视角解决由于交通流波动剧烈导致的相位切换频繁进而增加交通安全隐患的问题。例如,申请号为202310489368.8的中国专利公开了一种基于迁移强化学习的交通信号灯控制方法,应用智能交通控制技术,通过基于模型的预训练算法和图卷积网络,结合多头注意力机制实现路口特征信息获取和影响程度确定,以更好地反映交通流规律,利用预训练策略加速新路口训练过程,选择适合当前环境的策略,提高数据效率、降低训练成本;申请号为202310385798.5的中国专利提供了一种交通流预测的自适应交通信号控制系统及方法,该控制系统包括交通状态感知模块、数据预处理模块、交通特征提取模块、交通流预测模块、自适应信号控制和通信模块。但是,上述方法都没有考虑信号路口未来交通状态的不确定性对于信号控制的影响,这就可能会导致交通管理的不适应性和效率低下,增加交通安全隐患,以及降低驾驶者的出行体验。
技术实现思路
1、鉴于现有技术中的上述缺陷或不足,本发明旨在提供一种基于深度强化学习和态势预测的交通信号协同方法和系统,强调未来交通态势对控制的重要影响,将态势预测融合到深度强化学习的过程,构建多路口信号协同控制模型,同时实现可靠预测和有效决策,提高信号协同效果的准确性和有效性。
2、为了实现上述目的,本发明实施例采用如下技术方案:
3、第一方面,本发明实施例提供了一种基于深度强化学习和态势预测的交通信号协同系统,所述系统包括:仿真交互环境模块、融合态势预测的多路口信号协同优化模型和基于不确定性加权的多任务训练模块;其中,
4、所述仿真交互环境模块,用于根据路网的实际拓扑结构和相应的车辆路由数据,配置交通系统仿真软件sumo,搭建出与实际交通场景相似的仿真交互环境;
5、所述融合态势预测的多路口信号协同优化模型,用于基于当前和未来的交通状况,实现融合态势预测的有效决策;
6、所述基于不确定性加权的多任务训练模块,用于通过引入不确定性来衡量融合不确定性的预测任务和多路口信号灯控制任务的重要度,从而动态地调整各任务在整体损失函数中的权重。
7、优选地,所述仿真交互环境模块进一步用于:
8、利用交通系统仿真软件sumo的traci接口和sumolib工具,获取仿真交互过程中路网上车辆的交通运行信息以及信号灯控制的交通路口,同时通过traci接口向交通信号灯发送所述融合态势预测的多路口信号协同优化模型输出的信号控制方案,从而调整通行相位;通过sumo模拟实际交通环境的运行情况,同时记录下路网中各个信号路口的交通状态信息,并将这些信息反馈给所述融合态势预测的多路口信号协同优化模型,用于下一轮控制方案的计算;
9、所述通行相位,同时获得通行权的一股或多股不产生交通冲突的交通转向构成一个相位。
10、优选地,所述融合态势预测的多路口信号协同优化模型,包括多路口复杂交通动态图表示模块、融合不确定性的细粒度级交通流预测模块和多路口交通信号灯相位协同选择模块;其中,
11、所述多路口复杂交通动态图表示模块由第一多层感知机以及图注意力机制子模块组成,用于通过路口间邻接关系实现多路口交通状态的信息交互,提取相邻路口的状态特征;
12、所述融合不确定性的细粒度级交通流预测模块包括实例归一化层、编码器、卷积层、加和算子和第二多层感知机,用于通过预测道路未来车流量来实现车道级态势感知,从而辅助交通信号灯的控制决策过程;
13、所述多路口交通信号灯相位协同选择模块由第三多层感知机组成,用于接收多路口交通的复杂动态图表示;还用于通过融合不确定性的细粒度级交通流预测模块提供的预测数据,融合未来交通流量变化的不确定性因素,以进一步提高决策的准确性和鲁棒性。
14、优选地,所述第一多层感知机mlp(·)用于对各路口状态表示进行特征提取,获得各路口状态特征
15、所述图注意力机制子模块用于使用状态特征h′t和路口邻接矩阵a作为输入,对各相邻路口的状态特征进行聚合,从而获得融合邻接路口状态的路口特征表示
16、优选地,所述多路口复杂交通动态图表示模块的输入为时刻t的n个路口状态和路口邻接矩阵其中每一个路口的路口状态包括路口当前信号相位pi和进口车道上车辆数vi,表示为所述邻接矩阵由0-1矩阵表示,其中当路口i和路口j相邻时,aij=1,否则aij=0。
17、优选地,所述融合不确定性的细粒度级交通流预测模块的输入数据为某路口的历史车流序列具体执行操作如下:
18、输入的历史车流数据经过实例归一化处理;归一化后的数据被送入编码器进行流量预测;编码器由交通流量预测模型构成,利用二维卷积操作来预测未来多步流量的变化趋势;再通过加和算子对时间维度进行压缩,得到未来预定时间内的进口车道新增车流量的变化区间,以获取未来交通流量的预测结果;最后通过第三多层感知机对预测结果进行特征提取。
19、优选地,在所述多路口交通信号灯相位协同选择模块的工作流程中,首先将多路口复杂交通动态图表示模块和融合不确定性的细粒度级交通流预测模块的输出进行直接拼接;然后,将拼接后的特征向量送入第三多层感知机中,对输入的数据进行非线性变换和处理,以更好地理解复杂的交通情况;通过第三多层感知机计算出动作集合中各个动作的价值,从而评估每个可能的相位的优劣。
20、优选地,所述多路口交通信号灯相位协同选择模块采用ε-贪婪算法,有ε的概率从动作集合中随机选择动作,有1-ε的概率则选择价值最大的动作;
21、单个路口选择动作的具体过程如下:
22、
23、式(5)中,表示动作集合;q表示动作价值函数,包含动作集合中每一个动作a的价值;s为当前信号相位pi和进口车道上车辆数vi表示的路口状态;β表示从[0,1]区间内随机采样的一个数;ε表示设置的固定概率值,且取值在[0,1]区间内。
24、优选地,所述融合不确定性的预测任务采用分位数损失函数如下:
25、
26、式(6)中,θ代表模型可学习的参数集合,通过训练过程来调整模型以更好地拟合数据;f(x)表示预测模型输出的置信区间,y表示真实的观测值;ρ表示置信水平,以分位数的形式(ρ1,ρ2,ρ3)给出;
27、所述多路口信号灯控制任务采用均方误差损失函数如下:
28、
29、式(7)中,n代表样本数据的总组数,每组数据{(s,a,r,s′)}由状态s、动作a、奖励r和下一个状态s′组成;qω(si,ai)表示动作值函数,表示时序差分目标函数,其意义为时序差分学习的目标是增量地更新动作值函数;所述时序差分目标函数中,r表示当前时刻的奖励,γ表示折扣因子,s′表示下一个状态,a′表示在下一个状态下能够得到最大动作值的动作。
30、第二方面,本发明实施例还提供了一种基于深度强化学习和态势预测的交通信号协同方法,所述方法基于如上所述的系统实现,具体包括:
31、通过仿真交互环境模块根据路网的实际拓扑结构和相应的车辆路由数据,配置交通系统仿真软件sumo,搭建出与实际交通场景相似的仿真交互环境;在所搭建的仿真交互环境中,利用交通系统仿真软件sumo的traci接口和sumolib工具,获取仿真交互过程中路网上车辆的交通运行信息以及信号灯控制的交通路口,同时通过traci接口向交通信号灯发送所述融合态势预测的多路口信号协同优化模型输出的信号控制方案,从而调整通行相位;通过sumo模拟实际交通环境的运行情况,同时记录下路网中各个信号路口的交通状态信息,并将这些信息反馈给所述融合态势预测的多路口信号协同优化模型,用于下一轮控制方案的计算;
32、融合态势预测的多路口信号协同优化模型基于当前和未来的交通状况,实现融合态势预测的有效决策;
33、基于不确定性加权的多任务训练模块通过引入不确定性来衡量融合不确定性的预测任务和多路口信号灯控制任务的重要度,从而动态地调整各任务在整体损失函数中的权重;越稳定的任务说明质量越高,对整体损失的贡献也越大;通过不确定性加权的机制,优化所述融合态势预测的多路口信号协同优化模型训练过程,提高模型的鲁棒性和泛化能力。
34、本发明实施例所提供的技术方案具有如下有益效果:
35、本发明实施例提供了一种基于深度强化学习和态势预测的交通信号协同方法和系统,通过提前预测未来交通态势的变化范围为多路口信号协同控制提供可靠的数据支撑和决策支持。所述方法首先利用开源的交通系统仿真软件sumo,搭建模拟仿真的可交互交通环境,实现车辆在信号路口的控制;再构建融合态势预测的多路口信号协同优化模型,基于当前和未来的交通状况,实现融合态势预测的有效决策;收集模型与仿真环境交互过程中的交通状态数据,对收集到的数据进行预处理后,进行训练样本构造和数据集划分;引入不确定性来衡量预测任务和决策任务的重要度,利用多任务自适应加权损失函数来训练模型,同时实现可靠的预测和有效的决策。本发明定义了一种全新的融合交通不确定性预测的信号灯控制方法,即提前预测未来的交通波动范围,以实现可靠预判,为信号灯有效控制完成交通疏导提供数据支撑和重要依据,这在交通信号控制领域中有着广泛的应用前景与价值。
36、当然,实施本发明的任一产品或方法并不一定需要同时达到以上所述的所有优点。
本文地址:https://www.jishuxx.com/zhuanli/20240731/188079.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表