考虑交叉口异质性的多智能体强化学习交通信号协同控制方法
- 国知局
- 2024-07-31 20:28:53
本发明属于城市交通信号控制领域,具体涉及交通信号协同控制方法。
背景技术:
1、交通信号控制在提高交叉口通行效率、减少交通安全风险和降低机动车的出行成本等方面具有重要作用。依据控制原理的不同,传统交通信号控制方法可以分为定时控制、感应控制和自适应控制。其中自适应控制能够在交通流参数随时间变化的情况下保持控制系统的全局性能水平,是最为常见的控制方法。
2、近年来,伴随人工智能的兴起,深度强化学习在交通自适应信号控制中得到了广泛应用,并取得了较好的控制效果。该方法将信号灯作为智能体,借由深度学习网络强大的感知处理功能,智能体能够自主观察并学习路网环境的状态表征,并基于强化学习进行决策训练,优化解决问题的策略方法,实现端到端的感知,进而大幅度提高信号控制的自适应水平。
3、然而,现有深度强化学习模型的建立与验证大多面向均质路网(交叉口等级相近、交通流量较为均衡)。交叉口在相交道路等级、形状、交通流量、信号周期时长等方面的差异(也称作“交叉口异质性”)对于动作选择的影响往往被研究者们所忽略。但在实际情况中,为使交通流合理集散,常见的城市路网结构是在两条主干道之间布设若干条次干路或者支路,因此相邻交叉口间的几何结构、交通流量可能存在较大差异,交叉口的周期时长也可能相差甚多。异质交叉口的存在增加了路网交通流的不确定性与非线性,交通流之间时空相关性变的更加复杂。然而,已有研究大多面向的是均质网环境,并不适用于交叉口等级相差较大的异质路网环境。
技术实现思路
1、本发明的目的是为了解决现有方法大多面向的是均质网环境,并不适用于交叉口等级相差较大的异质路网环境,导致交叉口通行效率低的问题,而提出考虑交叉口异质性的多智能体强化学习交通信号协同控制方法。
2、考虑交叉口异质性的多智能体强化学习交通信号协同控制方法具体过程为:
3、步骤1、数据采集;
4、步骤2、仿真平台搭建及初始化;
5、步骤3、多智能体深度强化学习网络搭建及初始化;
6、步骤4、将仿真平台输出的交叉口的交通状态、路网的交通状态、奖励函数作为多智能体深度强化学习网络的输入,多智能体深度强化学习网络输出各交叉口的个体动作函数值,基于多智能体深度强化学习网络输出的各交叉口的个体动作函数值确定动作,将动作经仿真平台软件中的traci交通控制接口反馈给仿真平台,仿真平台δt秒后再次输出交叉口的交通状态、路网的交通状态、奖励函数;
7、步骤5、重复执行步骤4对多智能体深度强化学习网络进行训练,直至收敛,获得训练好的多智能体深度强化学习网络;
8、训练好的多智能体深度强化学习网络包括:
9、训练好的多智能体深度强化学习评估网络和训练好的多智能体深度强化学习目标网络;
10、步骤6、将实际路网在时刻交叉口i的交通状态输入训练好的多智能体深度强化学习评估网络,输出交叉口i在时刻的个体动作函数值;
11、基于个体动作函数值选择最优动作,将最优动作下发到交叉口i。
12、本发明的有益效果为:
13、本发明以路网整体长时累积奖励最大化为目标,以个体交叉口绿灯显示时长的调整为动作,考虑交叉口异质性,针对多信号交叉口协同控制问题构建了一种值分解式的时空图注意多智能体深度强化学习模型。
14、本发明提出了一种面向异质交叉口信号协同控制的多智能体深度强化学习框架。该框架基于时空图注意力网络挖掘路网时空特性,并通过联合动作值函数分解的方式从路网整体角度出发对各交叉口的信号控制策略做出调整,在减少状态-动作空间的同时实现多智能体的合作共赢。其次,针对城市路网中相邻交叉口普遍存在差异的实际情况,设计了异质相关性指标,将交叉口拓扑结构的差异具象化,并以此为基础设计了一种全新的奖励函数,为智能体在异质路网环境下的动作选择提供了一种更准确的衡量方法。最后通过双重对偶网络的引入将路网全局与个体交叉口的动作值函数分解为状态值函数与动作优势函数的加和,使状态值函数的计算不再完全依赖于动作,加快了网络的收敛速度,也使全局最优与个体最优的一致性约束转化为易于实现的动作优势函数的取值范围约束,简化了最优动作值函数的学习过程,提高了交叉口的通行效率。
技术特征:1.考虑交叉口异质性的多智能体强化学习交通信号协同控制方法,其特征在于:所述方法具体过程为:
2.根据权利要求1所述的考虑交叉口异质性的多智能体强化学习交通信号协同控制方法,其特征在于:所述步骤1中数据采集;具体过程为:
3.根据权利要求2所述的考虑交叉口异质性的多智能体强化学习交通信号协同控制方法,其特征在于:所述步骤2中仿真平台搭建及初始化;具体过程为:
4.根据权利要求3所述的考虑交叉口异质性的多智能体强化学习交通信号协同控制方法,其特征在于:所述将步骤1采集的数据输入sumo软件,在sumo软件中配置为不同交通时段下的道路拓扑文件;sumo软件输出交叉口的交通状态路网的交通状态st、奖励函数rt-1;具体过程为:
5.根据权利要求4所述的考虑交叉口异质性的多智能体强化学习交通信号协同控制方法,其特征在于:所述步骤3中多智能体深度强化学习网络搭建及初始化;具体过程为:
6.根据权利要求5所述的考虑交叉口异质性的多智能体强化学习交通信号协同控制方法,其特征在于:所述步骤5中重复执行步骤4对多智能体深度强化学习网络进行训练,直至收敛,获得训练好的多智能体深度强化学习网络;
7.根据权利要求6所述的考虑交叉口异质性的多智能体强化学习交通信号协同控制方法,其特征在于:所述步骤4.4.1中将交叉口i在t时刻的交通状态输入时空特征提取层提取交叉口时空特征具体过程为:
8.根据权利要求7所述的考虑交叉口异质性的多智能体强化学习交通信号协同控制方法,其特征在于:所述步骤4.4.2中将路网的交通状态st和交叉口时空特征输入个体值函数拟合层,计算交叉口个体动作函数值具体过程为:
9.根据权利要求8所述的考虑交叉口异质性的多智能体强化学习交通信号协同控制方法,其特征在于:所述步骤4.4.8中计算样本经验的值函数:具体过程为:
10.根据权利要求9所述的考虑交叉口异质性的多智能体强化学习交通信号协同控制方法,其特征在于:所述步骤6中将实际路网在时刻交叉口i的交通状态输入训练好的多智能体深度强化学习评估网络,输出交叉口i在时刻的个体动作函数值,基于个体动作函数值获得动作,将动作下发到交叉口i;具体过程为:
技术总结考虑交叉口异质性的多智能体强化学习交通信号协同控制方法,本发明属于城市交通信号控制领域,具体涉及交通信号协同控制方法。本发明的目的是为了解决现有交叉口通行效率低的问题。过程为:数据采集;仿真平台搭建及初始化;多智能体深度强化学习网络搭建及初始化;将仿真平台输出的交叉口的交通状态、路网的交通状态、奖励函数作为多智能体深度强化学习网络的输入,输出各交叉口的个体动作函数值,确定动作反馈给仿真平台,仿真平台Δt秒后再次输出交叉口的交通状态、路网的交通状态、奖励函数;获得训练好的多智能体深度强化学习网络;将实际交叉口的交通状态输入网络,输出个体动作函数值,选择最优动作下发到交叉口。技术研发人员:别一鸣,季毓婷,季金华,王天贺,从远受保护的技术使用者:吉林大学技术研发日:技术公布日:2024/5/16本文地址:https://www.jishuxx.com/zhuanli/20240731/186406.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。