技术新讯 > 信号装置的制造及其应用技术 > 一种面向高峰时段拥堵的大规模自适应交通信号控制方法  >  正文

一种面向高峰时段拥堵的大规模自适应交通信号控制方法

  • 国知局
  • 2024-09-11 14:46:58

本发明属于交通信号控制,具体涉及一种面向高峰时段拥堵的大规模自适应交通信号控制方法。

背景技术:

1、近几年由于人口显著增长以及城市化进程加快等因素,我国主要城市的交通需求与日俱增,给现有城市交通基础设施带来了巨大的压力,导致持续性的交通拥堵。尤其是早晚高峰交通堵塞,导致通勤者出行时间成本的大量流失,严重干扰经济社会的正常运行。交通信号控制(tsc)技术具有成本效益高、易于实施和调整等优点,在各大城市的交通拥堵问题解决中得到了广泛应用。目前传统交通信号控制技术的应用仍然广泛,其有效性取决于给定的交通模型或是预先定义的规则是否对交通系统做出了准确的描述,而交通系统是非线性变化的复杂系统。因此,它们很难适应动态变化的交通流量并估计出最优的信号参数。

2、强化学习(rl)作为一种促进序贯决策的机器学习方法,近几年在tsc领域得到了迅速发展。rl将tsc建模为一个马尔可夫决策过程(mdp),其中智能体通过与交通环境的交互积累经验并从中学习策略,获得基于实时状态观测做出最优信号相位决策的能力,从而实现理想的控制性能。自主观测环境状态以及自主做出相应决策的特性,使基于rl的tsc技术成为一种自适应的方法,减少了人为不确定因素。对于路网级别的tsc任务,多智能体强化学习(marl)通过将全局控制分配给每个路口智能体来克服可扩展性问题,展现出了令人满意的适应性和高效性。然而对于大规模路网,现有的基于marl的信控技术难以克服环境的复杂性及不稳定性引发的收敛性挑战,导致控制性能不理想。因此,制定基于网络聚类的控制子区划分机制来简化大规模联合控制问题,并且在marl算法层面引入有效设计以稳定训练过程,对实现高效、自适应的交通信号控制具有重大的意义。

技术实现思路

1、为了弥补现有技术的不足,本发明目的在于提供一种面向高峰时段拥堵的大规模自适应交通信号控制方法,以提升高峰时段大规模的交通信号控制的鲁棒性和高效性。首先,利用有效的聚类算法对大规模路网进行划分,获得一组拥堵程度得到明显区分且空间紧凑的同质子路网,控制子区划分的预处理能够显著提升后续强化学习的训练效率;然后,通过引入高效的rl算法架构以及创新的mdp设计,保证算法在具有挑战性的高峰训练场景下能够平稳收敛到理想性能,从而在实际应用中能够实时准确地识别动态拥堵情况下的交通特征,并实施相应的控制策略。

2、为实现上述目的,本发明的具体技术方案如下:

3、所述的一种面向高峰时段拥堵的大规模自适应交通信号控制方法,包括以下步骤:

4、s1.选取待进行交通信号控制的大规模道路网络,构建路网结构,作为后续训练及测试场景;

5、s2.获取该路网在待研究时段的路段级拥堵指数数据,根据该路网的高峰拥堵指数构建一套相应的高峰车流量文件,作为仿真阶段的车流量数据;

6、s3.进行交通网络聚类;

7、s4.进行仿真训练阶段,基于步骤s3的聚类结果,对每个子路网进行多智能体强化学习训练;

8、s5.在线应用阶段,将训练好的madqn控制器投入对应子路网执行信号控制任务,在每一个控制时间步,每一个路口智能体(信号控制器)的输入为交通数据采集仪器收集到的实时路口观测状态,实时输出当前状态下最优的信号相位选择。

9、进一步地,所述步骤s3的具体流程如下:

10、s31.路网构建为一个无向图g=(v,e),节点集v中每一个节点代表路网中的一个双向路段,节点之间通过边连接,e为边的集合;

11、s32.计算节点i和j之间的边权重:ω(i,j)=exp(-(ci-cj)2);

12、s33.基于ncut算法做交通网络聚类,其原始形式的数学计算公式为:其中,a、b为子节点集,cut(a,b)用于衡量整体相似度:cut(a,b)=∑u∈a,v∈bω(u,v),assoc(a,v)用于衡量子节点集和节点集的整体相似度:assoc(a,v)=∑u∈a,z∈vω(u,z),通过最小化ncut值,获得一组拥堵程度得到明显区分且空间紧凑的子路网;

13、s34.引入评价指标nsk值,其数学计算公式为:其中c为所有聚类的集合,var和u分别表示方差和均值,nsk值越小,说明在该聚类数下的聚类效果越好。

14、进一步地,所述步骤s4的具体流程如下:

15、s41.设计智能体与其邻居之间的状态信息共享机制,计算智能体i观测得到的局部状态为:其中ni为智能体i的邻居智能体集合,γs为空间折扣因子;

16、s42.应用基于阻抗指数设计奖励函数,智能体i在时间t时的即时奖励计算如下:其中li为智能体i所在路口的进口车道组成的集合,ql,t、vl,t分别为车道l在时间t时的车辆排队长度和平均车速,σ用于衡量车速对奖励的影响程度;

17、s43.在madqn算法中,每一个智能体有一个对应的dqn网络,在每个时间步以其观测到的状态为输入,预测每个动作的q值,其损失函数定义为:其中ωi、分别是主q网络和目标q网络的参数,b为mini-batch,采用梯度下降法更新网络参数。

18、进一步地,所述步骤s5中,每隔一定的控制间隔,控制器计算出当前最优相位并判断是否执行。

19、与现有技术相比,本发明有以下优点:

20、(1)本发明方法能够适应各种道路结构复杂、车流密集时变的路网场景,高效、自适应地完成交通信号控制任务,在平均车速、平均车辆行驶时间、平均路口停车次数等各项交通评价指标上都表现出显著优势,具有应用潜力和价值,扩展性强。

21、(2)将网络聚类和marl相结合的方法来实现大规模的交通信号控制,使用归一化切割(ncut)算法对大规模道路网络进行有效划分,将大规模网络的联合信号控制问题转化为每个同质子网络的并行信号控制问题,进而有针对性地进行控制器的训练和应用,显著降低了计算成本,克服了大规模交通信号控制任务普遍存在的收敛性挑战;基于强化学习构建信号控制器,对于交通流的动态变化具有较强适应性。

22、(3)在mdp设置中引入创新设计,联合状态设计增强了智能体局部通信,能够使各智能体学习联合策略而非独立策略,促进智能体协作朝优化全局交通效率的方向发展,保证了联合控制的整体性和鲁棒性;以及基于阻抗的奖励函数综合考虑多项交通指标,能够准确反映交通流动态拥堵程度,使得智能体能够较好地学习到动态拥堵情况下的交通特征和相应策略,增强了方法的可靠性和准确性。

技术特征:

1.一种面向高峰时段拥堵的大规模自适应交通信号控制方法,其特征在于,所述方法包括以下步骤:

2.根据权利要求1所述的一种面向高峰时段拥堵的大规模自适应交通信号控制方法,其特征在于,所述步骤s3的具体流程如下:

3.根据权利要求1所述的一种面向高峰时段拥堵的大规模自适应交通信号控制方法,其特征在于,所述步骤s4的具体流程如下:

4.根据权利要求1所述的一种面向高峰时段拥堵的大规模自适应交通信号控制方法,其特征在于,所述步骤s5中,每隔一定的控制间隔,控制器计算出当前最优相位并判断是否执行。

技术总结本发明公开一种面向高峰时段拥堵的大规模自适应交通信号控制方法,包括以下步骤:构建路网结构作为后续训练及测试场景;获取该路网在待研究时段的路段级拥堵指数数据并构建高峰车流量文件,作为仿真阶段的车流量数据;进行交通网络聚类;对每个子路网进行多智能体强化学习训练;将训练好的MADQN控制器投入对应子路网执行信号控制任务,实时输出当前状态下最优的信号相位选择。本发明方法能够适应各种道路结构复杂、车流密集时变的路网场景,高效、自适应地完成交通信号控制任务,在平均车速、平均车辆行驶时间、平均路口停车次数等各项交通评价指标上都表现出显著优势,具有应用潜力和价值,扩展性强。技术研发人员:方毅,陶治成,李超,陈积明,贺诗波受保护的技术使用者:浙江大学技术研发日:技术公布日:2024/9/9

本文地址:https://www.jishuxx.com/zhuanli/20240911/292131.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。