技术新讯 > 信号装置的制造及其应用技术 > 一种可变车道与信号协同控制方法、系统、设备及介质  >  正文

一种可变车道与信号协同控制方法、系统、设备及介质

  • 国知局
  • 2024-12-26 16:09:22

本发明涉及可变车道控制,具体涉及一种可变车道与信号协同控制方法、系统、设备及介质。

背景技术:

1、随着我国机动车辆保有量的迅猛增长,道路交通供需矛盾日益凸显,尤其是在交叉口处,阶段性的直行与左转交通流比例失衡现象容易导致交通拥堵。从图1可以看出,当前交叉口左转车辆排队较短,而直行车辆却排起了长队。在此情况下,若固定设置两个左转车道,就会造成车道资源的浪费。同时,直行车道的不足导致的排长队现象,将直接影响相邻车道和上游车道的通行效率,导致整个交叉口拥堵,甚至拥堵会进一步扩散至周边区域,进而影响整个城市路网的通行能力。

2、可变车道技术作为一种交通管理手段,有效地将时间和空间优化相结合,能够根据交通需求动态调整车道功能,从而提升道路资源使用效率。目前可变导向车道控制方式主要采用传统的人为或经验控制方式。一般基于经验和历史数据人工切换可变车道功能,或通过调研形成控制方案定时切换可变车道功能。根据经验或历史数据规律,预先设置可变导向车道功能切换时刻的控制方案,对交通流规律性变化的交通状态有较好的控制效果。

3、然而,传统的可变车道人工或定时控制方式存在局限性,在道路交通状态快速变化或突发异常交通事件的情况下,单一地设置可变车道虽然能够动态调整车道数量以适应不同交通流需求,但该方式难以做出及时的调整,并不能完全解决交通拥堵问题。

技术实现思路

1、针对现有技术单一的设置可变车道难以解决交通拥堵的不足,本发明提出一种可变车道与信号协同控制方法、系统、设备及介质,通过基于强化学习的可变车道控制策略,协同优化可变车道控制与信号配时方案,从而解决了现有技术存在的问题。

2、一种可变车道与信号协同控制方法,包括以下步骤:

3、获取交叉口实时的交通状态数据;所述交通状态数据包括每辆车的位置和速度、可变车道车辆的排队长度以及信号控制器中绿灯的时长;

4、构建强化学习模型;所述强化学习模型包括状态空间、动作空间和奖励函数;所述状态空间用于实时记录每辆车的位置和速度以及车道排队长度;所述动作空间用于根据每辆车的位置和速度以及可变车道车辆的排队长度对可变车道进行决策,其决策包括将可变车道状态切换为左转或直行;所述奖励函数用于以当前交叉口各车道车辆的排队长度、车辆等待时间以及停车次数设定奖励值并将该奖励值反馈至所述动作空间生成预期决策;

5、将实时交通状态数据输入所述强化学习模型中,生成可变车道的切换决策;

6、通过可变车道的切换决策对信号控制器进行配时;其中,当可变车道切换为直行时,延长可变车道方向直行相位的绿灯时长t秒,同时减少左转相位t秒的绿灯时长;当可变车道切换为左转时,延长可变车道方向左转相位的绿灯时长t秒,同时减少直行相位t秒的绿灯时长。

7、进一步地,所述状态空间用于实时记录每辆车的位置和速度以及车道排队长度,具体包括以下步骤:

8、创建一个两层的二维矩阵存储交通状态;其中第一层矩阵记录每辆车在检测区域内的具体位置,第二层矩阵用于记录车辆的速度;

9、当车辆驶入检测区域时,通过实时获取车辆进入检测区域的距离以及车辆距离交叉口的距离,计算得到的每个距离与车辆长度的比值,确定出车辆在矩阵中的列号,进而记录每辆车的具体位置;当某个位置有车辆,则将该车辆位置在矩阵中的相应位置值设为1,同时在该位置的速度矩阵中记录该车辆的速度信息;具体表示为:

10、

11、其中:表示在第1车道第n辆车在t时间步的位置;表示在第1车道第n辆车在t时间步的速度;表示第1车道的交通状态;st表示整个交叉口的交通状态;

12、通过查看车辆位置矩阵的每一行,获取到车道的排队长度。

13、进一步地,所述奖励函数用于以当前交叉口可变车道车辆的排队长度、车辆等待时间以及停车次数设定奖励值,具体表示为:

14、

15、其中,k1,k2,k3为权重系数,为交叉口前各车道车辆排队长度之和,为交叉口前车辆等待时间之和,i为交叉口四个方向的各车道编号;为车辆停车次数之和,j为车辆编号。

16、进一步地,采用归一化处理方式将所述交叉口前各车道排队长度、交叉口前车辆等待时间以及车辆停车次数的值确定在0-1范围内,并在计算奖励值时对所述交叉口前各车道排队长度、车辆等待时间以及车辆停车次数的值均乘以一个负值,当交叉口前各车道车辆排队长度之和、车辆等待时间之和以及车辆停车次数之和越小则奖励越大,反之奖励越小。

17、进一步地,还包括对所述强化学习模型进行训练,其训练步骤具体包括:

18、首先初始化交叉口状态,并初始化超参数,具体包括学习率、折扣系数、训练批次、采样大小、经验池大小以及网络q(s,a,w)参数;初始化动作;

19、将环境状态输入强化学习模型,根据状态输出动作,将动作作用于环境;在采取动作后,环境状态发生变化,计算出奖励值,并将环境状态、动作、奖励值存储到经验池中;

20、当经验池中的样本数量达到阈值后,随机从经验池中抽取样本训练学习,通过梯度下降法计算损失,并每隔一定时间更新目标网络参数,经过多次迭代更新,完成对强化学习模型的训练。

21、本发明还包括一种可变车道与信号协同控制系统,包括:

22、获取模块,用于获取交叉口实时的交通状态数据;所述交通状态数据包括每辆车的位置和速度、可变车道车辆的排队长度以及信号控制器中绿灯的时长;

23、模型构建模块,用于构建强化学习模型;所述强化学习模型包括状态空间、动作空间和奖励函数;所述状态空间用于实时记录每辆车的位置和速度以及车道排队长度;所述动作空间用于根据每辆车的位置和速度以及可变车道车辆的排队长度对可变车道进行决策,其决策包括将可变车道状态切换为左转或直行;所述奖励函数用于以当前交叉口各车道车辆的排队长度、车辆等待时间以及停车次数设定奖励值并将该奖励值反馈至所述动作空间生成预期决策;

24、策略生成模块,用于将实时交通状态数据输入所述强化学习模型中,生成可变车道的切换决策;

25、协同控制模块,用于通过可变车道的切换决策对信号控制器进行配时;其中,当可变车道切换为直行时,延长可变车道方向直行相位的绿灯时长t秒,同时减少左转相位t秒的绿灯时长;当可变车道切换为左转时,延长可变车道方向左转相位的绿灯时长t秒,同时减少直行相位t秒的绿灯时长。

26、本发明还包括一种可变车道与信号协同控制计算机设备,包括:存储器、处理器以及存储在所述存储器内的计算机程序,所述处理器执行所述计算机程序时实现所述的可变车道与信号协同控制方法的步骤。

27、进一步地,一种可读存储介质,所述可读存储介质存储有计算机程序,所述计算机程序包括程序指令,所述程序指令被处理器执行时,用于执行所述的可变车道与信号协同控制方法的步骤。

28、本发明提供了一种可变车道与信号协同控制方法、系统、设备及介质,具备以下有益效果:

29、本发明通过构建强化学习的状态空间、动作空间以及奖励函数,旨在能够根据实时的交通状态和以当前交叉口各车道车辆的排队长度、车辆等待时间以及停车次数设定的奖励值,给出可变车道控制方案,通过可变车道的控制方案对信号控制器进行配时,实现可变车道与信号控制协同优化;通过这两步对交叉口的时间、空间资源进行了优化,能够合理地分配资源,提升交叉口通行效率。有效地将时间和空间优化相结合,能够根据实时交通状态动态地分配交叉口道路资源,从而提高交通资源的时空利用率。

本文地址:https://www.jishuxx.com/zhuanli/20241216/348433.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。