技术新讯 > 信号装置的制造及其应用技术 > 多交叉口的交通信号协同控制方法、装置、介质及产品  >  正文

多交叉口的交通信号协同控制方法、装置、介质及产品

  • 国知局
  • 2024-07-31 21:21:45

本发明涉及交通控制,特别是涉及一种多交叉口的交通信号协同控制方法、装置、介质及产品。

背景技术:

1、在快速城市化的背景下,城市规模和机动车保有量不断增加,给城市交通带来了巨大的压力,交通拥堵已成为影响城市效率和居民生活质量的关键问题。虽然通过扩建道路和改善基础设施能在一定程度上缓解这一问题,但由于城市土地资源有限,同时这种方法成本高昂且耗时长对城市经济造成巨大影响,对于迅速变化的城市环境来说,这并不是一个长期可行的解决方案。开发智能和自适应的信号灯控制策略。通过优化现有交通流,合理使用现有交通设施,充分发挥其能力,可以快速且高效益地缓解交通拥堵。这种策略通过实时监控交通状况并动态调整信号灯的时长,能够显著提高道路的通行能力,减少车辆等待时间,进而降低能源消耗和减少环境污染。

2、城市中的车辆种类繁多,大型车辆作为城市交通系统中的重要组成部分,其对交通流的影响不可小觑。由于大型车辆加速慢、体积大,它们在交通流中的行进会影响后续车辆的驾驶策略,对其他车辆产生较大影响,导致交通效率降低,尤其是在高峰时段。因此,合理地调整交通信号,为大型车辆提供优先通行的策略,不仅可以减少大型车辆本身的行程时间,还能有效提升整个交通系统的流畅性和效率。例如,在货物运输频繁的路段,通过智能信号系统优先绿灯大型车辆,可以显著减少交通拥堵,提高物流效率。

3、常见的交通信号控制方法主要包括固定时长控制方法、感应式控制方法以及自适应控制方法。固定时长控制方法根据历史数据设置所有绿灯阶段的固定时长,而不考虑交通需求可能存在的波动,因此无法适应实时交通流量的变化,经常导致非高峰时段的不必要等待或高峰时段的拥堵。感应式控制由配备的十字路口上的感应回路检测器提供交通需求信息,根据车辆到达情况调整交通信号,尽管感应式控制方法对交通需求做出了响应,但是由于这种方法根据预设规则调整交通信号,它的设计并不能完全解决交通需求的波动,尤其是面对复杂的交叉口或交叉口交通流,难以得到最优的控制信号,因此仍然不能解决城市交通拥堵问题。自适应控制方法是一种更有效的解决方案,因为它具有适应交通变化的内置能力,而没有困扰驱动方法的限制。城市交通是高度动态的,人们提出了不同的方法来解决交通信号灯自适应控制这一领域的研究问题。这些方法包括:(1)基于交通理论的方法;(2)基于模拟的方法;以及(3)数据驱动的方法。

4、近年来,强化学习已应用于不同的应用领域,如围棋、atari游戏、能量管理、网络流量预测等。强化学习在解决复杂问题中的成功应用表明,使用强化学习可以为交通信号赋予更高程度的智能。强化学习方法通过不断与环境互动,以基于其从环境接收的反馈学习在特定交通状况下最优的信号控制策略,而不是依赖于通常在传统方法中使用的预定义规则,具有自我学习和适应的能力。这种方法能够实时响应交通流量的变化,动态调整信号灯时长,以优化交通流。

5、尽管强化算法在单交叉口场景中取得了良好的效果,但将其应用于多个交叉口时仍存在许多问题。值得注意的是,在现实世界中直接控制具有复杂交通动态的多个交叉口将更有意义。在多个交叉口的情况下,不同交叉口的拥堵程度不同,多交叉口之间的相互作用增加了环境的复杂性。每个交叉口的强化学习智能体只能观察部分交通状况,不能完全感知其他交叉口的交通状况,这将导致非平稳环境。许多研究人员已经开始将多智能体强化学习算法应用于交通信号控制,如何协调多个交叉口的智能体是一个主要挑战。

6、常见的方法包括集中式和分散式。集中式的方法使用单个智能体控制所有交叉口的交通信号,这种方法可以使用交通系统的所有信息,包括所有交叉口的交通状态和交通信号的选择。这使得算法能够考虑到交叉口的相互作用,更容易实现交叉口之间的协调,避免行动的冲突,促进合作,从而做出全局最优的决策。然而随着交通系统的增大,交叉口随之增多,状态和行动空间的维度呈指数级增长,导致计算复杂度急剧上升,难以扩展到大规模系统。同时集中式控制依赖于中心节点进行决策,可能导致单点故障问题,并且在实时动态环境中响应速度可能不够快。分散式方法在每个交叉口设置单的智能体,每个智能体独立学习和执行,具有较快的收敛速度,更容易扩展到大规模的交通系统。同时每个智能体可以根据所在交叉口信息独立做出决策,提高了系统的鲁棒性和实时响应能力。但在训练和执行过程中只考虑了相邻交叉口的部分状态,缺乏全局信息可能导致智能体间的协调困难,难以保证找到全局最优解。

技术实现思路

1、本发明的目的是提供一种多交叉口的交通信号协同控制方法、装置、介质及产品,提高了多交叉口信号控制的效率和效果。

2、为实现上述目的,本发明提供了如下方案:

3、一种多交叉口的交通信号协同控制方法,包括:

4、获取多交叉口交通信号协同系统中各交叉口的观察状态;

5、将多交叉口交通信号协同系统中的任一交叉口确定为当前交叉口,将当前交叉口的观察状态确定为当前观察状态;

6、利用当前交叉口的交叉口q值模型,基于当前观察状态和各动作,计算当前交叉口在当前观察状态下选择对应动作时的交叉口q值;一个交叉口对应一个交叉口q值模型,当前交叉口的交叉口q值模型为利用训练数据集对多交叉口交通信号协同系统中的所有交叉口的交叉口q值网络和混合网络进行训练得到的训练好的当前交叉口的交叉口q值网络,当前交叉口的交叉口q值网络包括:共享q值网络和当前交叉口的局部q值网络;所述动作为交叉口处的信号灯的相位选择信号;

7、基于当前交叉口在当前观察状态下选择各动作时的交叉口q值,确定当前交叉口在当前观察状态下的目标动作。

8、可选地,各交叉口的交叉口q值模型的确定过程,包括:

9、获取所述训练数据集;所述训练数据集包括:多个当前训练用时刻的训练用数据;当前训练用时刻的训练用数据包括:当前训练用时刻的环境奖励、内在奖励、所有交叉口的环境状态和所有交叉口的动作以及下一训练用时刻的所有交叉口的环境状态和所有交叉口的动作;当前训练用时刻的环境奖励是基于当前训练用时刻的所有交叉口的动作和下一训练用时刻的所有交叉口的环境状态确定的,下一训练用时刻的环境状态是基于当前训练用时刻的观察状态、环境状态和动作确定的,当前训练用时刻的内在奖励是基于所有交叉口的身份、当前训练用时刻的所有交叉口的动作和轨迹确定的,当前训练用时刻的各交叉口的轨迹包括从初始训练时刻到当前训练时刻的时段中各训练用时刻的观察状态和动作;

10、初始化主网络和目标网络;所述主网络和所述目标网络均包括:多交叉口交通信号协同系统中的所有交叉口的交叉口q值网络和混合网络;

11、基于所述训练数据集对所述主网络和目标网络进行多次训练,得到训练好的主网络和训练好的目标网络;

12、将训练好的主网络中所有交叉口的交叉口q值网络确定为对应交叉口的交叉口q值模型。

13、可选地,交叉口q值模型的确定过程,包括:

14、将所述训练数据集中的各下一训练用时刻的所有交叉口的环境状态和动作输入至当前训练次数下的主网络中,得到当前训练次数下的主网络联合q值和对应交叉口的当前训练次数下的局部q值;

15、将所述训练数据集中的各当前训练用时刻的环境状态和动作输入至当前训练次数下的目标网络中,得到当前训练次数下的目标网络联合q值;

16、基于环境奖励、内在奖励、当前训练次数下的主网络联合q值、所有交叉口的当前训练次数下的局部q值和当前训练次数下的目标网络联合q值,计算当前训练次数下的损失;

17、判断是否满足停止条件,得到第一判断结果;所述停止条件为达到预设训练次数;

18、若第一判断结果为是,则将当前训练次数下的主网络中各交叉口的交叉口q值网络确定为对应交叉口的交叉口q值模型;

19、若第一判断结果为否,则基于当前训练次数下的损失反向传播利用梯度下降更新当前训练次数下的主网络的参数,并判断当前训练次数对应的时刻与上一更新时刻之间的差值是否小于预设时间差,得到第二判断结果;所述更新时刻为将目标网络的参数更新为主网络的参数的时刻;

20、若第二判断结果为是,则返回“将所述训练数据集中的各下一训练用时刻的所有交叉口的环境状态和动作输入至当前训练次数下的主网络中,得到当前训练次数下的主网络联合q值和对应交叉口的当前训练次数下的局部q值”;

21、若第二判断结果为否,则将当前训练次数下的目标网络的参数更新为更新后的当前训练次数下的主网络的参数,并返回“将所述训练数据集中的各下一训练用时刻的所有交叉口的环境状态和动作输入至当前训练次数下的主网络中,得到当前训练次数下的主网络联合q值和对应交叉口的当前训练次数下的局部q值”。

22、可选地,所述损失函数为:

23、

24、其中,为最终损失;为td误差;λ为缩放因子;为l1正则化;为第i个交叉口的局部q值网络的输出。

25、可选地,基于当前交叉口在当前观察状态下选择各动作时的交叉口q值,确定当前交叉口在当前观察状态下的目标动作,包括:

26、将当前交叉口的最大交叉口q值对应的动作确定为当前交叉口在当前观察状态下的目标动作。

27、一种计算机装置,包括:存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序以实现上述任一项所述的多交叉口的交通信号协同控制方法。

28、一种计算机可读存储介质,其上存储有计算机程序,该计算机程序被处理器执行时实现上述任一项所述的多交叉口的交通信号协同控制方法。

29、一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现上述任一项所述的多交叉口的交通信号协同控制方法。

30、根据本发明提供的具体实施例,本发明公开了以下技术效果:

31、本发明公开了一种多交叉口的交通信号协同控制方法、装置、介质及产品,获取多交叉口交通信号协同系统中各交叉口的观察状态;将多交叉口交通信号协同系统中的任一交叉口确定为当前交叉口,将当前交叉口的观察状态确定为当前观察状态;利用当前交叉口的交叉口q值模型,基于当前观察状态和各动作,计算当前交叉口在当前观察状态下选择对应动作时的交叉口q值;一个交叉口对应一个交叉口q值模型,当前交叉口的交叉口q值模型为利用训练数据集对多交叉口交通信号协同系统中的所有交叉口的交叉口q值网络和混合网络进行训练得到的训练好的当前交叉口的交叉口q值网络,当前交叉口的交叉口q值网络包括:共享q值网络和当前交叉口的局部q值网络;动作为交叉口处的信号灯的相位选择信号;基于当前交叉口在当前观察状态下选择各动作时的交叉口q值,确定当前交叉口在当前观察状态下的目标动作。本发明对多个交叉口利用多智能体强化学习中集中训练分散执行算法的优势,提高了道路的通行能力,减少了车辆等待时间,进而降低了能源消耗和减少环境污染。

本文地址:https://www.jishuxx.com/zhuanli/20240731/189431.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。