技术新讯 > 信号装置的制造及其应用技术 > 交通信号灯的控制策略确定方法、控制方法及相关设备 > 正文

交通信号灯的控制策略确定方法、控制方法及相关设备

国知局
2024-07-31 21:10:32

本技术涉及交通信号灯控制，尤其涉及一种交通信号灯的控制策略确定方法、一种交通信号灯的控制方法、控制设备及相关存储介质。

背景技术：

1、交通信号灯控制旨在通过控制道路上多个信号灯的相位以最小化车辆平均行驶时间，交通信号灯控制可以有效地管理交通流量，有利于缓解交通堵塞问题，从而可以降低通勤时间，进一步降低碳排放。因此，优化交通信号灯控制策略有着重要意义。

2、传统的交通信号灯控制策略依赖专家定义的规则，如定时控制(fixed-timedcontrol)、自组织交通灯(self-organizing traffic lights)等，虽然传统的交通信号灯控制策略规则可解释性很强，但是，需依赖专家的经验，且无法从数据中学习。

3、近年来，随着深度强化学习(deep reinforcement learning，drl)的兴起，有各种基于drl的方法被提出用于交通信号灯控制任务。在这些方法中，智能体agent能通过不断地与环境交互而学习优化自己的控制策略。然而，尽管这些基于drl的交通信号灯控制方法能在模拟环境中取得不错的性能，但是，第一，这些方法中agent的策略通常由一个神经网络模型(黑盒模型)所表示，神经网络强大的表达能力使得控制策略很难被解释，我们很难知道它做决策的原因，难以验证，在高风险决策场景(如交通)中应用这些黑盒模型可能会导致不可预测的风险，规定了交通信号灯的控制策略需具有可解释性；第二，由于神经网络会涉及到大量的32位浮点运算，这无疑对边缘硬件的运算速度和存储提出了很高的要求，因此，大部分低端的芯片并不能支持神经网络，即神经网络不能直接部署到边缘硬件，要想部署神经网络还需要额外的操作如模型量化，这会进一步损坏模型性能；第三，泛化能力不强，强的泛化能力指在某一个或一些路口训练的策略直接用到其他路口，不需要重新训练，而神经网络策略会过拟合，它们在新路口的表现很糟糕，甚至差于传统方案。所以，绝大部分交通信号灯控制方法用的还是基于规则的方法。

技术实现思路

1、为解决上述技术问题，本技术实施例提供了一种交通信号灯的控制策略确定方法，以使得确定的交通信号灯控制策略由程序表示，从而可解释、可验证；并且运算资源消耗少，有利于部署在终端设备；再者，具有优良的迁移泛化能力，能够在少数路口上学习，并应用于其他路口。本技术实施例还提供了一种交通信号灯的控制方法、控制设备及相关存储介质，以应用前述确定的交通信号灯控制策略。

2、为实现上述目的，本技术实施例提供了如下技术方案：

3、一种交通信号灯的控制策略确定方法，包括：

4、配置领域特定语言dsl，所述dsl用于描述程序；

5、配置程序转换规则，所述转换规则作为搜索算法中由当前节点的程序得到搜索路径中下一节点的程序的转换方式；

6、配置路口的观察特征；

7、配置奖励函数为第一函数或第二函数，所述第一函数用于评估所述搜索算法得到的节点程序的性能，所述第二函数用于评估所述搜索算法得到的节点程序和用户预先编写的部分控制程序的组合程序的性能；

8、基于所述路口的观察特征及配置的奖励函数，采用所述搜索算法搜索程序，得到最终搜索到的目标程序；

9、当配置的奖励函数为所述第一函数时，以所述目标程序作为交通信号灯的控制策略；当配置的奖励函数为所述第二函数时，以所述目标程序及所述用户预先编写的部分控制程序的组合程序作为交通信号灯的控制策略。

10、可选的，配置的奖励函数为所述第二函数；

11、所述搜索算法得到的节点程序用于基于所述路口的观察特征，计算每条车道链接的优先度值，一条车道链接表示交通流从一条入射车道进入一条出射车道；

12、路口的交通信号灯包括多个相位，一个相位包括多个车道链接；

13、所述用户预先编写的部分控制程序用于遍历各个相位，在每一相位下，调用所述搜索算法得到的节点程序计算该相位下各个车道链接的优先度值，将该相位下各个车道链接的优先度之和作为该相位的优先度值，得到各个相位的优先度值，并输出优先度值最高的相位作为下一时刻的相位；

14、其中，一条车道链接的优先度值表征该条车道链接的紧迫性，一个相位的优先度值表征该相位的紧迫性。

15、可选的，所述第一函数以路口车辆的平均行驶时间的倒数评估所述搜索算法得到的节点程序的性能；

16、所述第二函数以路口车辆的平均行驶时间的倒数评估所述搜索算法得到的节点程序和用户预先编写的部分控制程序的组合程序的性能。

17、可选的，所述搜索算法包括蒙特卡洛树搜索算法或遗传搜索算法。

18、可选的，所述路口的观察特征包括多个路口的观察特征。

19、可选的，一个路口的观察特征包括该路口每条车道上的车辆数量、每条车道上等待的车辆数量以及每条车道上距离路口预设距离内的车辆数量。

20、可选的，在得到所述目标程序后，还包括：

21、对所述目标程序中的参数进行优化。

22、一种交通信号灯的控制方法，包括：

23、获取当前路口的观察特征；

24、基于获取的当前路口的观察特征，采用上述任一项所述的交通信号灯的控制策略确定方法所确定的交通信号灯的控制策略，确定下一时刻交通信号灯的相位。

25、一种交通信号灯的控制设备，包括：

26、传感器，用于获取当前路口的观察特征；

27、控制器，用于基于获取的当前路口的观察特征，采用上述任一项所述的交通信号灯的控制策略确定方法所确定的交通信号灯的控制策略，确定下一时刻交通信号灯的相位。

28、一种存储介质，其上存储有计算机程序，所述计算机程序被处理器执行时，运行上述任一项所述的交通信号灯的控制策略确定方法所确定的交通信号灯的控制策略。

29、与现有技术相比，上述技术方案具有以下优点：

30、本技术实施例所提供的交通信号灯的控制策略确定方法，配置领域特定语言dsl用于描述程序；配置程序转换规则作为搜索算法中由当前节点的程序得到搜索路径中下一节点的程序的转换方式；配置路口的观察特征；并配置奖励函数为第一函数或第二函数，第一函数用于评估搜索算法得到的节点程序的性能，第二函数用于评估搜索算法得到的节点程序和用户预先编写的部分控制程序的组合程序的性能；从而，基于路口的观察特征及配置的奖励函数，采用搜索算法搜索程序，得到最终搜索到的目标程序；进而，当配置的奖励函数为第一函数时，以目标程序作为交通信号灯的控制策略；当配置的奖励函数为第二函数时，以目标程序及用户预先编写的部分控制程序的组合程序作为交通信号灯的控制策略。可见，本技术实施例所提供的方法所确定的交通信号灯的控制策略由程序表示，从而可解释、可验证；并且只需要极小的浮点计算量和存储空间，运算资源消耗少，有利于部署在终端设备；再者，由于程序是简洁的，程序策略对车流量的变化和路口的变化是鲁棒的，因此，程序具有更好的泛化能力，在一个路口训练得到的程序可以直接部署到其他路口中。