技术新讯 > 信号装置的制造及其应用技术 > 一种区域交通信号灯控制方法、装置、设备及介质与流程 > 正文

一种区域交通信号灯控制方法、装置、设备及介质与流程

国知局
2024-07-31 20:33:54

本发明涉及智能交通信号控制领域，更具体地说，它涉及一种区域交通信号灯控制方法、装置、设备及介质。

背景技术：

1、城市交叉路口作为城市车辆通行的关键位置，大多数的交通拥堵都是由于交叉路口的通行能力不足引起的。因此，优化交叉路口的信号灯控制方式，可以有效的改善城市的交通压力，提高道路通行能力。

2、现有的信号灯控制方法为手动分时段配时，通过提前收集路口各个相位的不同时段的车流量大小，计算出不同时段的最佳配时方案，写入信号灯控制系统。现在人工智能的兴起，信号灯控制也逐渐往人工智能方向靠近，各种不同的网络模型被运用于信号灯控制当中，起到了明显的优化效果，但大多数的测试都集中在单个路口的应用上，如果仅考虑单个路口的通行效率，很容易造成局部最优的情况发生，导致整片交通区域的信号灯配时无法到达最佳。

技术实现思路

1、本发明的目的是提供一种区域交通信号灯控制方法、装置、设备及介质，本发明通过提前构建车辆在区域行驶的路网模型，先对路口增加真实交通场景下的约束条件，以建立包含车辆多个行驶状态的状态空间和包含信号灯约束和路口通行策略的动作空间，再使用benders分解算法和交替方向乘子算法将所有路口联合起来计算出全区域的奖励空间，具体而言，benders分解算法和交替方向乘子算法为后续的强化学习制定了更为细致和优异的运行策略，强化学习的奖励空间也因此变为了求解联合算法的最优解的问题，传统的奖励空间定义为排队时间、延误时间等，这里将分解算法和交替方向乘子算法算法的解作为奖励空间，计算出的值越小则代表多路口联合下的信控优化策略越优。进一步的，使用双深度q网络对状态空间、动作空间和奖励空间进行训练，基于训练后的双深度q网络能够直接用于区域交通信号灯的控制，可见，本发明能够对连续性的区域路网信号灯进行控制优化，提高区域车辆的通行能力。

2、本技术的第一方面，提供了一种区域交通信号灯控制方法，方法包括：

3、构建车辆在区域行驶的路网模型，在路网模型上建立包含车辆多个行驶状态的状态空间和包含信号灯约束和路口通行策略的动作空间；

4、在路网模型上确定出由多个路口形成的矩阵网格，将矩阵网格分为多种类型的单元格，并赋予每种类型的单元格不同的权重；其中一个单元格对应一个路口；

5、采用benders分解算法和交替方向乘子算法建立区域多种类型的单元格的最优问题，迭代求解最优问题，得出车辆在区域的各个路口行驶的奖励空间；其中，最优问题是指通过交替方向乘子算法定义每个相位的车辆通行的子优化问题，以生成benders分解算法的约束条件来计算区域的最小权重和；

6、将状态空间、动作空间和奖励空间作为双深度q网络的输入参数，对双深度q网络进行训练，将训练完成的双深度q网络用于区域交通信号灯的控制。

7、在本技术的第一方面的一种实现方式中，构建车辆在区域行驶的路网模型，包括：

8、采集区域多个路口的路口行驶数据；

9、采用vissim仿真模拟软件对路口行驶数据进行模拟，构建出车辆在区域行驶的路网模型。

10、在本技术的第一方面的一种实现方式中，所述状态空间包括交通流量、行驶速度、道路长度和车辆密度。

11、在本技术的第一方面的一种实现方式中，所述信号灯约束包括每个路口四相位的信号灯只能有一个处于绿灯状态、当前相位绿灯结束到下个相位绿灯开启时所有相位皆变为红灯状态、确定每个路口每个相位的最大绿灯配时和最小绿灯配时、确定每个信号灯周期内每个相位都有一次绿灯状态，以及确定路口每个相位的绿灯执行顺序；

12、所述路口通行策略包括预先分配每个路口的每个相位的进入流量和道路通行策略；其中，进入流量是根据每个路口的进道口的分均流量加上一个随机数确定的，道路通行策略为vissim仿真模拟软件预设的通行规则。

13、在本技术的第一方面的一种实现方式中，采用benders分解算法和交替方向乘子算法建立区域多种类型的单元格的最优问题，迭代求解最优问题，得出车辆在区域的各个路口行驶的奖励空间，具体包括：

14、确定矩阵网格的网格边界；其中，网格边界指的是内部网格周围的区域，内部网格周围的区域与内部网格相邻，内部网格则指包含一个路口的范围的所有网格；

15、根据网格边界的相交区域，采用benders分解算法建立区域多种类型的单元格的最优问题，其中最优问题的表达式为：r为相交区域，θ与p为相交区域的变量；

16、根据交替方向乘子算法定义网格边界的相交区域关联性的第一约束条件，第一约束条件为：

17、

18、其中，为在两个路口的相交区域中驶出的车流量，为车辆无法驶出的拥堵量，为区域内的拥堵系数，为当前时间内的车辆总数，为路口内部格网的预估车辆数量，c为格网，t为单位时间，t为总时间，d为进入流量，r为路口的集合，i为相交的两个路口，为两个相邻路口的所有区域，为路口下一个时刻的进入车流量，为当前时刻连接区域的车流量，为当前时刻预计驶入路口的车流量，为当前时刻预计驶出路口的车流量；

19、根据交替方向乘子算法定义网格边界的相交区域的网格与相邻路口的车辆流量的第二约束条件，第二约束条件为：

20、

21、其中，为从相邻路口驶来的车辆数，为路口i的预估车辆数，为区域驶入的车辆数；

22、采用拉格朗日函数的最优对偶解对最优问题、第一约束条件和第二约束条件进行求解，得出车辆在区域的各个路口行驶的奖励空间。

23、在本技术的第一方面的一种实现方式中，所述车辆在区域行驶的奖励空间包括车辆在每个路口的等待时间和每个路口的车流量。

24、在本技术的第一方面的一种实现方式中，根据梯度下降法更新双深度q网络的q网络。

25、本技术的第二方面，提供了一种区域交通信号灯控制装置，装置包括：

26、第一输入参数模块，用于构建车辆在区域行驶的路网模型，在路网模型上建立包含车辆多个行驶状态的状态空间和包含信号灯约束和路口通行策略的动作空间；

27、权重赋予模块，用于在路网模型上确定出由多个路口形成的矩阵网格，将矩阵网格分为多种类型的单元格，并赋予每种类型的单元格不同的权重，其中一个单元格对应一个路口；

28、第二输入参数模块，用于采用benders分解算法和交替方向乘子算法建立区域多种类型的单元格的最优问题，迭代求解最优问题，得出车辆在区域的各个路口行驶的奖励空间；其中，最优问题是指通过交替方向乘子算法定义每个相位的车辆通行的子优化问题，以生成benders分解算法的约束条件来计算区域的最小权重和；

29、训练控制模块，用于将状态空间、动作空间和奖励空间作为双深度q网络的输入参数，对双深度q网络进行训练，将训练完成的双深度q网络用于区域交通信号灯的控制。

30、本技术的第三方面，提供了一种电子设备，所述电子设备包括处理器、存储器、以及存储在所述存储器上并可被所述处理器执行的计算机程序，其中所述计算机程序被所述处理器执行时，实现如本技术的第一方面提供的一种区域交通信号灯控制方法的步骤。

31、本技术的第四方面，提供了一种计算机可读存储介质，所述计算机可读存储介质上存储有计算机程序，其中所述计算机程序被处理器执行时，实现如本技术的第一方面提供的一种区域交通信号灯控制方法的步骤。

32、与现有技术相比，本发明具有以下有益效果：

33、本发明通过提前构建车辆在区域行驶的路网模型，先对路口增加真实交通场景下的约束条件，以建立包含车辆多个行驶状态的状态空间和包含信号灯约束和路口通行策略的动作空间，再使用benders分解算法和交替方向乘子算法将所有路口联合起来计算出全区域的奖励空间，具体而言，benders分解算法和交替方向乘子算法为后续的强化学习制定了更为细致和优异的运行策略，强化学习的奖励空间也因此变为了求解联合算法的最优解的问题，传统的奖励空间定义为排队时间、延误时间等，这里将分解算法和交替方向乘子算法算法的解作为奖励空间，计算出的值越小则代表多路口联合下的信控优化策略越优。进一步的，使用双深度q网络对状态空间、动作空间和奖励空间进行训练，基于训练后的双深度q网络能够直接用于区域交通信号灯的控制，可见，本发明能够对连续性的区域路网信号灯进行控制优化，提高区域车辆的通行能力。