技术新讯 > 信号装置的制造及其应用技术 > 一种基于多类型决策空间的网络级交通信号控制分层优化方法 > 正文

一种基于多类型决策空间的网络级交通信号控制分层优化方法

国知局
2024-10-09 15:39:02

本发明属于智慧交通信号控制，涉及交通管理与控制、交通仿真技术和机器学习算法，具体为一种基于多类型决策空间的网络级交通信号控制分层优化方法。

背景技术：

1、城市人口的快速增长和汽车保有量的大幅提升致使道路交通拥堵已成为各大城市的主要问题之一，交通拥堵严重影响着社会经济与民生福祉。为了有效地缓解这一问题，对城市道路交叉口信号配时进行优化，能够在不改变已有的交通基础设施条件下，尽可能地发挥道路网络通行能力，是最为经济可行的手段。

2、交通信号配时优化是交通领域的传统问题，国内外的学者从多个方面开展了广泛的研究。day等从饱和度入手对韦伯斯特（webster）公式和道路通行能力手册（highwaycapacity manual, hcm）延误公式进行改进，并将其推广到双环结构。以此为基础，该研究从避免相位失效的角度，识别出了某一协调控制的交叉口在一天中需要增加或缩短周期时长的时段以及需要对协调相位进行调整的时段。周浩辉等基于交通波模型的哈密顿-雅可比公式，提出并分析了用于交通网络流量最优控制的集中式和分布式求解方法，利用数值模拟对绿信比进行优化。陈喜群等采用深度强化学习的方法，以当前相位、进口道流量与车速作为状态空间，综合考虑了相位选择和相位持续时间的离散和连续动作，选取交叉口排队长度和车辆吞吐量作为奖励函数，基于混合近端策略对相位选择和绿信比进行优化。已有研究较多地关注于单点、干线控制以及小范围的区域控制，然而仅对局部进行优化往往会牺牲网络整体的通行效率。此外，受制于问题的复杂程度，已有研究往往仅选取了信号配时方案中单一或部分构成要素开展优化，因而优化效果有限。

技术实现思路

1、为了解决上述问题，本发明从网络优化的角度出发，提出了一种基于多类型决策空间的网络级交通信号控制分层优化方法，对包括相位结构、相位差、周期时长、绿信比在内的构成信号配时参数的全部要素进行优化，能够提升城市网络整体通行效率。在网络级交通信号控制问题中，相位组合及其传承关系是抽象的逻辑组合，交叉口间是否采取协调控制及协调控制子区间要依赖于离散型变量，而周期时长、绿信比、相位差则为连续型变量。除此之外，各类型变量的优化时目标函数也不尽相同，部分决策变量还受到其余决策变量的限制，将这些变量不加区分的优化是困难的，更是不合理的。

2、为此，本发明方法构建分层优化模型通过相位层、周期时长层、绿信比层三个层级分别依次进行求解，不同层级着眼于解决不同的问题，并通过层级交互实现了交通信息的传递与反馈。具体而言：相位层通过设计高效的相位结构保障通行权的科学分配并对整个道路网络交叉口间交通流向进行协调优化；在相位层确定的相位结构和相位差的基础上，周期时长层获得最佳的公共周期时长，以网络整体性能为目标，从通行权周转的角度使得周时长能够满足通行需求又不至产生过大延误；绿信比层以网络整体性能为目标，在相位层和周期时长层确定的基础上，更加精细化地实现各个相位的通行需求与通行时间的合理匹配。为实现了不同层级交通信号控制参数优化的循环反馈，本发明为该三个层级设计了相应的数据结构并匹配了高效的优化算法。

3、本发明的技术方案：

4、一种基于多类型决策空间的网络级交通信号控制分层优化方法，具体步骤如下：

5、步骤1，微观交通仿真模型构建；

6、基于微观交通仿真软件（如sumo、vissim等），使用收集的交通基础数据，包括网络道路基础数据，所有交叉口的相位结构、周期时长、绿信比，所有路段交通流量数据和转向比数据，构建微观交通仿真模型，并在模型的所有路段上布设流量检测器。其中，网络道路基础数据包含路网的拓扑结构关系数据，提供了路网中路段之间的邻接关系和连接方式信息。通过微观交通仿真模型可以输出网络流量数据和区域车均延误，为步骤2提供计算所需要的数据和作为步骤4优化的目标函数。

7、步骤2，基于相位层优化模块对相位层进行优化；

8、相位层优化旨在设计高效的相位结构，并从区域协调的角度出发，通过相位差的优化实现交叉口的相位协调，以提升交通系统的运行效率。为实现区域协调控制，首先基于步骤1确定的交通仿真模型识别关键路径，以此为基础进行协调相位的相位差优化。相位层优化模块由三部分组成：基于绿灯利用效率的相位结构优化，网络关键子路径的识别，以及交叉口协调控制的相位差优化。

9、步骤2.1，基于绿灯利用效率的相位结构优化；

10、相位层优化的第一步是为各个交叉口设计科学且高效的相位结构。在信号交叉口，每个相位的车辆通行时间资源是有限的，因此在设计相位结构时，应在满足设计规范约束的前提下，尽可能提高绿灯的利用率。首先，对研究区域内所有交叉口进行关键流向分析，以识别出对绿灯时长需求最高的关键相位对。在完成关键相位对的识别后，为代表通行权传承的关键相位匹配跟随相位，所匹配的跟随相位确保单点交叉口的绿灯利用率最大化。将相位结构优化问题视为一个优化问题，其优化目标是所有交叉口的绿灯利用率，决策变量为所有可能的相位组合方案，优化策略采用枚举法。需要强调的是，本方法并不刻意要求关键相位与跟随相位的流量最为接近，而是从整个交叉口的角度出发，确保所有相位组合的绿灯利用率达到最优。

11、步骤2.2，网络关键子路径识别；

12、在步骤2.1所确定的关键相位对基础上，从每对相位中选取交通流量饱和度高于0.5的相位，称为主要流向相位。主要流向相位不仅代表了两条交叉道路各自方向上的主要流向，也是关键相位对的组成部分，反映了对通行时间资源的需求，支撑关键子路径的识别。此外，需根据路网的拓扑结构关系确定每个相位的上游相位。随后，对所有主要流向相位构成的集合进行遍历，并定义流量最大的上游相位为当前相位的源相位。若当前相位与其对应源相位均为主要流向相位，则二者构成一条关键子路径。最终，对终点与起点重合的关键子路径进行合并，便实现了对关键子路径的识别。关键子路径识别主要步骤如下：

13、步骤2.2.1，初始数据准备。首先，提取微观交通仿真模型中的检测器数据、研究区域内交叉口的拓扑关系数据以及检测器编号与交叉口编号和相位编号的对应关系数据。随后，将这些数据与相应的交叉口编号和相位编号进行链接。接下来，构建所有交叉口的实例对象，并依次将提取的数据存储到集合insections_set中；

14、步骤2.2.2，识别关键流向。遍历insections_set中的交叉口对象，基于步骤2.1确定的关键相位对识别出交叉口两方向上的主要流向相位，并将insections_set所有对象的主要流向相位记录在main_stream_set中；

15、步骤2.2.3，构建关键子路径。首先，对所有的主要流向相位进行遍历，将当前遍历相位记为。如果的上游相位在所有上游相位（由网络拓扑结构得到）中流量最大，并且，那么则为的源相位，将其记为。之后，记录每一对及与其相对应的源相位，即识别出了关键子路径。最后，将终点与起点重合的关键子路径进行合并，并以字典形式输出关键子路径数据。

16、步骤2.3，交叉口协调控制的相位差优化；

17、在完成步骤2.2关键子路径的识别后，为了尽可能地保障关键子路径上的交通流的通行效率，应对关键子路径上各交叉口的相位差进行优化，从而保证这些交通流能在交叉口连续地获得通行权。具体而言，相位差优化模型以关键子路径上各相位的绝对相位差为决策变量，在满足相位差约束的条件下，寻求最佳的相位启亮时间。最佳的相位启亮时间的确定依据是使关键子路径上的源相位到达下一个交叉口时，该相位绿灯已经起亮且排队车辆已消散。相位差优化模型表示为：

18、(1)

19、其中表示相位的启亮时间，表示研究区域的交叉口编号，表示某一交叉口的相位编号，由二者可以唯一地表示出研究区域内的各个相位。表示关键子路径包含的相位集合，和分别代表关键子路径上的某一相位与其源相位的预测绿灯启亮时间（为相位差优化问题的决策变量），为关键子路径上的某一相位与其源相位间的预计行程时间。表示关键子路径上的某一相位所对应的预计排队长度，表示对应的饱和流率。

20、预计行程时间和预计排队长度的计算如下所示：

21、(2)

22、(3)

23、(4)

24、其中，为路段检测器获取到的交叉口的相位所对应的进口道在研究时段内的平均排队长度，为分析时段内车辆的到达率。代表交叉口和之间的路径长度，代表该路径上的平均行程速度，由速度的分布函数得到，此处认为其分布服从正态分布，为路段的最高限速，为标准正态分布的85%分位数，为车速分布的标准差。

25、与此同时，还要对相位差进行约束。交通信号控制在各周期内是不断重复的，相差周期时长整数倍的相位差是等效的信号方案，为了提升求解和迭代的效率将相位差的取值限制在0与最大周期时长之间：

26、(5)

27、(6)

28、其中，表示周期时长的最大取值。这里需要补充解释的是：进行优化时，存在某交叉口两个相位属于不同的关键子路径的情况，而对于一个交叉口仅能有一个相位差值。针对这种情况，本发明选择二者中的较小值作为交叉口相位差，并将该相位前置，相位差较大的相位后置，从而通过调整相位顺序尽可能地保证相位差优化结果的有效性。

29、支撑相位差优化模型计算的数据是由步骤1构建的交通仿真模型检测器获取得到的，这些数据及部分外生变量数据需要外部读入。然而，每次迭代时，识别出的关键子路径往往是不同的。因此，求解时需要动态地根据关键子路径信息建立起具体的模型。考虑到求解的质量与求解的速度，可选取商业求解器（如gurobi、cplex等）来求解上述相位差优化模型。具体而言，先对关键子路径字典进行遍历，再在商业求解器中动态地建立决策变量，并根据该信息索引交通流数据及外生数据完善目标函数及模型约束条件，从而建立起商业求解器可识别的数学模型。基于此调用求解器对上述相位差优化模型进行求解并将最优解输出，则完成了对相位层的优化。

30、步骤3，基于周期时长层优化模块对周期时长进行优化；

31、步骤3是基于步骤2确定的相位结构和相位差对周期时长进行优化。周期时长优化模块是由基于交叉口延误的周期时长优化模型构建、基于贝叶斯优化的周期时长求解两部分组成。

32、步骤3.1，基于交叉口延误的周期时长优化模型构建；

33、信号周期时长决定了交叉口车流通行权的周转频率，对交叉口的通行效率有很大的影响。周期时长过长或过短都将会给交叉口带来巨大延误，影响通行体验，因此需要选取有针对性地对周期时长进行优化。根据hcm可知，交叉口在交通流量确定的情况下，周期时长与交叉口总延误之间存在非线性关系。本发明考虑的交叉口延误是指交通参与者受交通控制手段及其他交通条件影响与不受阻情况下通过交叉口行程时间之差。需要注意的是，在相位层已识别出了关键子路径，并通过优化相位差的方法采取了协调控制，因此在关键子路径上的交叉口应被划分进同一个控制子区，并采取公共周期时长。

34、具体而言，基于交叉口延误的周期时长优化模型可以表示为：

35、(7)

36、其中，代表区域总延误，代表研究区域的交叉口总数，代表交叉口相位数，和分别代表交叉口相位的车均延误和车流量。而车均延误是由车均均匀延误和车均增量延误组成：

37、(8)

38、车均延误和车均增量延误的计算公式如下所示：

39、<mstyle displaystyle="true" mathcolor="#000000"><msubsup><mi>d</mi><mi>ij</mi><mn>1</mn></msubsup><mi>=</mi><mfrac><mrow><mn>0</mn><mi>.</mi><mn>5</mn><msub><mi>c</mi><mi>i</mi></msub><msup><mrow><mo>(</mo><mrow><mn>1</mn><mi>−</mi><msub><mi>λ</mi><mi>ij</mi></msub></mrow><mo>)</mo></mrow><mn>2</mn></msup></mrow><mrow><mn>1</mn><mi>−</mi><mrow><mo>[</mo><mrow><mi>min</mi><mrow><mo>(</mo><mrow><mn>1</mn><mi>,</mi><msub><mi>x</mi><mi>ij</mi></msub></mrow><mo>)</mo></mrow><msub><mi>λ</mi><mi>ij</mi></msub></mrow><mo>]</mo></mrow></mrow></mfrac></mstyle>(9)

40、(10)

41、其中，代表交叉口的周期时长，和分别表示交叉口相位的绿信比和饱和度，代表研究时段长（h），代表感应控制的调整系数，代表上游信号的控制筛选调整系数，为交叉口相位的通行能力。为了保证以交叉口周期时长为唯一决策变量，需要将绿信比和饱和度代换为以周期时长为变量的函数，具体如下所示：

42、(11)

43、(12)

44、其中，表示交叉口相位的饱和流率，代表交叉口关键相位的集合，为每周期的损失时间（s）。此外，在对周期时长进行优化时也需要满足下列约束条件：

45、(13)

46、(14)

47、其中，和分别代表最小周期时长与最大周期时长，代表交叉口所有车流的加权平均延误，代表交叉口可接受的最大延误。上述约束即为交叉口周期时长这一决策变量设置其取值上下界线，使其取值保证在合理范围内。同时，由于控制子区要采取公共的周期时长，因此要保证所有交叉口的延误在可接受范围内，避免出现过度牺牲单点交叉口通行效率的现象，从而保障出行体验。

48、步骤3.2，基于贝叶斯优化的周期时长求解；

49、使用贝叶斯优化对步骤3.1构建的周期时长优化模型进行求解。在进行贝叶斯优化时，需要读取步骤2确定的交通流量数据和关键相位数据以支持延误的计算，同时读取控制子区的信息实现公共周期时长的约束以保证相位差优化的效果。贝叶斯优化算法是以控制子区的公共周期时长作为优化变量，根据控制子区的信息将其映射为各个交叉口的周期时长，从而实现不断迭代优化。具体步骤为：

50、步骤3.2.1，获取初始训练集。根据周期时长取值范围及限制条件基于拉丁超立方抽样方法随机生成得到初始取样点，并将初始取样点输入至步骤3.1构建的周期时长优化模型获得相应的区域总延误时间。最后将初始取样点和区域总延误时间数据整合至初始训练集中，并初始化训练集；

51、步骤3.2.2，基于训练集使用贝叶斯优化算法中的高斯过程来拟合步骤3.1构建的周期时长优化模型的目标函数，获得区域总延误时间的均值和方差；

52、步骤3.2.3，最大化贝叶斯优化算法中的采集函数获取下一取样点。基于步骤3.2.2获得的均值和方差构建采集函数（可以是期望改进函数、概率改进函数、知识梯度函数或者置信上界函数），并采用随机取样的方法确定候选点，选取最大化采集函数的候选点作为下一取样点；

53、步骤3.2.4，将步骤3.2.3确定的下一取样点输入至步骤3.1构建的周期时长优化模型获得相应的区域总延误时间；

54、步骤3.2.5，判断是否达到贝叶斯优化算法中设定的最大迭代次数。如果未达到最大迭代次数，则使用和更新训练集，并返回至步骤3.2.2继续迭代；如果达到最大迭代次数，则直接输出最优的周期时长。其中的最大迭代次数是由使用者自行设定。

55、步骤4，基于绿信比层优化模块对绿信比进行优化；

56、绿信比层优化的目标是在相位结构和周期时长确定的条件下以网络整体性能为目标实现各相位的通行需求与通行时间的合理匹配，避免对有限的通行时间资源造成浪费。在对绿信比进行优化时受到步骤1相位层和步骤2周期时长层的限制：即在信号周期时长和交叉口相位结构已经确定的条件下以区域车均延误为目标函数对所有相位的绿信比进行优化。绿信比层优化首先是使用步骤2确定的相位结构和相位差、步骤3确定的周期时长更新步骤1确定的微观交通仿真模型。之后，基于更新的微观交通仿真模型使用贝叶斯优化对绿信比进行优化求解，最终获得所有相位的绿信比。使用贝叶斯优化求解绿信比的具体步骤如下：

57、步骤4.1，获取初始训练集。初始训练集的交叉口绿灯时长是根据各交叉口的最小绿灯时长和周期时长约束条件限制基于拉丁超立方体取样方法随机生成，将生成的绿信比输入至使用步骤2确定的相位结构和相位差、步骤3确定的周期时长更新后的步骤1中的微观交通仿真模型获得相应的区域总延误时间。整合交叉口绿灯时长和相应的区域车均延误至初始训练集中；

58、步骤4.2，将初始训练集作为训练集输入至贝叶斯优化算法，对贝叶斯优化中的高斯过程模型进行训练，以拟合目标函数；

59、步骤4.3，基于训练好的高斯过程模型，构建采样函数（可以是期望改进函数、概率改进函数、知识梯度函数或者置信上界函数），通过最大化采样函数获得下一采样点；

60、步骤4.4，获取下一采样点所对应的目标函数。如果满足步骤3获得的周期时长约束，则将下一采样点应用于更新后的微观交通仿真模型，计算出其相对应的目标函数。如果不满足，则将惩罚函数值作为目标函数值，其中惩罚函数值由使用者自行确定，唯一标准是使获得的惩罚函数值要大于初始训练集中区域车均延误的最大值；

61、步骤4.5，判断是否满足贝叶斯优化算法中设定的最大迭代次数约束。如果不满足，则本次迭代的采样点与其对应的目标函数值都加入到训练集中，并返回至步骤4.2继续迭代；如果满足，则终止迭代，输出使目标函数最小的所有交叉口的绿信比。其中最大迭代次数是由使用者自行设定的。

62、步骤5，基于分层优化模型迭代模块实现循环反馈优化；

63、上述相位层优化模块、周期时长层优化模块和绿信比层优化模块中任一模块发生改变都将导致交通流的再分布，本发明依次重复步骤2、步骤3和步骤4，以获得全局最优的信号配时方案（相位结构、相位差、周期时长和绿信比）。不同模块间的信息交互与循环反馈机制具体如下：

64、步骤2的相位层优化模块以步骤4更新后的微观交通仿真模型中交通系统的各项指标作为输入，具体包括：各路段流量、各路段排队长度、路段平均行程速度。此外还需要外部输入：路段检测器映射关系、路网拓扑结构，交叉口间距信息。相位层优化模块还要向下层模块（步骤3中的周期时长层优化模块和步骤4中的绿信比层优化模块）传递相位结构、相位差等信息从而支撑微观交通仿真模型的更新以及以周期时长为自变量的延误计算。此外，相位层优化模块还要向步骤3中的周期时长层优化模块传递控制子区集合，作为交叉口公共周期时长的约束条件。

65、步骤3的周期时长层优化模块根据步骤2的相位层优化模块传递的控制子区信息以及外部输入的车道饱和流率和分析时段长，对周期时长进行优化，并将优化所得结果传递给步骤4中的绿信比层优化模块作为周期时长约束。

66、步骤4的绿信比层优化模块根据（步骤2的相位层优化模块和步骤3的周期时长层优化模块）传递的信息（相位结构、相位差、周期时长等）更新微观交通仿真模型，并以各交叉口的周期时长作为约束条件求解绿信比优化问题。同时，设置检测器获取最优解下的道路网络的交通数据传递给步骤2的相位层优化模块，从而支持下一次迭代。

67、如此，本发明实现了三个层级模块之间的交互和反馈，如图1所示。当绿信比层优化模块完成后，视为三层优化模型迭代成功一次，将当前信号配时方案作为下一次分层优化的初始方案，从而实现了循环反馈机制。按照上述方法完成信息传递和迭代优化，最终可以获得全网络所有交叉口的信号配时方案。

68、本发明的有益效果：

69、本发明通过构建分层优化模型，采用相位层、周期时长层和绿信比层三个层级的逐层求解策略，有效地将复杂的交通信号控制问题分解为多个聚焦性更强的子问题。每个层级针对特定的优化目标，相位层专注于交通信号的相位配置，周期时长层则优化信号周期，而绿信比层关注于不同交通流量下的绿信比调节，从而显著降低了整体计算复杂性并提升了求解效率。此外，通过层级之间的交互机制，可有效实现交通信息的传递与反馈。这一交互不仅强化了不同层级之间的相互影响，促使优化方案根据实时交通状况进行动态调整，还能够在信息变化时迅速作出反应，确保系统的自适应能力。可见，本发明不仅可提升交通信号控制的优化效率，降低交通拥堵，还能增强系统的灵活性和适应性，进而改善交通管理的整体效果。