技术新讯 > 信号装置的制造及其应用技术 > 基于多智能体强化学习模型的交通信号控制方法和装置与流程 > 正文

基于多智能体强化学习模型的交通信号控制方法和装置与流程

国知局
2024-07-31 20:29:22

本发明涉及交通信号控制领域，具体而言，涉及一种基于多智能体强化学习模型的交通信号控制方法和装置。

背景技术：

1、交通信号配时优化控制是引导车辆通过交叉口的主要方法，通过改进交通信号灯的配时方式，可以使交叉口获得更高的车流吞吐量，并有效的减少拥堵、降低汽车尾气排放、优化出行。

2、随着人工智能技术的发展，应用人工智能技术设计自适应交通信号控制系统变得越来越广泛，采用多个强化学习模型分别控制多个路口的信号时，每个强化学习模型做出决策时较为独立，无法较为全面地进行信号控制。

3、针对上述的问题，目前尚未提出有效的解决方案。

技术实现思路

1、本发明实施例提供了一种基于多智能体强化学习模型的交通信号控制方法和装置，以至少解决由于采用多个强化学习模型分别控制多个路口的信号时，每个强化学习模型做出决策较为独立，造成的交通信号控制的效果不佳的技术问题。

2、根据本发明实施例的一个方面，提供了一种基于多智能体强化学习模型的交通信号控制方法，包括：获取目标区域中多个路口各自的交通状态数据，其中，多个路口各自的交通状态数据包括与对应路口直接连接的道路中车辆的位置数据和速度数据；将多个路口各自的交通状态数据分别输入预先训练的多个强化学习模型，由多个强化学习模型分别输出多个交通信号数据，其中，多个交通信号数据分别用于控制多个路口的信号灯，多个强化学习模型与多个路口一一对应，多个强化学习模型基于纳什均衡策略分别从多个动作集合中选出多个交通信号数据，其中，多个动作集合为多个强化学习模型各自的动作集合，多个动作集合分别包括可供选择的交通信号数据。

3、可选地，将多个路口各自的交通状态数据分别输入预先训练的多个强化学习模型，由多个强化学习模型分别输出用于控制多个路口的多个交通信号数据，包括：将目标路口的目标交通状态数据输入目标强化学习模型，由目标强化学习模型基于预先设定的博弈收益函数和目标交通状态数据，确定目标动作集合中可供选择的交通信号数据各自的博弈收益函数值，其中，目标动作集合为目标强化学习模型可供选择的交通信号；目标强化学习模型基于纳什均衡策略，根据博弈收益函数值，求得目标路口对应的目标纳什均衡解，其中，目标纳什均衡解为在目标动作集合中选择数据的概率分布；目标强化学习模型根据目标纳什均衡解，在目标动作集合中选出目标交通信号数据，其中，目标交通信号数据用于控制目标路口的信号灯；采用得到目标交通信号数据的方式，将多个路口各自的交通状态数据分别输入预先训练的多个强化学习模型，由多个强化学习模型分别输出用于控制多个路口的多个交通信号数据。

4、可选地，目标强化学习模型基于纳什均衡策略，根据博弈收益函数值，求得目标路口对应的目标纳什均衡解，包括：获取目标路口的相邻路口的相邻交通状态数据，以及相邻路口对应的相邻强化学习模型的经验分布，其中，相邻强化学习模型的经验分布为在输入数据为相邻交通状态数据的情况下，相邻强化学习模型在相邻动作集合中选择数据的概率分布；目标强化学习模型根据相邻强化学习模型的经验分布，预测相邻强化学习模型基于纳什均衡策略求得的相邻路口对应的相邻纳什均衡解；目标强化学习模型根据相邻纳什均衡解，以及博弈收益函数值，求得目标纳什均衡解。

5、可选地，目标强化学习模型根据目标纳什均衡解，在目标动作集合中选出目标交通信号数据，包括：目标强化学习模型基于目标纳什均衡解表征的概率分布，在目标动作集合中随机选择目标交通信号数据。

6、可选地，多个强化学习模型中的目标强化学习模型通过如下方式训练得到：多个强化学习模型中的目标强化学习模型通过如下方式训练得到：获取多个样本状态数据；将多个样本状态数据分别输入多个原始强化学习模型，由多个原始强化学习模型基于纳什均衡策略在预先设置的多个动作集合中，分别选择多个样本交通信号数据输出，其中，多个样本交通信号数据与多个样本状态数据一一对应，多个原始强化学习模型分别为多个强化学习模型的原始模型；控制多个样本路口分别处于多个样本状态数据的情况下，采用与多个样本状态数据分别对应的样本交通信号对多个样本路口进行信号灯控制，确定控制后多个样本路口的交通状态数据为多个反馈交通状态数据，其中，多个反馈交通状态数据与多个样本状态数据一一对应；根据多个样本状态数据、多个样本交通信号数据、多个反馈交通状态数据以及预先设定的奖励函数，对多个原始强化学习模型训练。

7、可选地，根据多个样本状态数据、多个样本交通信号数据、多个反馈交通状态数据以及预先设定的奖励函数，对多个原始强化学习模型训练，包括：根据多个样本状态数据、多个反馈交通状态数据和奖励函数，分别确定与多个样本状态数据一一对应的多个奖励值；根据多个原始强化学习模型输出多个样本交通信号数据之前得到的多个纳什均衡解，确定多个学习率，其中，多个学习率分别表征训练时改变强化学习模型参数的幅度的大小；根据多个奖励值和多个学习率，对多个原始强化学习模型进行训练。

8、可选地，该方法还包括：获取目标路口中应急车辆的位置数据和速度数据，以及目标路口的应急车道的长度，其中，应急车道的长度通过目标路口的车道数、目标路口在停车、半饱和流和饱和流状态下的交通流密度和流率确定；在应急车辆到达应急车道的起始位置的情况下，控制目标路口的交通灯为绿灯。

9、根据本发明实施例的另一方面，还提供了一种基于多智能体强化学习模型的交通信号控制装置，包括：获取模块，用于获取目标区域中多个路口各自的交通状态数据，其中，多个路口各自的交通状态数据包括与对应路口直接连接的道路中车辆的位置数据和速度数据；控制模块，用于将多个路口各自的交通状态数据分别输入预先训练的多个强化学习模型，由多个强化学习模型分别输出多个交通信号数据，其中，多个交通信号数据分别用于控制多个路口的信号灯，多个强化学习模型与多个路口一一对应，多个强化学习模型基于纳什均衡策略分别从多个动作集合中选出多个交通信号数据，其中，多个动作集合为多个强化学习模型各自的动作集合，多个动作集合分别包括可供选择的交通信号数据。

10、根据本发明实施例的又一方面，还提供了一种非易失性存储介质，非易失性存储介质包括存储的程序，其中，在程序运行时控制非易失性存储介质所在设备执行上述中任意一项基于多智能体强化学习模型的交通信号控制方法。

11、根据本发明实施例的再一方面，还提供了一种计算机设备，计算机设备包括处理器，处理器用于运行程序，其中，程序运行时执行上述中任意一项基于多智能体强化学习模型的交通信号控制方法。

12、在本发明实施例中，通过获取目标区域中多个路口各自的交通状态数据，其中，多个路口各自的交通状态数据包括与对应路口直接连接的道路中车辆的位置数据和速度数据；将多个路口各自的交通状态数据分别输入预先训练的多个强化学习模型，由多个强化学习模型分别输出多个交通信号数据，其中，多个交通信号数据分别用于控制多个路口的信号灯，多个强化学习模型与多个路口一一对应，多个强化学习模型基于纳什均衡策略分别从多个动作集合中选出多个交通信号数据，其中，多个动作集合为多个强化学习模型各自的动作集合，多个动作集合分别包括可供选择的交通信号数据，达到了使得多个强化学习模型基于纳什均衡策略进行信号控制的目的，从而加强多个强化学习模型的联系，使得每个强化学习模型在进行信号控制时考虑其他学习模型，进而实现了提高交通信号控制的效果，进而解决了由于采用多个强化学习模型分别控制多个路口的信号时，每个强化学习模型做出决策较为独立，造成的交通信号控制的效果不佳的技术问题。