技术新讯 > 计算推算,计数设备的制造及其应用技术 > 基于客流数据和强化学习的综合客运交通枢纽客流疏散方法与流程 > 正文

基于客流数据和强化学习的综合客运交通枢纽客流疏散方法与流程

国知局
2024-12-06 12:24:35

本发明涉及综合客运枢纽运营管理，具体涉及一种基于实时客流数据和多智能体强化学习的智能客流疏散方法。

背景技术：

1、在现代城市中，综合客运交通枢纽承担着重要的角色，是城市交通系统中的关键节点。这些交通枢纽不仅是乘客出行的重要枢纽，也承担着城市客流疏散的重要任务。然而，随着城市人口增长和交通需求不断增加，这些客运交通枢纽在客流高峰时段面临着严重的挑战。传统的固定发车时间间隔难以适应客流变化的需求，导致在高峰时段出现拥挤、等待时间过长等问题，影响了乘客的出行体验和安全。此外，固定发车时间间隔还存在资源浪费的问题，因为在低峰时段，智能体可能处于空载或者低载状态，造成运输资源的浪费。因此，需要一种智能化的方法来动态调整发车时间间隔，实现公交和地铁发车时间间隔的平衡，以提高客流疏散效率和运营效率。

2、现阶段，关于综合客运交通枢纽客流疏散方法存在一下缺陷：

3、（1）缺乏灵活性：传统的固定发车时间间隔无法根据实时的客流情况进行调整，导致在高峰时段无法有效疏散客流。此外，在低峰时段出现空载或低载情况，造成运输资源的浪费。现有方法缺乏自适应性，无法根据交通状况、特殊事件等因素实时调整客流疏散策略，导致运输资源利用效率低下。

4、（2）缺乏整体性：客流疏散方法通常局限于单一交通模式，缺乏整体性规划和协调，导致不同交通模式之间的衔接不畅，影响客流的顺畅流动。

5、（3）乘客体验差：高峰时段的拥挤和长等待时间会影响乘客的出行体验，降低交通枢纽的服务质量。

技术实现思路

1、本发明的目的是为了克服现有技术中的不足，解决传统的综合客运交通枢纽客流疏散方法缺乏灵活性、自适应性、整体性以及效率低下的问题，提供一种基于客流数据和强化学习的综合客运交通枢纽客流疏散方法，该方法利用实时监测的客流数据和多智能体强化学习算法相结合，能够智能化地优化公交车和地铁的运营方案，高效应对客流量波动，减少站内拥堵，提升乘客出行体验和安全。同时，也提高了综合客运交通枢纽的运行效率、灵活性和便捷性。本发明的创新之处在于利用实时客流数据结合多智能体强化学习，实现了综合客运交通枢纽和城市公共交通系统的智能化协调调度，为站城融合管理带来了新的解决方案。

2、本发明的目的是通过以下技术方案实现的：

3、一种基于客流数据和强化学习的综合客运交通枢纽客流疏散方法，针对某一站点a，包括：

4、s1. 采集站点a的实时状态数据并进行数据预处理，实时状态数据包括实时客流量数据、相关站点数据和相关智能体数据，所述智能体包括公交车和地铁；

5、s2. 将综合客运交通枢纽客流疏散问题描述为马尔可夫博弈过程；包括定义全局状态空间、定义局部状态空间、定义动作空间和设置奖励函数；

6、所述全局状态空间包括乘客状态、相关站点状态和相关智能体运行状态；

7、局部状态空间包括站点乘客拥挤度、当前发车时间间隔和其剩余运力；

8、动作空间定义为一个连续的范围[0,1]与最大发车时间间隔的乘积；

9、s3. 构建交通枢纽客流疏散模型，所述交通枢纽客流疏散模型由actor网络和critic网络组成；

10、s4. 在交通枢纽客流疏散模型中引入异步动作协同机制并通过训练得到稳定的交通枢纽客流疏散模型；

11、s5. 基于稳定的交通枢纽客流疏散模型实现对站点a的客流疏散。

12、进一步的，步骤s1中实时客流量数据包括列车到达站点a的时刻表、其在站点a下车乘客数和其在站点a滞留时间；

13、相关站点数据包括与站点a相关的公交和地铁站点的最大乘客容量、与站点a相关的公交和地铁站点候车乘客人数；

14、相关智能体运行数据包括各相关公交和地铁到达站点a的时间、发车时间以及剩余可用运力；其中如果站点a为始发站，运力等于站点a的最大承载量。

15、进一步的，步骤s2中，

16、全局状态空间由向量<msub><mi>s</mi><mi>all</mi></msub><mi>=[</mi><msub><mi>s</mi><mi>p</mi></msub><mi> ,</mi><msub><mi>s</mi><mi>s</mi></msub><mi>,</mi><msub><mi>s</mi><mi>b</mi></msub><mi>]</mi>表示，表示疏散过程中涉及环境中所有智能体共享的状态空间；

17、乘客状态用向量表示；其中为相邻决策点时间内火车h到达站点a的时间，为相邻决策点时间内火车h到达站点a后下车的乘客数；为乘客j在站点a滞留时间；其中相邻决策点时间=前车结束服务时间-当前车开始服务时间；

18、相关站点状态用向量<msub><mi>s</mi><mi>s</mi></msub><mi>=[</mi><msub><mi>s</mi><mi>zcd</mi></msub><mi>]</mi>表示；其中为相邻决策点时间内相关站点z的乘客拥挤度；为相邻决策点时间内相关站点z的候车乘客数，为相关站点z的最大乘客容量；

19、相关智能体运行状态用向量<msub><mi>s</mi><mi>b</mi></msub><mi>=[</mi><msub><mi>b</mi><mi>ieb</mi></msub><mi> ,</mi><msub><mi>b</mi><mi>id</mi></msub><mi>]</mi>表示；其中为相邻决策点时间内智能体i的发车时间间隔；为相邻决策点时间内智能体i的剩余运力；和分别智能体i的发车时间和到达时间；

20、每个智能体的局部状态空间表示其自身感知到的环境信息，每个智能体的局部状态空间由向量<msub><mi>s</mi><mi>i</mi></msub><mi>=[</mi><msub><mi>s</mi><mi>zcd</mi></msub><mi> ,</mi><msub><mi>b</mi><mi>ieb</mi></msub><mi> ,</mi><msub><mi>b</mi><mi>id</mi></msub><mi>]</mi>表示；

21、动作空间定义为：，i=1,2,3…i，<msub><mi>a</mi><mi>i</mi></msub><mi>∈[0,1]</mi>;其中每个动作表示智能体i选择的发车时间间隔的比例；智能体i的发车时间间隔表示为：，其中表示智能体i的最大可能发车时间间隔；

22、设定各智能体之间为完全合作，对于智能体i奖励函数定义为：

23、（1）；

24、（2）；

25、其中，表示全局状态空间在智能体i执行动作后获得的奖励，奖励值是1减去的平均乘客滞留时间，平均乘客滞留时间越小奖励值越大；为一个决策周期内的乘坐智能体i的总乘客数；为正整数；为i个智能体的总奖励；公式（1）用于评估某个智能体i的动作对整个综合客运交通枢纽客流疏散效率的贡献度；为乘客j在车站滞留时间。

26、进一步的，步骤s3中actor网络包括：

27、输入层，将智能体的局部状态空间作为输入；

28、隐藏层，使用多层感知器mlp和self-attention机制作为隐藏层结构；

29、激活函数，每个隐藏层后使用relu激活函数；

30、输出层，输出层对应智能体的动作空间，使用sigmoid激活函数；

31、critic网络包括：

32、输入层，将智能体的全局状态空间和动作空间作为输入；

33、隐藏层，使用多层感知器mlp和self-attention机制作为隐藏层结构；

34、激活函数，每个隐藏层后通常使用relu激活函数；

35、输出层，输出层为值函数，表示对应状态和动作的q值。

36、进一步的，步骤s4中使用集中式训练分布式执行ctde框架进行交通枢纽客流疏散模型的训练，智能体通过拿到其他智能体的全局状态空间以优化自己的局部策略；在分布式执行过程中，智能体仅使用自己的局部状态空间进行决策；每个智能体根据 actor网络进行决策；另一方面，每个智能体 critic网络评估状态的值函数用以指导更新优化actor网络；具体训练过程如下：

37、s401. 随机初始化所有状态；初始化actor网络和critic网络的所有参数；初始化超参数：学习率、折扣因子、软更新参数和随机采样经验样本大小b；初始化经验回放池d；

38、s402. 每个智能体与环境交互，将当前观测到的局部状态空间输入在线actor网络，得到动作，对应的actor网络内的参数为，具体如公式（3）所示；执行选择的动作，观察环境反馈的奖励和下一个状态；经过n次迭代后、和共同组成经验样本b；

39、（3）；

40、其中为噪声项，使用高斯噪声；

41、s403. 将经验样本存储到经验回放池中，每条经验样本由表示，具体如公式（4）所示；

42、（4）；

43、其中表示所有智能体对当前环境状态的观测向量，表示其他全局状态；表示所有智能体对环境下一状态的观测向量；当经验样本数量达到阈值d时，从经验回放池中随机采样若干经验样本b，用于训练actor网络和critic网络；指第1到第i个智能体获得的奖励；指第1到第i个智能体执行的动作；

44、s404. 集中式训练：

45、从经验回放池中随机采样若干经验样本b，使用和分别作为在线critic网络和目标critic网络的输入，分别输出状态值函数和，其中，由目标actor网络计算输出；利用环境中智能体的全局状态空间和动作空间中心化训练自身的critic网络；以时序差分误差构建actor网络和critic网络的mse损失函数，然后利用梯度下降更新critic网络的参数；具体的损失函数及梯度如公式（5）和（6）所示：

46、（5）；

47、（6）；

48、其中b为随机采样经验样本的大小；为critic网络的损失函数；表示第i个智能体获得的奖励；表示梯度运算符；

49、s405. 分布式执行：

50、在计算自身的actor网络的前向传播时，每个智能体只将自身的局部状态空间作为在线 actor网络的输入，输出一个确定性动作，即；计算时序差分误差的mse损失函数并计算关于actor网络的参数的梯度，然后利用梯度下降更新参数；损失函数及梯度如公式（7）和（9）所示：

51、（7）；

52、其中，i为智能体的数量；

53、 = <mi>-</mi><mfrac><mn>1</mn><mi>b</mi></mfenced></mfrac><mstyle><msubsup><mo>∑</mo><mi>j=1</mi><mi>b</mi></msubsup><mrow><mi>[</mi><mfrac><mrow><mi>∂</mi><msub><mi>q</mi><msub><mi>ϕ</mi><mi>i</mi></msub></msub></mrow><mrow><mi>∂</mi><msub><mi>θ</mi><mi>i</mi></msub></mrow></mfrac><mi>]</mi></mrow></mstyle> = <mi>-</mi><mfrac><mn>1</mn><mi>b</mi></mfenced></mfrac><mstyle><msubsup><mo>∑</mo><mi>j=1</mi><mi>b</mi></msubsup><mrow><mi>[</mi><mfrac><mrow><msub><mi>q</mi><msub><mi>ϕ</mi><mi>i</mi></msub></msub><mi>(</mi><mi>s,a</mi><mi>)</mi></mrow><mrow><mi>∂</mi><msub><mi>μ</mi><msub><mi>θ</mi><mi>i</mi></msub></msub><mi>(</mi><msub><mi>s</mi><mi>i</mi></msub><mi>)</mi></mrow></mfrac><mfrac><mrow><msub><mi>μ</mi><msub><mi>θ</mi><mi>i</mi></msub></msub><mi>(</mi><msub><mi>s</mi><mi>i</mi></msub><mi>)</mi></mrow><mrow><mi>∂</mi><msub><mi>θ</mi><mi>i</mi></msub></mrow></mfrac><mi>]</mi></mrow></mstyle> （8）；

54、（9）；

55、s406. 对目标actor网络和critic网络进行软更新，如公式（10）和（11）所示：

56、（10）；

57、（11）；

58、其中，为actor网络的损失函数，为软更新后critic网络的参数；为软更新后actor网络的参数；

59、s407. 重复s404-s406，直到actor网络和critic网络训练稳定，完成交通枢纽客流疏散模型的训练。

60、进一步的，步骤s4中的异步动作协同机制指每个智能体在完成自己的动作后，能够立刻向其他智能体请求数据，并立即进行网络参数更新；具体过程为：

61、假设智能体的第x次决策的动作未完成，得不到第x次的奖励，其他智能体在当前时间步决策时，只能请求到智能体第x-1次决策的完整数据，来完成自己策略的更新，如公式（12）所示：

62、<msub><msub><mi>s</mi><mi>agent</mi></msub><mi>i</mi></msub><mi>={[</mi><msubsup><mi>s</mi><mn>1</mn><mi>i</mi></msubsup><mi>,</mi><msubsup><mi>a</mi><mn>1</mn><mi>i</mi></msubsup><mi>,</mi><msubsup><mi>r</mi><mn>1</mn><mi>i</mi></msubsup><mi>],[</mi><msubsup><mi>s</mi><mn>2</mn><mi>i</mi></msubsup><mi>,</mi><msubsup><mi>a</mi><mn>2</mn><mi>i</mi></msubsup><mi>,</mi><msubsup><mi>r</mi><mn>2</mn><mi>i</mi></msubsup><mi>],...,[</mi><msubsup><mi>s</mi><mi>x-1</mi><mi>i</mi></msubsup><mi>,</mi><msubsup><mi>a</mi><mi>x-1</mi><mi>i</mi></msubsup><mi>,</mi><msubsup><mi>r</mi><mi>x-1</mi><mi>i</mi></msubsup><mi>]}</mi> （12）；

63、其中，表示第x-1次智能体i的局部状态空间，表示第x-1次智能体i的动作，表示第x-1次智能体i的奖励。

64、进一步的，步骤s5中具体疏散过程如下：

65、s501. 采集综合客运交通枢纽的实时状态数据，进行数据预处理，形成规范的数据样本向量；

66、s502. 提取当前决策周期t内的乘客、列车和站点相关数据，生成全局状态空间和局部状态空间；

67、s503. 提取当前决策周期t内的智能体数量；

68、s504. 当前决策周期t内所有全局状态空间数据和局部状态空间数据传输到训练稳定的交通枢纽客流疏散模型决策模型中，输出各智能体最优发车时间间隔，动作执行后收集反馈数据；

69、s505. 重复s501-s504，直到相应决策周期t结束。

70、本发明还提供一种基于客流数据和强化学习的综合客运交通枢纽客流疏散系统包括：

71、数据采集模块，用于采集站点a的实时状态数据并进行数据预处理，实时状态数据包括实时客流量数据、相关站点数据和相关智能体数据，所述智能体包括公交车和地铁；

72、马尔可夫博弈模块，用于将综合客运交通枢纽客流疏散问题描述为马尔可夫博弈过程；包括定义全局状态空间、定义局部状态空间、定义动作空间和设置奖励函数；所述全局状态空间包括乘客状态、相关站点状态和相关智能体运行状态；局部状态空间包括站点乘客拥挤度、当前发车时间间隔和其剩余运力；动作空间定义为一个连续的范围[0,1]与最大发车时间间隔的乘积；

73、模型构建模块，用于构建交通枢纽客流疏散模型，所述交通枢纽客流疏散模型由actor网络和critic网络组成；

74、模型训练模块，用于在交通枢纽客流疏散模型中引入异步动作协同机制并通过训练得到稳定的交通枢纽客流疏散模型；

75、疏散模块，用于通过稳定的交通枢纽客流疏散模型实现对站点a的客流疏散。

76、本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现所述基于客流数据和强化学习的综合客运交通枢纽客流疏散方法的步骤。

77、本发明还提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现所述基于客流数据和强化学习的综合客运交通枢纽客流疏散方法的步骤。

78、与现有技术相比，本发明的技术方案所带来的有益效果是：

79、1.提升客流疏散效率和运营效率：通过实时客流数据和多智能体强化学习算法的结合，本发明能够根据当前客流情况和交通需求动态调整公交车和地铁的发车时间间隔。这种灵活性使交通枢纽能够更好地适应不同时间段和突发情况下的客流变化，从而提高综合客运交通枢纽的运营效率和客流疏散效率，降低城市交通系统的运营成本。

80、2.优化整体交通协调：本发明综合考虑了多种城市交通工具，如公交车和地铁，通过协同调度这些交通工具，实现整体客流疏散的优化。多智能体之间的协同行动使交通枢纽各部分之间的协调更加顺畅，提升了整体性能，为综合客运交通枢纽的客流疏散提供了一种有效的范式。

81、3.增强模型鲁棒性和决策效率：在多智能体强化学习的集中式训练和分布式执行框架下，本发明设计了一种异步动作协同机制。该机制提高了模型的鲁棒性和并行性，使其在部分智能体失效或延迟的情况下仍能稳定运行，适用于不同规模的智能体决策。同时，这种异步性和并行性加快了决策过程，进一步提升了客流疏散效率和运营效率。

82、4.提高乘客出行体验和安全：通过动态调整发车时间间隔和优化客流疏散策略，本发明能够有效减少高峰时段的站内拥堵和乘客等待时间，提升乘客出行体验和安全。这不仅提高了交通枢纽的服务质量，也增加了乘客对公共交通系统的满意度。

83、5.资源利用效率提升：传统固定发车时间间隔在低峰时段可能导致车辆空载或低载，造成运输资源浪费。本发明通过智能化调整发车时间间隔，避免了资源浪费，提高了运输资源的利用效率，优化了城市公共交通系统的运营。

84、综上，本发明通过实时客流数据和多智能体强化学习的结合，实现了综合客运交通枢纽的智能化调度和优化，不仅提升了客流疏散效率和运营效率，还显著改善了乘客的出行体验和安全，具有显著的经济和社会效益。