技术新讯 > 计算推算,计数设备的制造及其应用技术 > 一种自动驾驶出租车的路径规划和充放电协调优化方法 > 正文

一种自动驾驶出租车的路径规划和充放电协调优化方法

国知局
2024-10-09 15:26:11

本发明使用了一个专注于长期收益的路径规划模型，利用强化学习将预估的未来价值结合到实时调度中，以实现车队的长期运营效益最大化。具体涉及一种自动驾驶出租车的路径规划和充放电协调优化方法。

背景技术：

1、随着对自动驾驶出租车的日益关注，这类车辆以其24小时不间断运营、无需人力成本、低能源成本和易于统一管理的优势，成为了行业内外瞩目的焦点。因此，有效地整合路径规划和电动汽车充放电策略，对于自动驾驶出租车运营平台来说，是实现成本降低与效率提升的重要途径。

2、在解决实时调度问题时，由于乘客未来出行信息未知，且乘客起终点(od)随时间产生，因此形成了动态车辆路由问题(dvrp)。为了全局优化匹配效率，近期研究通过创新策略和先进算法，如基于强化学习的动态二分图司乘匹配策略和深度q网络等，提高了车队运营效率。这些方法有效探索了多车司乘匹配问题，并证明了考虑未来价值的预测策略能够显著提升运营效率。此外，由于电价的分时变化，能源成本成为影响电动出租车净收益的重要因子，而考虑分时电价的调度策略更加契合降本增效的需求，可通过车到网(v2g)技术反向放电，v2g技术的应用能为运营平台带来额外经济效益。

3、鉴于实时调度系统往往短视眼前利益，本发明提出一种侧重长期收益的自动驾驶动态调度模型。通过神经网络学习分时电价特征、模拟车辆不同时空状态的价值，并将预估未来价值整合到当前路径规划中，从而提高车队的长期运营收益。

技术实现思路

1、本发明针对长期收益的自动驾驶动态调度模型，提出了一种自动驾驶出租车的路径规划和充放电协调优化方法，具体的技术方案如下：

2、获取智能体相关数据，构建mdp模型，所述mdp模型表示为(s,a,t,r,γ)，其中s是状态空间，a是动作空间，t是状态转换模型，r是奖励模型，γ是折扣因子；

3、系统利用历史订单的时空分布(当前位置、是否空车和行驶目的地等)和分时电价的信息进行离线预训练；

4、建立基于神经网络的车辆状态价值预测模型，将状态s通过神经网络拟合出车辆状态值函数v(sv,a)，然后通过双神经网络和经验池的方式获得算法收敛；

5、所述神经网络的架构包括：输入层，第一卷积层、第二卷积层、最大池化层、第一全连接层、第二全连接层、输出层，状态s通过神经网络输入，定义参数化的状态价值评估函数为v(s,θ)使用一种td(0)的方式估计v(sv,*)得到车辆状态价值函数：

6、

7、其中θt表示目标网络的参数。

8、使用车辆状态值函数v(sv,a)来衡量车辆时空状态sv,a的未来价值，它代表了车辆在sv,a状态下到运营结束时间的预估累积收益，其中sv,a表示车辆v执行动作a后到达的状态，考虑未来价值情况下的优化目标p't，其中γ∈[0,1]是一个折扣因子，表示模型对未来价值的重视程度：

9、

10、所述模型的输入变量是模型构建中的状态向量s，表示为[vtv,vbv,vlv,vdv,ts,td]，其中vtv是当车辆状态变为“可调度”时所需要的时间，vbv是当车辆状态变为“可调度”时的剩余电量百分比，vlv是当车辆状态变为“可调度”时所在的路网位置，vdv是车辆从当前位置vlv到最近的充电站的距离，ts是每天的时间步，td是日期时间步；

11、动作空间at表示在时间步t所有可行的动作集合(a∈at),包括智能体停留(a1)，转移(a2)，充电(a3)，放电(a4)，匹配(a5)；

12、所述“可调度”的电动出租车，选择智能体可执行动作，具体包括：

13、a.若在调度指令下，电动出租车选择停留(a1)，车辆将停留在原地不动，以等待未来的出行需求；

14、b.若在调度指令下，电动出租车选择转移(a2)，调度指令引导车辆转移到另一个位置。车辆在调度时间窗δt内持续移动，可到达的新位置是与原位置时间距离为δt以内的地点。系统根据不同转移地点的时空价值决策车辆是否转移到该地点。通过该指令，车辆可以转移到出现订单概率更大的地点或者前往充电站；

15、c.若在调度指令下，电动出租车选择充电(a3)，如果车辆在充电站，接收到该指令的车辆继续充电或立即开始充电。当车辆已经处于满电状态时，该指令无效；

16、d.若在调度指令下，电动出租车选择放电(a4)，如果车辆在充电站，接收到该指令的车辆继续放电或立即开始放电。当车辆已经处于无电状态时，该指令无效；

17、e.若在调度指令下，电动出租车选择匹配(a5)，该指令指派一个出行订单给车辆，即与订单集rt相关的动作。

18、每个“匹配”动作与一个出行订单绑定，当车辆执行一个指定的“匹配”指令时，意味着车辆需要前往该订单乘客的起点处接起乘客，其后运送乘客前往目的地。车辆在到达乘客目的地之前，都处于“不可调度”的状态。

19、若在调度指令下，电动出租车选择匹配(a5)，每个“匹配”动作与一个出行订单关联，具体包括：

20、订单o为例，rro,rpo,rdo,rao,rsto分别表示订单o发起时间、乘客预估上车时间、乘客预估下车时间，乘客接受的最大等待时间、乘客起点终点最短旅行时间；

21、rpo≤rao+rro是乘客等待时间约束，上车时间不晚于最晚上车时间；

22、在满足乘客等待时间约束下，该动作的回报由计算，其中w1表示单位时间车辆获得的收益。

23、由于车辆的位置不同，系统调度不同车辆运送指定乘客时乘客的等待时间不同，使用w2表示对乘客单位等待时间的补偿，系统指派不同车辆运载相同乘客时，由于车辆的初始位置不同，运营商有不同程度的收益。

24、对每辆“可调度”车辆，模型枚举所有动作，计算车辆-动作对的价值q(sv,*,a)，其中sv,*表示车辆的当前状态，q(sv,*,a)表示车辆在当前状态下执行动作a的预估未来累积收益：

25、q(sv,*,a)＝rv,a+γ·v(sv,a)。

26、模型能够利用分时电价的峰谷特征和电动汽车入网(vehicle to grid,v2g)技术进行充放电；

27、使用式表示，其中f(t)是关于时间的分段函数，表示在一天中t时刻的分时电价，pc表示平均充电功率，pd表示平均放电功率，表示充电产生的成本，表示放电产生的收益。

28、结合当前状态和预测的未来价值做出实时的路径规划和调度决策。

29、通过贪婪地选取权重最大的车辆-动作对，其次优先选择运载乘客相关的动作。最后，将贪婪匹配结果作为整数规划求解器初始解进一步求解，以达到最大化。

技术特征：

1.一种自动驾驶出租车的路径规划和充放电协调优化方法，其特征在于，系统利用历史订单的时空分布（当前位置、是否空车和行驶目的地等）和分时电价的信息进行离线预训练，建立基于神经网络的车辆状态价值预测模型，所述模型的输入变量是模型构建中的状态向量s，表示为<mi>[</mi><msub><mi>vt</mi><mi>v</mi></msub><mi>,</mi><msub><mi>vb</mi><mi>v</mi></msub><mi>,</mi><msub><mi>vl</mi><mi>v</mi></msub><mi>,</mi><msub><mi>vd</mi><mi>v</mi></msub><mi>,ts,td]</mi>，其中是当车辆状态变为“可调度”时所需要的时间，是当车辆状态变为“可调度”时的剩余电量百分比，是当车辆状态变为“可调度”时所在的路网位置，是车辆从当前位置到最近的充电站的距离，是每天的时间步，是日期时间步，将状态s通过神经网络拟合出车辆状态值函数，然后通过双神经网络和经验池的方式获得算法收敛；

2.根据权利要求1所述的一种自动驾驶出租车的路径规划和充放电协调优化方法，其特征在于，所述“可调度”的电动出租车，选择智能体可执行动作，具体包括：

3.根据权利要求2所述的一种自动驾驶出租车的路径规划和充放电协调优化方法，其特征在于，若在调度指令下，电动出租车选择匹配()，每个“匹配”动作与一个出行订单关联，具体包括：

4.根据权利要求1所述的一种自动驾驶出租车的路径规划和充放电协调优化方法，其特征在于，模型能够利用分时电价的峰谷特征和电动汽车入网(vehicle to grid, v2g)技术进行充放电，，，其中是关于时间的分段函数，表示在一天中时刻的分时电价，表示平均充电功率，表示平均放电功率，表示充电产生的成本，表示放电产生的收益。

5.根据权利要求1所述的一种自动驾驶出租车的路径规划和充放电协调优化方法，其特征在于，结合当前状态和预测的未来价值做出实时的路径规划和调度决策，通过贪婪地选取权重最大的车辆-动作对，其次优先选择运载乘客相关的动作，最后，将贪婪匹配结果作为整数规划求解器初始解进一步求解，以达到最大化。

技术总结本发明公开一种自动驾驶出租车的路径规划和充放电协调优化方法，涉及智慧城市交通系统领域，本发明方法利用强化学习将预估的未来价值结合到实时调度中，以最大化车队的长期运营收益，所述包括：获取智能体相关数据，系统利用历史订单时空分布和分时电价的信息进行离线预训练，建立基于神经网络的车辆状态价值预测模型，将状态S通过神经网络拟合出车辆状态值函数；枚举每辆“可调度”车辆所有动作，计算车辆‑动作对的价值；结合分时电价的峰谷特征和电动汽车入网V2G技术进行充放电；基于当前状态和预测的未来价值做出实时调度决策。本发明考虑了乘客等待时间偏好，结合了V2G充放电技术以降低能耗成本，提高乘客匹配服务率并增加了运营总收益。技术研发人员：郑智勇,曾伟良,韩宇受保护的技术使用者：广东工业大学技术研发日：技术公布日：2024/9/29