技术新讯 > 信号装置的制造及其应用技术 > 基于安全强化学习的智能网联汽车信号交叉口处通行策略  >  正文

基于安全强化学习的智能网联汽车信号交叉口处通行策略

  • 国知局
  • 2024-07-31 21:10:32

本发明属于智能网联汽车交通控制,具体涉及一种基于安全强化学习的智能网联汽车信号交叉口处通行策略。

背景技术:

1、在城市道路交通网络系统中,由于交叉口处交通信号频繁变化、多个方向的车辆与行人的流量和速度具有高随机性等原因,容易引发道路缓行拥堵、车辆能耗飙升等诸多问题,而智能网联技术为解决这些问题提供了可能性。现有的智能网联汽车在信号交叉口的生态驾驶策略主要可分为基于规则方法、基于优化方法和基于强化学习方法三类,其中基于规则的生态驾驶策略结构简单而且可靠性高,但其设计往往针对特定工况,面对未知工况的泛化性更差且效果缺乏理论证明;基于优化方法可分为基于全局优化方法和基于瞬时优化方法,前者虽能在节能效果等方面可实现全局最优,但其需求全局工况信息且计算时间过长,难以实时应用,后者的实时性较好,但其效果高度依赖于预测模型精度,受限于驾驶环境的复杂与不确定;基于强化学习方法的生态驾驶策略对行驶环境数据具有较强的表征能力和适应能力,泛化性好,实时性高,相比前两类方式具备一定优势,但仍存在两方面问题:一是强化学习智能体训练时面临的奖励稀疏问题。由于关键安全事件(闯红灯)反馈奖励是稀疏的和延迟的,智能体的动作的效果不会立即出现,智能体很难学习到最优策略;二是受限于传统强化学习“试错学习”框架,智能体在训练时不可避免的做出违反约束行为,智能网联汽车发生闯红灯等危险行为,使得强化学习生态驾驶策略的研究仍停步于模型仿真阶段,难以部署到真实物理环境。

技术实现思路

1、有鉴于此,针对本领域中存在的技术问题,本发明提供了一种基于安全强化学习的智能网联汽车信号交叉口处通行策略,具体包括以下步骤:

2、步骤1、针对信号交叉口搭建通行生态驾驶模型,包括针对车辆搭建整车纵向动力学模型和搭载了v2i功能的信号灯交通环境模型;

3、步骤2、通过v2i设施获取包括车辆至路口的距离、信号灯相位和时间的道路信息,以及包括车速、加速度及需求功率的车辆自身信息;

4、步骤3、建立基于强化学习算法的智能网联汽车信号交叉口处通行策略,使其根据实时输入的所述道路信息和车辆自身信息,生成车辆执行动作即加速度;

5、步骤4、针对车辆位置的上层参考轨迹和下层参考轨迹,分别利用改进的智能驾驶员模型(idm)以及绿灯窗口的结束点确定,并考虑汽车动力学的可实现性来确定车辆至交叉口的安全距离约束;基于该安全距离约束判断步骤3所生成的车辆执行动作是否为可能闯红灯的危险动作,并将危险动作纠正为安全动作;

6、步骤5、考虑通行时间与能耗设计所述策略的奖励函数,使车辆执行由步骤4得到的安全动作后,获得相应奖励并进入下一状态;

7、步骤6、利用历史道路信息和车辆自身信息构建训练样本集,对所述策略进行训练直至稳定后应用于智能网联汽车在信号交叉口处的在线通行控制。

8、进一步地,步骤2具体获取以下形式的道路信息与车辆自身信息:

9、

10、式中,vego和aego是智能网联汽车的速度和加速度,为需求功率,dinter是车辆到即将到来的信号灯路口的距离,lp和lt为即将到来的信号灯路口的相位和剩余时间。

11、进一步地,步骤4中确定所述安全距离约束具体是将非线性交通灯约束转化为时变线性状态约束,利用以下公式形式:

12、

13、

14、式中,δvego为车辆与前车的速度差距,δx为车辆与前车的距离差距,s0为最小车距,thw为安全车头时距,amax、amin分别为加速度的最大值、最小值,s*为修正后的车距;将即将到来的交通灯视为前车,假设改进的idm可以在人眼视觉距离修正后shd处预览交通信号状态,则可将修正后的加速度am-idm表示为:

15、

16、上层轨迹位置xup1可利用上式计算得到;

17、下层轨迹位置xlow1基于选定绿灯窗口结束点的时间与位置(tend,xend)通过以下公式计算:

18、

19、式中,i表示第个i交叉口;

20、在不考虑约束时,考虑汽车动力学与当前路段的最高限速vlim,可通过以下公式计算车辆在下一时刻可到达位置

21、

22、则相应的位置上限xup2与位置下限xlow2分别为:

23、

24、

25、将车辆在下一时刻的可到达位置定义为所述策略的成本函数c,并定义安全距离阈值为:

26、

27、根据上述约束修正后得到以下加速度也即安全动作:

28、

29、

30、其中,μ(s)为算法智能体策略网络的原始输出动作。

31、进一步地,步骤5中具体考虑在节省时间成本的同时使电能消耗最小来定义以下奖励函数:

32、r=r1+r2+r3

33、r1=w1(dend,t-1-dend,t)

34、r2=w2[(vego,t-vlim)2+(vego,t-vmin)2]

35、

36、式中,r1反映了到达目地的时间,dend为车辆到达目的地距离;r2用于限制车辆速度的探索范围,vlim为当前路段的最高限速,vmin为保证当前车流的最低速度,为驱动电机功率。

37、与现有技术相比,本发明上提供的基于安全强化学习的智能网联汽车信号交叉口处通行策略至少具有以下有益效果:

38、1.相比基于优化方法的生态驾驶策略,本发明的计算时间更少,实时性更高。

39、2.相比传统基于强化学习的生态驾驶策略,本发明通过安全层纠错机制设计,巧妙地避免了在训练过程中安全约束的违反,安全性能更好,实际应用价值更高。

40、3.本发明针对车辆位置的上下参考轨迹将非线性交通灯约束转化为时变线性状态约束,有效解决了强化学习智能体试错训练时面临的奖励稀疏问题。

技术特征:

1.基于安全强化学习的智能网联汽车信号交叉口处通行策略,其特征在于:具体包括以下步骤:

2.如权利要求1所述的基于安全强化学习的智能网联汽车信号交叉口处通行策略,其特征在于:步骤2具体获取以下形式的道路信息与车辆自身信息:

3.如权利要求2所述的基于安全强化学习的智能网联汽车信号交叉口处通行策略,其特征在于:步骤4中确定所述安全距离约束具体是将非线性交通灯约束转化为时变线性状态约束,利用以下公式形式:

4.如权利要求3所述的基于安全强化学习的智能网联汽车信号交叉口处通行策略,其特征在于:步骤5中具体考虑在节省时间成本的同时使电能消耗最小来定义以下奖励函数:

技术总结本发明提供了一种基于安全强化学习的智能网联汽车信号交叉口处通行策略,其相比基于优化方法的生态驾驶策略,计算时间更少,实时性更高;相比传统基于强化学习的生态驾驶策略,本发明通过安全层纠错机制设计,巧妙地避免了在训练过程中安全约束的违反,安全性能更好,实际应用价值更高。本发明针对车辆位置的上下参考轨迹将非线性交通灯约束转化为时变线性状态约束,从而有效解决了强化学习智能体试错训练时面临的奖励稀疏问题。技术研发人员:何洪文,李佳奇,王勇,王浩宇受保护的技术使用者:北京理工大学技术研发日:技术公布日:2024/7/9

本文地址:https://www.jishuxx.com/zhuanli/20240731/188705.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。