技术新讯 > 车辆装置的制造及其改造技术 > 一种高速公路自动驾驶安全决策系统 > 正文

一种高速公路自动驾驶安全决策系统

国知局
2024-08-02 17:05:04

本技术涉及自动驾驶，特别涉及一种高速公路自动驾驶安全决策系统。

背景技术：

1、因自动驾驶技术能够显著减少交通事故，提高交通效率，因此其应用广泛。在自动驾驶中，决策系统至关重要，它是车辆指挥行动的“大脑”。然而，传统的基于规则的决策系统与复杂的环境作斗争，对其在自动驾驶领域的广泛应用提出了挑战。其中，基于学习的方法，如强化学习(rl)，是在复杂环境中学习智能顺序决策的潜在解决方案。rl适应和学习动态场景的能力为克服自动驾驶中传统基于规则的系统的局限性提供了一条很有前途的途径。基于rl的驾驶政策的有效性已在各种场景中得到证明，如匝道并线、高速公路驾驶和交叉口驾驶。尽管如此，即使经过彻底的培训，rl政策仍可能导致自动驾驶汽车(av)发生意外碰撞，即使在模拟环境中也是如此。虽然rl固有的试错机制有利于政策优化，但训练或部署期间缺乏安全约束可能会导致灾难性后果。因此，将保障措施集成到rl框架中变得至关重要。

技术实现思路

1、本技术实施例提供一种高速公路自动驾驶安全决策系统，使自动驾驶汽车能够在满足透明的安全保障的同时做出最优决策。

2、为解决上述技术问题，本技术实施例提供一种高速公路自动驾驶安全决策系统，包括：高速公路环境构建模块以及与其连接的决策生成网络结构模块、安全约束模型模块；高速公路环境构建模块的输出端通过自动驾驶汽车空间设计模块与安全约束模型模块的输入端连接，高速公路环境构建模块的输入端通过激活模块分别与决策生成网络结构模块、安全约束模型模块的输出端连接。

3、在一些示例性实施例中，高速公路环境构建模块用于采用交通模型仿真工具，构建模拟的高速公路环境。

4、在一些示例性实施例中，模拟的高速公路环境为一条长度为1公里的高速公路，高速公路包括四条限速不同的车道，用于模拟真实情况。

5、在一些示例性实施例中，自动驾驶汽车空间设计模块包括状态空间模块和动作空间模块；其中，状态空间模块用于描述自动驾驶汽车及其直接周围环境的当前情况；动作空间模块通过多组离散的动作集结合形成，多组离散的动作集包括多种类型的离散动作，离散动作包括纵向加速度和车道变更决策。

6、在一些示例性实施例中，状态空间模块中状态空间如公式(1)所示：

7、

8、其中，s表示状态空间；sego＝{xego，yego，vx，ego，vy，ego}代表自动驾驶汽车自我载体的运动学状态；和分别表示同一车道内前后车辆与自动驾驶汽车的位置和速度上的差值；和分别代表了左右车道前后车辆与自动驾驶汽车之间的差异；xego和yego分别表示自动驾驶汽车的纵向位置和横向位置；vx，ego和vy，ego分别表示自动驾驶汽车的纵向和横向速度。

9、在一些示例性实施例中，在自动驾驶汽车空间设计模块中，设定自动驾驶汽车能够观察150米范围内的周围车辆；自动驾驶汽车的每一个状态特征包括{f(x)，f(y)，f(vx)，f(vy)}；

10、通过公式(2)计算状态特征；

11、f(x)＝xvehicle-xego-l

12、f(y)＝yvehicle-yego-w

13、f(vx)＝vx，vehicle-vx，ego

14、f(vy)＝vy，vehicle-vy，ego (2)

15、其中，l和w分别表示车辆的长度和宽度；xvehicle和yvehicle分别表示自动驾驶汽车能够观察到的周围车辆的纵向位置和横向位置；vx，vehicle和vy，vehicle分别表示自动驾驶汽车能够观察到的周围车辆的纵向和横向速度。

16、在一些示例性实施例中，在动作空间模块中，动作空间由纵向加速度和车道变更决策两种类型的离散动作进行定义；其中，纵向加速度包括紧急制动、减速值、加速度值和保持当前速度；车道变更决策包括不改变、左车道和右车道，完整的动作空间是通过结合两组离散的动作集来形成的，如公式(3)所示：

17、

18、其中，a表示纵向加速度；l表示车道变更决策；(a，l)表示动作空间中的每个动作；在a∈{-4m/s2，-1.5m/s2，1.5m/s2，0}中，-4m/s2表示紧急制动；-1.5m/s2表示减速值；1.5m/s2表示加速度值；0表示保持当前速度；在l∈[-v，0，+v}中，0表示不改变；-v表示左车道；+v表示右车道；其中，v表示变道速度恒定为1.3m/s。

19、在一些示例性实施例中，决策生成网络结构模块用于根据网络结构的参数设计，进行算法设计；决策生成网络结构模块包括两个隐藏层，每层隐藏层包括256个神经元；在算法设计时，通过奖励功能实现自动驾驶汽车行为与预期的安全和效率目标的一致性；

20、奖励功能包括碰撞奖励和速度奖励，如公式(4)所示：

21、r＝rcollision+rvelocity (4)

22、其中，rcollision、rvelocity分别表示碰撞奖励、速度奖励；在模拟中发生的碰撞所给予的负奖励为-4。

23、在一些示例性实施例中，通过设计速度奖励函数以保持自动驾驶汽车的最佳速度；根据车辆每一步的纵向速度计算，速度奖励的公式是一个基于自动驾驶汽车速度的归一化函数，计算方法如公式(5)所示：

24、

25、其中，rmax velocity表示归一化值，将归一化值按系数为0.5进行缩放；v表示自动驾驶汽车的速度；最小速度vmin设置为16.7m/s，最大速度vmax设置为33.3m/s。

26、在一些示例性实施例中，上述高速公路自动驾驶安全决策系统，还包括评估模块；评估模块包括三个关键指标，三个关键指标分别为：平均速度、碰撞时间和碰撞率；其中，平均速度通过公式(6)进行计算：

27、

28、其中，表示平均速度，平均速度提供了对驾驶策略效率的洞察；vij为回合i中每步j的纵向速度；t为每一回合的总步数；n为总回合数；碰撞率通过公式(7)进行计算：

29、

30、其中，pcollision表示碰撞率，ncollision表示有碰撞的事件集数，n表示总的事件集数；

31、碰撞时间通过公式(8)进行计算：

32、

33、其中，ttc表示碰撞时间；xego(t)和xfv(t)分别表示自动驾驶汽车和前车在t时刻的纵向位置；vego(t)和vfv(t)表示自动驾驶汽车和前车各自的纵向速度；ttc值越低，表示发生碰撞的风险越高。

34、本技术实施例提供的技术方案至少具有以下优点：

35、本技术实施例提供一种高速公路自动驾驶安全决策系统，包括：高速公路环境构建模块以及与其连接的决策生成网络结构模块、安全约束模型模块；高速公路环境构建模块的输出端通过自动驾驶汽车空间设计模块与安全约束模型模块的输入端连接，高速公路环境构建模块的输入端通过激活模块分别与决策生成网络结构模块、安全约束模型模块的输出端连接。本技术提出了一种安全决策框架(rss-d3qn)，使自动驾驶汽车能够在满足透明保障措施的同时做出最优决策。同时，本技术通过对rss模型进行激活，以确保在训练和测试阶段有足够的安全性。