技术新讯 > 信号装置的制造及其应用技术 > 一种无信号交叉口车辆通行决策规划方法、系统与设备  >  正文

一种无信号交叉口车辆通行决策规划方法、系统与设备

  • 国知局
  • 2024-07-31 20:51:15

本发明涉及智能交通,特别涉及一种无信号交叉口车辆通行决策规划方法、系统与设备。

背景技术:

1、近些年来,随着智能网联车辆技术的快速发展,其逐渐在减少交通冲突、提高交通运行效率与经济效益方面表现出良好的潜力,基于全时空交通信息的协同感知、融合和交互,实现车辆群体协同决策与智能控制,并推进基于车路协同的自动驾驶中国发展路线,已成为我国智能交通的战略发展内容。智能网联车辆通过v2i(vehicle to infrastructure)设备发送并收集环境信息,实现了道路全息感知,使道路、车辆形成一个互联互通的整体,尤其是对无信号交叉口等不规则平面交叉道路场景而言,网联技术能够降低因为信息收集不完善对驾驶安全带来的负面影响,为避免交通冲突、改善通行效率和驾乘人员体验提供了条件。

2、然而,从目前的有人驾驶车辆占绝大多数到自动驾驶车辆普及会经历一个漫长的过渡阶段。在此过程中,有人驾驶与自动驾驶车辆会在道路场景中共存,异构交通群体会加剧无信号交叉口行车环境的复杂程度,对自动驾驶车辆的感知、决策和控制等各方面技术造成重大考验,如何量化有人驾驶车辆运动特征并将其纳入自动驾驶车辆运动规划因素是推进智能化的重要工作之一。另外,区别于信号交叉口,无信号场景下不仅需要考虑车辆在停止线前的速度和加速度以保证通行效率,还需要规划车辆在交叉口内部冲突区域的运动以避免碰撞,对左转此类同时需要规划车速和转向角的驾驶行为造成了不小的挑战。因此,如何从驾驶安全角度出发,将行车风险和异构环境中其他有人车辆的驾驶风格考虑在内,构建面向多车交互工况的左转运动规划模型,是智能网联车辆在无信号交叉口场景中亟待解决的问题。

3、目前,应用强化学习方法开展无信号交叉口场景中自动驾驶决策的研究,以安全、效率和舒适度为目标,对于安全目标仅仅将是否发生碰撞考虑在内,例如对于车辆碰撞情况制定回报函数,较少研究将潜在碰撞风险考虑在内,存在以低频的事故数据作为评估标准相同的弊端,如样本量小,风险变化过程难以反映等。假设车辆在未发生碰撞的情况下已经处于事故临界状态,仅依据碰撞事件则难以反映其动态驾驶安全。常见分层强化学习方法需要分开不同层级训练,增加了训练成本,网络复杂程度较高,同时增加了运行成本,使其难以应用于复杂多变的驾驶任务场景。

技术实现思路

1、本发明的目的在于针对上述现有技术的不足,提供一种无信号交叉口车辆通行决策规划方法、系统与设备,以解决现有技术中常见分层强化学习方法需要分开不同层级训练,增加了训练成本,网络复杂程度较高,同时增加了运行成本,使其难以应用于复杂多变的驾驶任务场景的问题。

2、本发明具体提供如下技术方案:一种无信号交叉口车辆通行决策规划方法,包括如下步骤:

3、构建网联无信号交叉口建模场景,并基于所述网联无信号交叉口建模场景构建多车交互工况下的转向车辆决策-运动规划框架;

4、通过所述转向车辆决策-运动规划框架进行行车风险感知,根据感知到的事故严重程度定义风险等级,以及获取不同风险等级下的风险感知系数;

5、根据交互车辆相对状态计算通行间隙,通过所述通行间隙获得通行策略,并采用粒子群算法获取通行策略中每个车辆的期望车速;

6、基于每个车辆位置和全局路径选取目标路径点,并使用纯跟踪算法匹配期望车速与目标路径点,获得驾驶连续动作的驾驶决策;

7、使用ra-sac算法对所述风险感知系数进行奖惩策略训练,通过训练后的风险感知系数改变所述驾驶决策的梯度更新幅度,获得车辆决策运动规划模型;

8、使用所述车辆决策运动规划模型对每个车辆的通行进行决策。

9、优选的,所述转向车辆决策-运动规划框架包括:网联无信号交叉口环境、感知与决策模块、车辆运动规划模块。

10、优选的,所述感知到的事故严重程度定义风险等级,以及获取不同风险等级下的风险感知系数,包括如下步骤:

11、根据避撞加速度阈值对交通冲突事件进行风险等级划分,计算不同风险等级下的条件概率;

12、采用贝叶斯理论得出每个给定状态下的风险感知系数。

13、优选的,所述根据避撞加速度阈值对交通冲突事件进行风险等级划分,计算不同风险等级下的条件概率,具体表达式为:

14、

15、

16、

17、其中,ds、dr和dd分别为安全、存在风险和危险事件的rdrac阈值,σ代表随机变量;τ为风险水平,用数值0、1、2表示,分别对应安全、存在风险和危险等级,具体表达式为:τ={0,1,2}。

18、优选的,所述采用贝叶斯理论得出每个给定状态下的风险感知系数,具体表达式为:

19、

20、

21、其中,ε为风险感知系数,p(τ|d)为处于某一风险水平τ的后验概率,p(τ)为风险水平的先验概率,p(d|τ)为不同风险水平下的条件概率。

22、优选的,所述基于每个车辆位置和全局路径选取目标路径点,并使用纯跟踪算法匹配期望车速与目标路径点,包括如下步骤:

23、基于纯跟踪算法与pid控制器设计车辆的转向跟踪功能模块,并基于当前车辆位置和全局路径选取目标路径点,采用纯跟踪算法和pid控制器结合调整车辆转向角;

24、根据当前车辆状态对纯跟踪算法中的基础前视距离参数进行决策,匹配期望车速和目标路径点,进行目标路径点的跟踪。

25、优选的,所述获得驾驶连续动作的驾驶决策,包括如下步骤:

26、将车辆在无信号交叉口通行过程定义为马尔可夫决策过程;

27、通过基于马尔可夫决策过程的深度强化学习方法,对运动控制的基础前视距离与节气门/制动踏板两个参数进行决策;

28、通过每个所述决策下采取的动作获得奖励,通过所述奖励获得驾驶连续动作对于当前环境与车辆状态关系;

29、通过所述驾驶连续动作对于当前环境与车辆状态关系获得驾驶连续动作的驾驶决策。

30、优选的,所述使用ra-sac算法对所述风险感知系数进行奖惩策略训练,通过训练后的风险感知系数改变所述驾驶决策的梯度更新幅度,包括如下步骤:

31、通过风险感知系数改变奖惩力度,在训练过程中识别潜在碰撞风险;

32、将当前车辆驾驶的决策放入对应环境中评估,获得更符合因车辆动作给实际环境造成影响的奖惩结果;

33、通过当前车辆驾驶的潜在碰撞风险大小改变梯度更新幅度,根据所述幅度收获不同程度的反馈;

34、通过所述反馈和奖惩结果获得最优的驾驶连续动作,通过最优的驾驶连续动作更新驾驶决策。

35、优选的,本发明还提供一种无信号交叉口车辆通行决策规划系统,包括:

36、框架构建模块,用于构建网联无信号交叉口建模场景,并基于所述网联无信号交叉口建模场景构建多车交互工况下的转向车辆决策-运动规划框架;

37、风险获取模块,用于通过所述转向车辆决策-运动规划框架进行行车风险感知,根据感知到的事故严重程度定义风险等级,以及获取不同风险等级下的风险感知系数;

38、车速获取模块,用于根据交互车辆相对状态计算通行间隙,通过所述通行间隙获得通行策略,并采用粒子群算法获取通行策略中每个车辆的期望车速;

39、状态获取模块,用于基于每个车辆位置和全局路径选取目标路径点,并使用纯跟踪算法匹配期望车速与目标路径点,获得驾驶连续动作的驾驶决策;

40、决策模型构建模块,用于使用ra-sac算法对所述风险感知系数进行奖惩策略训练,通过训练后的风险感知系数改变所述驾驶决策的梯度更新幅度,获得车辆决策运动规划模型;

41、车辆决策模块,用于使用所述车辆决策运动规划模型对每个车辆的通行进行决策。

42、优选的,本发明还提供一种计算机设备,包括存储器及处理器,所述存储器中储存有计算机程序,所述计算机程序被所述处理器执行时,使得所述处理器执行一种无信号交叉口车辆通行决策规划方法的步骤。

43、与现有技术相比,本发明具有如下显著优点:

44、本发明提出了面向无信号交叉口的车辆决策-运动规划框架,通过结合风险感知方法与深度强化学习算法,获取风险等级和风险感知系数、通行间隙、期望车速,以及车辆位置和目标路径点,构建驾驶连续动作的工作,执行改变车辆在环境中的状态,通过环境信息传输完成反馈,实现车辆运动规划闭环控制;同时设计了基于风险水平调整奖励策略的机制ra-sac算法,通过该机制将车辆当前驾驶决策放入对应环境中评估,使得奖惩结果更贴合因车辆动作给实际环境造成的影响,不需要不同层级进行训练,让车辆运动规划更加精准且成本更低,能够对无信号交叉口的智能网联车辆进行有效评估,具有较强的可操作性。

本文地址:https://www.jishuxx.com/zhuanli/20240731/187893.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。