技术新讯 > 计算推算,计数设备的制造及其应用技术 > 一种车辆变道决策模型训练方法和一种车辆变道决策方法与流程  >  正文

一种车辆变道决策模型训练方法和一种车辆变道决策方法与流程

  • 国知局
  • 2024-09-05 14:34:01

本发明涉及车辆,尤其涉及一种车辆变道决策模型训练方法和一种车辆变道决策方法。

背景技术:

1、自动驾驶车辆为了遵循既定的行驶路线,或超过前方较慢的车辆等场景都需要通过变道操作来完成自动驾驶任务,往往不恰当的变道行为会导致交通拥堵甚至发生车祸。

2、现有研究虽然已经提出了许多基于规则的方法来解决自动驾驶变道问题,但由于驾驶环境的不确定性和复杂性,它们往往表现出有限的性能。目前针对自动驾驶变道决策的主流做法是,通过制定规则的方式定义出不同的场景,在不同的场景下制定不同换道算法及参数,根据探测到的车道信息及交通参与体的信息,在保证前后车安全距离的前提下快速、平稳的变换到目标车道。

3、但现实中换道的场景不可能完全被建模,车辆遇到没有定义的场景或是复杂场景的时候,便无法合理选择车速和变道时机甚至出现碰撞危险。而仅基于强化学习的方法虽然通用性较强,但需要在与真实环境相似的仿真环境下进行大量的训练,需要花费大量的时间才能获得一个比较成熟的模型;同时对硬件系统的性能要求较高,实现同样性能往往需要花费更高的成本。

技术实现思路

1、本发明旨在至少解决现有技术中存在的技术问题,为此,本发明第一方面提出一种车辆变道决策模型训练方法,所述方法包括:

2、获取仿真环境中从原车道待变至目标车道的自车以及位于所述原车道和所述目标车道上的与所述自车关联的目标交通参与者在当前时刻的行驶状态信息,并根据所述行驶状态信息构建马尔科夫决策模型在当前时刻的状态矩阵;

3、将所述状态矩阵输入强化学习模型进行处理,预测得到所述状态矩阵对应的行为决策信息,所述行为决策信息包括所述自车的纵向加速度和变道标志信息;

4、控制所述自车按照所述纵向加速度和所述变道标志信息执行变道任务,并在确定所述变道任务结束之后,获取所述自车的行为结果信息;

5、根据所述行为结果信息和预设的奖励函数确定本次变道任务的奖励得分;

6、获取所述自车以及所述自车的预设距离范围内的交通参与者在下一时刻的行驶状态信息,并根据所述行驶状态信息构建所述下一时刻的状态矩阵;

7、将所述奖励得分、所述行为决策信息、所述当前时刻的状态矩阵、所述下一时刻的状态矩阵,带入所述强化学习模型的损失函数,确定本次任务的损失值;

8、基于所述损失值,采用外部元学习算法更新所述强化学习模型的参数继续进行迭代训练,直至达到预设的终止条件则结束训练,得到车辆变道决策模型。

9、可选地,所述目标交通参与者包括:原车道上与所述自车距离最近的第一前方车辆和第一后方车辆,目标车道上与所述自车时距最近的第二前方车辆和第二后方车辆,所述时距为所述自车追上前方车辆的用时,或后方车辆追上所述自车的用时;所述行驶状态信息包括所述自车和各个所述目标交通参与者的当前速度信息、加速度信息、坐标信息和方向角信息;所述根据所述行驶状态信息构建马尔科夫决策模型在当前时刻的状态矩阵,包括:

10、根据所述自车和各个所述目标交通参与者的当前速度信息、加速度信息、坐标信息和方向角信息组成马尔科夫决策模型的状态矩阵。

11、可选地,所述行为结果信息包括:当前所处车道、从执行变道任务前到变道任务结束后的加速度变化值、当前车速、与当前车道内的最近交通参与者的距离;所述根据所述行为结果信息和预设的奖励函数确定本次变道任务的奖励得分,包括:

12、若所述当前所处车道为所述目标车道,则生成第一奖励值;

13、若所述加速度变化值大于预设第一阈值,则根据所述加速度变化值与所述第一阈值之间的差值确定第一惩罚值;

14、若所述当前车速与目标车速之间有差值,则根据所述差值确定第二惩罚值;所述目标车速为根据所述纵向加速度和预设的目标变道距离计算得到的;

15、若所述距离大于0且小于预设第二阈值,则根据所述距离确定第三惩罚值;若所述距离等于0,则生成第四惩罚值;

16、根据所述第一奖励值、所述第一惩罚值、所述第二惩罚值、所述第三惩罚值、所述第四惩罚值,以及对应的权重,确定本次变道任务的得分。

17、可选地,在获取所述自车的行为结果信息之前,还包括:确定所述变道任务是否结束;

18、所述确定所述变道任务是否结束,包括:

19、若所述自车从所述原车道变道至所述目标车道,且所述自车的车身完全进入到所述目标车道的车道线之内,则确定所述变道任务结束;

20、若所述自车在变道过程中与其他车辆发生碰撞,则确定所述变道任务结束;

21、若所述自车从变道起始点开始,行驶预设的目标变道距离之后,所述自车的车身仍未完全进入到所述目标车道的车道线之内,则确定所述变道任务结束。

22、可选地,所述预设的终止条件包括:

23、所述自车的行驶状态满足预设的舒适体感要求,且所述自车无碰撞的进行车道保持,且所述自车能够避开所有已识别到的障碍物。

24、本发明第二方面提出一种车辆变道决策方法,所述方法包括:

25、获取从原车道待变至目标车道的第一车辆、以及位于所述原车道和所述目标车道上的各个交通参与者在当前时刻的行驶状态信息,并根据所述行驶状态信息构建第一状态矩阵;

26、将所述第一状态矩阵输入车辆变道决策模型进行处理,得到对所述第一车辆的行为决策信息,所述行为决策信息包括所述第一车辆的第一纵向加速度和是否进行变道的目标变道标志信息;所述变道决策模型为根据权利要求1-6中任一所述的方法训练得到;

27、控制所述第一车辆按照所述第一纵向加速度行驶,并控制所述第一车辆按照所述目标变道标志信息进行车道保持或进行变道。

28、本发明第三方面提出一种车辆变道决策模型训练装置,所述装置包括:

29、第一状态矩阵构建模块,用于获取仿真环境中从原车道待变至目标车道的自车以及位于所述原车道和所述目标车道上的与所述自车关联的目标交通参与者在当前时刻的行驶状态信息,并根据所述行驶状态信息构建马尔科夫决策模型在当前时刻的状态矩阵;

30、预测模块,用于将所述状态矩阵输入强化学习模型进行处理,预测得到所述状态矩阵对应的行为决策信息,所述行为决策信息包括所述自车的纵向加速度和变道标志信息;

31、变道任务执行模块,用于控制所述自车按照所述纵向加速度和所述变道标志信息执行变道任务,并在确定所述变道任务结束之后,获取所述自车的行为结果信息;

32、奖励模块,用于根据所述行为结果信息和预设的奖励函数确定本次变道任务的奖励得分;

33、第二状态矩阵构建模块,用于获取所述自车以及所述自车的预设距离范围内的交通参与者在下一时刻的行驶状态信息,并根据所述行驶状态信息构建所述下一时刻的状态矩阵;

34、损失值确定模块,用于将所述奖励得分、所述行为决策信息、所述当前时刻的状态矩阵、所述下一时刻的状态矩阵,带入所述强化学习模型的损失函数,确定本次任务的损失值;

35、训练模块,用于基于所述损失值,采用外部元学习算法更新所述强化学习模型的参数继续进行迭代训练,直至达到预设的终止条件则结束训练,得到车辆变道决策模型。

36、本发明第四方面提出一种车辆变道决策装置,所述装置包括:

37、获取模块,用于获取从原车道待变至目标车道的第一车辆、以及位于所述原车道和所述目标车道上的各个交通参与者在当前时刻的行驶状态信息,并根据所述行驶状态信息构建第一状态矩阵;

38、处理模块,用于将所述第一状态矩阵输入车辆变道决策模型进行处理,得到对所述第一车辆的行为决策信息,所述行为决策信息包括所述第一车辆的第一纵向加速度和是否进行变道的目标变道标志信息;所述变道决策模型为根据第一方面所述的方法训练得到;

39、控制模块,用于控制所述第一车辆按照所述第一纵向加速度行驶,并控制所述第一车辆按照所述目标变道标志信息进行车道保持或进行变道。

40、本发明第五方面提出一种电子设备,所述电子设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现如第一方面所述的车辆变道决策模型训练方法,和/或,第二方面所述的车辆变道决策方法。

41、本发明第六方面提出一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或指令集由处理器加载并执行以实现如第一方面所述的车辆变道决策模型训练方法,和/或,第二方面所述的车辆变道决策方法。

42、本发明实施例具有以下有益效果:

43、在本发明实施例中,获取仿真环境中从原车道待变至目标车道的自车的行驶状态信息,以及位于所述原车道和所述目标车道上的与所述自车关联的目标交通参与者在当前时刻的行驶状态信息,并根据所述行驶状态信息构建马尔科夫决策模型在当前时刻的状态矩阵;将所述状态矩阵输入强化学习模型进行处理,预测得到所述状态矩阵对应的行为决策信息,所述行为决策信息包括所述自车的纵向加速度和变道标志信息;控制所述自车按照所述纵向加速度和所述变道标志信息执行变道任务,并在确定所述变道任务结束之后,获取所述自车的行为结果信息;根据所述行为结果信息和预设的奖励函数确定本次变道任务的奖励得分;获取所述自车以及所述自车的预设距离范围内的交通参与者在下一时刻的行驶状态信息,并根据所述行驶状态信息构建所述下一时刻的状态矩阵;将所述奖励得分、所述行为决策信息、所述当前时刻的状态矩阵、所述下一时刻的状态矩阵,带入所述强化学习模型的损失函数,确定本次任务的损失值;基于所述损失值,采用外部元学习算法更新所述强化学习模型的参数继续进行迭代训练,直至达到预设的终止条件则结束训练,得到车辆变道决策模型。本方案根据行驶状态信息构建马尔科夫决策模型的状态矩阵,并将状态矩阵输入强化学习模型进行数据处理,同时采用外部元学习算法更新强化学习模型的参数,能够发现不同场景之间的普适规律,通过推广普适规律解决不同场景下的变道问题。能够在小样本的训练下获得强化学习大量训练数据下的效果,并且能够轻易在不同车流密度、不同路段的变道场景下有很好的泛化能力。

本文地址:https://www.jishuxx.com/zhuanli/20240905/287003.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。