一种基于风险估计的强化学习自动驾驶安全可解释决策方法
- 国知局
- 2024-07-31 23:06:24
本发明属于强化学习与自动驾驶领域,特别涉及一种基于风险估计的强化学习自动驾驶安全可解释决策方法。背景技术:::1、随着人工智能技术的发展,强化学习作为一种能够在高维环境中学习复杂策略的方法,已被广泛应用于自动驾驶领域。强化学习通过智能体执行动作并观察结果(即奖励或惩罚)来学习一种策略,从而获得最大化的长期累计奖励。深度强化学习结合了深度学习的强大特征提取能力和强化学习的决策制定机制,使得智能体可以在高维复杂环境中学习出优秀的行为策略。近年来,基于强化学习的自动驾驶策略研究发展迅速,使得无人车辆可以在各种复杂交通场景下完成驾驶任务。然而,强化学习的探索过程具有不确定性,很可能会导致不安全行为的产生,这在自动驾驶领域会造成灾难性的后果。因此即使强化学习在自动驾驶方面有高效的表现,缺乏安全性仍然限制了在安全敏感领域的应用。同时,包括强化学习在内的机器学习算法决策过程往往是不透明的,人们通常无法理解智能体的决策过程,导致自动驾驶系统并不可靠,同样限制了其在现实世界的应用。因此研究既具有可解释性又能够保证安全性的自动驾驶方法具有重大意义和发展前景。2、强化学习自动驾驶传统的安全性方法主要通过在约束马尔可夫决策过程(constrained markov decision process,cmdp)框架内求解来获得最优控制,该框架通过将沿动作轨迹的违反约束的预期累计成本限制在设定好的阈值以下来确保安全。目前有很多工作都以此为基础对自动驾驶的安全性展开研究,例如中国专利申请cn202310565136.6提供了一种基于安全可信强化学习的自动驾驶车道保持控制方法,构建基于模型预测控制的安全过滤器,并基于动作和安全约束的优化问题并进行求解,具有安全可信性强、可行性高的优点。中国专利申请cn202311285208.8公开了一种用于生成安全策略的离线强化学习方法,基于离线强化学习数据集学习可行价值函数来确定数据集中的最大可行区域,获得了令人满意的安全性能。wang等人提出了一种基于近似安全动作的双延迟深度确定性策略梯度的安全强化学习方法,实现了高成功率和低部署风险(wang x,zhang j,hou d,etal.autonomous driving based on approximate safe action[c]//ieee transactionson intelligent transportation systems,2023:14320-14328.)。虽然这些方法都有效保证了安全性,但都是通过不透明的机制来实现的,还依然缺乏可解释性。3、目前的强化学习自动驾驶模型都是黑盒模型,并且是在很少或根本没有人类输入的情况下做出决策,这导致模型的可信度降低。对于可解释性的研究一直是该领域的重点,例如ben-younes等人结合多模态融合研究的最新进展,提出了一种解释轨迹预测模型行为的深层架构,提高了模型可解释性(hédi ben-younes,zablocki l,patrick pérez,etal.driving behavior explanationwith multi-level fusion[j].patternrecognition,2022.doi:10.1016/j.patcog.2021.108421)。shao等人提出了可解释传感器融合transformer框架,生成了安全思维图的中间可解释特征(h.shao,l.wang,r.chen,et,al.safety-enhanced autonomous driving using interpretable sensor fusiontransformer[c]//conference on robot learning,2023:205:726-737)。lu等人引入了基于后继表示的认知图谱来连接感知和规划,通过一种类人的方法提高了操作的可解释性(h.lu,y.liu,m.zhu,etal.enhancing interpretability of autonomous driving viahuman-likecognitive maps:a case study on lane change[j].ieee transactions onintelligent vehicles,2024:1-11)。然而这些提供可解释性的方法都没有兼顾到算法的安全性,从而导致违反约束的动作产生。4、到目前为止,还没有研究应用于自动驾驶领域的安全并且可解释的强化学习方法。为解决已有方法无法同时兼顾安全性和可解释性的问题,本发明提出了一种基于风险估计的安全可解释强化学习框架,用于在保证安全约束的前提下下做出可以理解的最优决策。技术实现思路1、本发明针对以上问题,提出了一种基于风险估计的强化学习自动驾驶安全可解释决策方法,设计独立的风险和预期奖励估计网络,并使用动态更新的权衡参数进行结合来选择最优动作,旨在保证模型的安全性;同时通过独立的风险估计网络计算相关输入特征的风险显著性度量,可以提高决策的可解释性。本发明综合改善了现有强化学习自动驾驶技术存在的不足,确保了安全性,提高了可解释性,为强化学习自动驾驶技术在现实世界的部署奠定了基础。2、为了实现上述目的,本发明的技术方案如下:3、一种基于风险估计的强化学习自动驾驶安全可解释决策方法,包括以下步骤:4、步骤1:基于gym库的交通子环境highway-env搭建n个仿真实验环境,并设置状态空间和动作空间。5、进一步地,步骤1中所搭建的仿真实验环境涉及的场景有十字路口场景、环岛场景和高速公路场景。设置状态空间和动作空间后需要根据每个仿真实验环境中的驾驶任务设置初始化道路和车辆状态。6、更进一步地,步骤1中,智能体车辆接受到的状态空间包括自我车辆状态的观察、周围其他交通参与者信息、当前道路航路点集合以及可用的车道切换集合。其中,智能体车辆的状态定义为向量[x,y,v,θ,vtarget],其中x,y表示智能体车辆坐标,v表示实际行驶速度,θ表示偏航角度,vtarget表示期望的目标速度。非智能体车辆状态定义为向量其中x′,y′表示相对于智能体车辆的坐标,v′表示当前行驶速度,表示相对于智能体车辆的角度,d表示相对于智能体车辆的距离。7、更进一步地,步骤1中,智能体车辆的离散动作空间集合a设置为{no-op,switchleft,switch right, targetspped0-n}。其中no-op表示不做任何动作,switchleft表示向左变道,switchright表示向右变道,targetspped1-n表示n个不同的期望速度。8、步骤2:根据约束马尔可夫决策过程建模以处理安全约束。9、进一步地,步骤2具体过程为:在马尔可夫决策过程的基础上,引入成本函数c(st,at)扩展为约束马尔可夫决策过程,保证在给定的策略π下不超过预先设置的阈值如果在时刻t智能体车辆违反约束,则成本函数c(st,at)=1,否则c(st,at)=0。利用c(s,a)表示状态s下采取动作a的预期折扣成本之和,并将表示为状态动作风险函数,这就转变为约束优化问题:10、11、12、其中γ表示折扣因子,st表示在t时刻智能体车辆所处的状态,at表示在t时刻智能体车辆的动作,r(st,at)表示在状态st下选择动作at后得到的奖励,表示在策略π下的状态动作风险函数,s表示所有状态的集合,a表示所有动作的集合,π表示所有策略的集合。13、步骤3:设置奖励函数。14、进一步地,步骤3中,奖励函数是密集奖励rdense和终点奖励rterminal的和,即:15、r=rdense+rterminal#(17)16、更进一步地,密集奖励定义为t时刻速度和最大速度之商,即:17、rdense=vt/vmax#(18)18、其中vt表示车辆在t时刻的速度,vmax表示车辆允许到达的最大速度。19、更进一步地,终点奖励rterminal定义为:如果智能体车辆无碰撞到达目标,则返回+100的奖励值;如果智能体车辆发生碰撞或偏航,则返回-100的奖励值;其他情况奖励值均为0。20、步骤4:构建独立的风险估计模块和预期奖励估计模块。21、进一步地,步骤4的具体过程为:22、风险估计模块的架构同dqn网络一致,负责估计当前状态-动作对的预期折扣成本,风险估计模块包括风险估计网络qc和目标网络q′c;其中风险估计网络qc,负责估计状态-动作对的成本函数以指导智能体的行为。目标网络q′c来解决训练过程中的不稳定性问题,目标网络q′c具有与风险估计网络qc相同的架构但不同的参数,并且更新频率更低。经过训练后,风险估计模块可以估计遵循风险最优策略时产生的未来预期成本。23、预期奖励估计模块的架构也同dqn网络一致,并同样使用目标网络q′和预期奖励估计网络q来提高学习的稳定性,两个网络的网络结构相同但参数不同。其中,预期奖励估计网络用于预测期望折扣奖励总和,目标络用来计算目标奖励值。24、对于一组状态动作转换,奖励和风险就有两个贝尔曼最优方程:25、26、27、其中q*表示最优状态动作价值函数,表示最优风险函数,s表示当前状态,a表示当前状态下采取的动作,r(s,a)表示状态s下采取动作a得到的奖励,c(s,a)表示状态s下采取动作a得到的成本,γ表示衡量未来奖励和成本权重的折扣因子,a表示所有动作的集合,a′∈a表示动作a′是从集合a中取样的。28、将这两个估计合并,得到用于生成策略的拉格朗日估计29、30、其中λ表示权衡参数。31、步骤5:动态更新权衡参数,以选择符合安全约束的最优动作。32、进一步地,步骤5的具体过程为:采用一个学习的权衡参数动态更新奖励和成本之间的权重,参数λ更新为:33、34、其中α表示学习率,n表示回合总数,cn表示在第n回合中违反约束的成本总和,表示应该遵守的违反约束的阈值。即是通过超出给定阈值的约束违反概率乘以学习率来更新权衡参数λ。35、步骤6:基于步骤4和5设置好的网络架构和权衡参数进行训练,得到训练好的安全自动驾驶决策网络。36、进一步地,步骤6的具体过程为:37、1)创建一个经验回放池用于存储智能体车辆与环境交互的经验,即在环境中采取的动作及其结果(状态转换),初始化经验回放池。38、2)初始化步骤4的四个神经网络,其中两个是估计预期奖励的预期奖励估计网络q和目标网络q′,另外两个是估计预期折扣成本的风险估计网络qc和目标网络q′c。两个目标网络的权重分别定期从与其对应的预期奖励估计网络和风险估计网络复制更新,并在一段时间保持不变。39、3)对于当前的环境状态,智能体车辆根据策略arg maxa q(s,a)+λqc(s,a)选择一个动作a执行并观察结果,将得到的经验存储在经验回放池中。40、4)定期从经验回放池中随机采样一批经验,用这些状态转换分别更新预期奖励估计网络和风险估计网络,减少经验之间的相关性,使学习过程更稳定。41、5)对于采样的每一条经验,分别使用目标网络计算下一状态的最大预期奖励和最小预期成本,并结合即时奖励和成本来更新值网络的权重。损失函数采用均方误差(mse)损失,即当前估计的q和qc的值与通过目标网络估计的目标值之间的差异,这里预期奖励估计网络和风险估计网络损失函数如下所示:42、43、44、其中θi表示预期奖励估计网络的参数,表示风险估计网络的参数,ρ(s,a)表示概率分布,s,a~ρ(·)表示状态动作对(s,a)采样自概率分布模型ρ,表示预期奖励网络第i次迭代的目标,表示风险估计网络第i次迭代的目标。每隔一定的步数,将两个值网络的权重分别复制到目标网络。45、6)重复步骤4)和5),直到达到一定的训练回合和性能标准。46、步骤7:对驾驶过程中某一状态下的环境特征计算风险显著性度量并可视化,实现风险可解释。47、进一步地,步骤7是基于步骤6训练好的网络,采用积分梯度计算风险估计网络输入特征的显著性度量,将其可视化后即可得到关于风险重要程度的可解释性。1)基线向量z′设置为零向量,智能体车辆当前所处状态为s,通过线性插值生成一系列从基线向量到实际状态的差值状态:48、s′(β)=z′+β×(s-z′)#(10)49、其中β在0到1之间变化,以相等的间隔选择多个β值;50、2)对于每个插值状态s′(β)计算的梯度:51、52、其中表示求梯度操作;53、3)对于每个特征i,计算其在所有插值状态下的梯度累计,并乘以实际状态和基线状态之间的差s-z′:54、55、其中igi表示第i个输入特征的积分梯度,表示求偏导操作;56、4)通过数值方法对计算进行近似得到:57、58、其中δ表示增量,根据上式计算周围每个车辆输入特征的积分梯度之和,即为该特征的风险显著性度量,将其可视化后即可得到关于风险重要程度的可解释性。59、本发明与现有技术相比具有以下优点:60、第一,设计了两个独立的预期奖励估计网络和风险估计网络,并使用一个学习的权衡参数动态衡量最大奖励和最小成本之间的权衡,保证策略网络能够学习到符合安全约束的最佳动作并且保证安全性;61、第二,采用积分梯度计算独立的风险估计网络输入特征的显著性度量,可视化环境中敏感元素的风险显著性,从风险角度解释决策的过程。当前第1页12当前第1页12
本文地址:https://www.jishuxx.com/zhuanli/20240730/195984.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表