技术新讯 > 控制调节装置的制造及其应用技术 > 一种基于强化学习的无人车自主作业决策方法及系统与流程  >  正文

一种基于强化学习的无人车自主作业决策方法及系统与流程

  • 国知局
  • 2024-07-31 23:41:45

本发明专利属于自动驾驶感知决策领域,具体涉及使用一种改进的ddpg强化学习算法来对无人车进行规划决策。

背景技术:

1、自主规划决策是指无人车、机器人或其他自主移动系统能够在未知环境中获取环境数据之后,规划路径、避开障碍物并完成任务的能力。在决策算法选择上,目前一般会选择基于搜索的规划算法、基于规则的决策算法、基于机器学习的决策算法、强化学习算法、决策树算法等。基于搜索的规划算法可以保证找到最优解,扩展性也比较强但是该算法空间复杂度和时间复杂度比较大,且对启发式信息依赖较强;基于规则的决策算法具有较好的透明性和可解释性,鲁棒性比较高,但是该算法所需的规则的制定和维护需要较高的人力成本,且规则很可能无法涵盖所有情况;基于机器学习的决策算法有强大的学习和自适应能力,智能化程度较高,但是该算法对数据的质量和数据要求较高,且无法解释决策的过程;决策树算法虽然易于理解和解释也能处理高维度数据,但是该算法不适合处理连续型数据;在这些算法中强化学习算法可以更好的处理确定性和随机性,可以学习一系列行为,可以在系统层面解决高复杂度问题,因此在自动驾驶领域中具有广阔的应用前景。

2、强化学习是一种机器学习方法,智能体通过与环境交互进行学习,通过在每个时间段内接收环境的状态信息和奖励信号来最大化累积奖励。智能体根据观察到的状态选择行动,并通过学习策略和价值函数来优化其行为。在学习过程中,智能体需要在探索新策略和利用已知策略之间找到平衡,以不断改进其决策能力和获得更多奖励。然而,目前强化学习也存在一些挑战和问题,例如样本效率低、训练不稳定、状态空间和动作空间维度过高导致训练困难、泛化能力弱等缺陷,直接应用于无人车自主作业决策的效果不佳。

技术实现思路

1、本发明的目的在于提供一种基于强化学习的无人车自主作业决策方法及系统,将强化学习和复杂环境相融合,可以适时调整无人车作业决策策略。

2、实现本发明目的的技术解决方案为:

3、一种基于强化学习的无人车自主作业决策方法,包括步骤:

4、在仿真平台中搭建环境模型;

5、基于环境模型,将环境信息转化为状态,设计无人车的状态空间、动作空间和奖励函数;

6、构建双q网络的actor-critic网络模型;

7、基于状态空间、动作空间和奖励函数,通过ddpg算法对actor-critic网络进行学习训练,获取最优的actor-critic网络模型,用于获取作业决策。

8、进一步地,所述无人车的状态空间包括位置信息、速度信息、方向信息、周围环境信息和任务目标信息,所述动作空间包括加速度控制动作、速度控制动作、转向角控制动作和停止动作。

9、进一步地,所述奖励函数为:

10、reward=w1·speed·(cos(angle)-2|sin(angle)|)-w2·trackpos3-w3·penaltyen-w4·penaltycolli-w5·penaltydist+w6·rewardcomp+w7·rewardconc

11、其中,angle表示无人车当前方向与规划前进方向的夹角;speed*cos(angle)表示无人车沿着前进方向的速度;speed*sin(angle)表示无人车沿与前进垂直方向的速度;trackpos表示无人车与障碍物之间的距离,无人车须要尽可能远离障碍物;penaltyen表示能量消耗惩罚项,鼓励无人车节能;penaltycolli表示碰撞惩罚项,对于发生碰撞的情况,给予负奖励;penaltydist表示路径长度惩罚项,当车辆离目标点大于设定值时,给予负奖励,鼓励车辆尽快到达目标点;rewardcomp表示任务完成奖励;rewardconc表示隐蔽性奖励,鼓励无人车选择不易被察觉的行动策略;w1~w7为各项参数对应的权重。

12、进一步地,发生碰撞时,所述碰撞惩罚项penaltycolli为-10,当车辆离目标点大于设定值时,penaltydist为-20。

13、进一步地,所述双q网络的更新包括:

14、将两个q网络q1和q2的参数随机初始化,将其对应的目标q网络target_q1和target_q2的参数初始化为与q1和q2相同的值,令始状态为s;

15、根据当前状态s从当前策略中选择一个动作a,并执行该动作,确定奖励r和下一个状态s';

16、在选择动作时,从target_q1和target_q2中选择较小的值作为目标q值,然后,根据bellman方程,计算目标q值target_q,其中包括当前奖励r和下一个状态s';

17、分别使用目标q值作为q1和q2的目标进行更新,计算损失函数loss,并通过梯度下降更新q1和q2的参数,使其更接近目标q值;

18、更新target_q1和target_q2的参数,使其逐步接近于q1和q2的参数。

19、进一步地,所述目标q值为:

20、target_q=r+gamma*min(target_q1(s',a'),target_q2(s',a'))

21、其中,a'为下一个动作,gamma为折扣因子。

22、进一步地,所述损失函数loss为:

23、loss1=(q1(s,a)-target_q)^2;

24、loss 2=(q2(s,a)-target_q)^2;

25、其中,loss1和loss 2分别为更新q1和q2的损失函数。

26、进一步地,所述通过ddpg算法对actor-critic网络进行学习训练进行学习具体包括:

27、actor-critic网络参数初始化;

28、策略探索:使用随机策略或初始策略对环境进行探索,生成经验数据并存储于d,初始阶段,智能体使用随机策略或初始策略在环境中进行探索,生成用于后续训练的经验数据;

29、数据采集:从环境中采样数据;

30、网络参数更新:通过采样采样数据进行actor-critic网络参数更新;

31、重复执行策略探索、数据采集、网络参数更新进行训练迭代,直到获取收敛的actor-critic网络。

32、进一步地,通过梯度下降法最小化损失、采用梯度上升法最大化策略梯度进行actor-critic网络对应参数的更新。

33、一种基于强化学习的无人车自主作业决策系统,包括环境模型搭建单元、参数设计单元和actor-critic网络训练单元,其中,所述环境模型搭建单元用于在仿真平台中搭建环境模型;所述参数设计单元基于环境模型,将环境信息转化为状态,设计无人车的状态空间、动作空间和奖励函数;所述actor-critic网络训练单元基于状态空间、动作空间和奖励函数,通过ddpg算法对设计的双q网络的actor-critic网络进行学习训练,获取最优的actor-critic网络模型,用于获取作业决策。

34、与现有技术相比,本方法具备以下优点:

35、1)本方法采用双q网络,减小了理论目标q值和实际目标q值的偏差,提高了算法的稳定性和收敛速度;具备较强的适应性,无人车可以适时调整决策策略;

36、2)本方法具备较高的情景认知能力,在预设场景之外的其它场景仍能准确感知周围环境变化;

37、3)本方法具备一定的智能决策能力,可以在变化的环境中自主规划路径;

38、4)本方法克服了传统强化学习方法在连续动作空间的限制,可以在连续动作空间和高维状态空间下与环境交互并获得经验;

39、5)本方法可以实现无人车精细路径规划和导航;

40、6)本方法能够根据奖励信号进行智能决策,更适应环境;

41、7)本方法能使用小样本行为决策数据集进行训练,能适应不同任务。

本文地址:https://www.jishuxx.com/zhuanli/20240730/198125.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。