技术新讯 > 控制调节装置的制造及其应用技术 > 基于深度强化学习的自主移动机器人路径规划方法  >  正文

基于深度强化学习的自主移动机器人路径规划方法

  • 国知局
  • 2024-07-31 23:57:09

本发明属于自主移动机器人路径规划领域,尤其涉及一种基于深度强化学习的自主移动机器人路径规划方法。

背景技术:

1、自主移动机器人(amr)具有重量轻、负载大、机构简单、驱动方便、能耗低等优点,在室内外环境中有着广泛的实际应用,其最基本的任务是在一定的环境约束下,从一个地点运动到另外一个地点。因此,路径规划是自主移动机器人具备的最基础的功能,其决定了自主移动机器人执行任务的质量。现有的研究结果主要针对已知全局环境,将路径规划任务划分为避障、自定义规则、路径生成、优化等多个子任务,而进行分布式处理策略,例如有a*算法、d*算法、动态窗口算法、人工势场法等方法。这些方法没有自学习能力,并且严重依赖于已知的全局环境信息,因此无法在未知环境下进行有效的路径规划,智能化程度相对较低。基于这些方法开发的路径规划系统包含对每个子任务单独处理的模块,系统变得较为复杂。

2、但在实际应用中,通常存在环境未知或部分未知的情况,且利用单模态信息感知环境存在较大约束,造成对环境认知不够准确,影响路径规划的质量。因而现有技术在实际应用时存在适用范围和规划品质上的限制,甚至在复杂环境中难得实现预期的路径规划目标,而导致自主移动机器人无法保质保量的完成任务。

3、因此,自主移动机器人在未知环境中利用多模态信息感知环境,自主学习并规划出最优路径,成为目前亟待解决的问题。

技术实现思路

1、针对上述现有技术的不足,本发明为自主移动机器人提供了一种在未知环境中有效避障的路径规划方法。

2、为了解决上述技术问题,本发明采用了如下的技术方案:

3、基于深度强化学习的自主移动机器人路径规划方法,包括以下步骤:

4、s1、利用rgb图像和激光雷达的多模态特征融合信息,精确感知局部环境;

5、s2、自主移动机器人利用多模态特征感知与环境有效的在线交互;

6、s3、利用强化学习设计路径规划策略,完成未知环境中点对点的避障路径规划;

7、s4、通过引入好奇心机制,额外设置内部奖励来激励自主移动机器人探索环境,解决强化学习在自主移动机器人探索环境过程中存在的奖励稀疏问题。

8、优选地,s1中,所述设计的多模态特征融合信息是基于rgb图像和激光雷达两种模态信息,用于自主移动机器人精确感知局部环境,所属的局部环境由摄像头和激光雷达量测距离所决定。

9、优选地,s2中,对摄像头和激光雷达提供的连续rgb图像和激光雷达信号,采用了把连续4帧数据叠加的处理方法,让自主移动机器人更好的感知环境的动态性。然后分别通过卷积神经网络和全连接神经网络对环境进行特征提取与再融后,设计如下环境感知特征融合模型:

10、ffus(concatenate(ft1,ft2);θf)

11、其中ft1和ft2分别是神经网络中处理rgb图像和激光雷达数据两个通道的输出,ffus是神经网络全连接层,θf是神经网络可学习参数,concatenate是特征融合函数。

12、优选地,s3中,所述设计的路径规划方法为基于深度强化学习的路径规划方法,用于在未知环境下产生从起始位置到目标位置的可行路径,所述路径是避开障碍物的最优路径。

13、优选地,s3中,所述深度强化学习方法是设计了5个子任务奖励函数(分别是位置、方向、步幅、避障和到达目标)的近端策略优化(ppo)算法,奖励函数引导自主移动机器人在包含障碍物的未知环境中,学习避障的最优路径规划策略。其中,子任务奖励函数设计如下:

14、(1)位置奖励函数

15、rposition(dpg)=jreach-dpg

16、

17、

18、其中(xp,yp)是自主移动机器人的当前位置,(xg,yg)是自主移动机器人的目标点位置;β为可根据环境的实际要求进行调节的参数。

19、(2)方向奖励函数

20、

21、

22、

23、其中为自主移动机器人的期望运动方向,用为自主移动机器人的实际运动方向,表示和之间的夹角。

24、(3)步幅奖励函数

25、

26、

27、其中为自主移动机器人的速度矢量,δt为自主移动机器人的工作频率,nt是t时刻经过的时间步数。

28、(4)避障奖励函数

29、

30、其中do是自主移动机器人离最近障碍物的距离,α是自主移动机器人的最小安全距离。

31、(5)到达目标奖励

32、

33、综合奖励函数(1)-(5),可得ppo算法的外部奖励函数为:

34、re=rposition+rdirection+rstride+rc+rg

35、优选地,s4中,引入了好奇心机制激发自主移动机器人的“好奇心”探索环境,设计内部奖励来解决了强化学习在自主移动机器人探索环境过程中存在的奖励稀疏问题。其中,好奇心模块(icm)为如下三部分组成:

36、(1)特征提取器:特征提取器由两个参数相同的深度神经网络构成,其输入为状态st和st+1输出特征向量φ(st,θe)和φ(st+1,θe),θe为参数。

37、(2)逆向模型:用于预测采取的动作,

38、

39、其中θi为参数。目标是最小化动作at和动作预测值之间的误差

40、(3)前向模型:用于预测下一个状态,

41、

42、其中θf为参数。目标是最小化和φ(st,θe)之间的误差误差被定义为内部奖励

43、

44、

45、其中η>0是一个比例系数。

46、优选地,自主移动机器人在路径规划过程中的学习总奖励为外部奖励和内部奖励之和且通过优化最大化总奖励而得到最终路径规划决策策略π(at|st,θ),所述的路径规划算法决策策略最终的优化目标是最小化所有网络的误差:

47、

48、其中λ>0和0<β<1为设计参数。

49、本发明与现有技术相比,具有以下有益效果:

50、1、本发明针对未知环境中的自主移动机器人,提出了一种基于深度强化学习的路径规划方法。首先,利用多模态感知技术将感知环境的rgb图像和激光雷达信号进行特征融合处理,并融合的特征数据作为深度强化学习的输入来进行策略学习。其次,利用度强化学习近端策略优化算法(ppo),使自主移动机器人可以在未知环境中学习路径规划策略,生成可靠的动作。另外,考虑位置、方向、步幅对对自主移动机器人运动的影响,以及引导自主移动机器人规划出避开障碍物的有效路径,设计了位置奖励函数、方向奖励函数、步幅奖励函数、避障奖励函数和到达目标奖励,加速学习的效率和提高学习的稳定性。最后,依据好奇心机制设计好奇心模块(icm)来鼓励自主移动机器人探索环境未知领域,解决奖励稀疏的问题,降低探索的盲目性。本方法在简单和复杂两种环境中进行了实验,针对自主移动机器人的路径规划任务都能达到收敛状态,且与对比的基线方法相比有很高的平均奖励和较短的路径。

51、综上,本方法可以在未知环境中有效的进行带避障的路径规划。

52、2、与利用单模态信号感知环境不同,本方法利用rgb图像信息和激光雷达信息进行多模态特征融合感知环境,确保了自主移动机器人对未知环境的精确感知,可以保障适用更多复杂的实际场景。

53、3、由于设计了位置奖励函数、方向奖励函数、步幅奖励函数、避数奖励函数和到达目标奖励函数,指导自主移动机器人的学习。因此,本发明中提出的路径规划方法提高了自主运动机器人的策略学习效率。

54、4、本方法融合了近端策略优化算法(ppo)和好奇心机制(icm),有效解决了自主移动机器人探索环境中的稀疏奖励问题,加快了学习过程,有效的提高了规划效率与最优性。

本文地址:https://www.jishuxx.com/zhuanli/20240730/199362.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。