技术新讯 > 控制调节装置的制造及其应用技术 > 一种基于循环SAC的移动机器人分布式Leader-Follower编队方法  >  正文

一种基于循环SAC的移动机器人分布式Leader-Follower编队方法

  • 国知局
  • 2024-07-30 09:20:47

本发明属于智能控制领域,具体涉及一种基于深度强化学习的leader-follower编队控制。

背景技术:

0、技术背景

1、leader-follower编队中,领航者机器人沿着预定义的平滑轨迹在平面上移动,而追随者则必须保持相对于领航者的姿势。多移动机器人的分布式控制,特别是在编队控制方面,近年来引起了极大的关注。编队控制是移动机器人中一个基本的运动协调问题,其主要目的是跟踪群体轨迹,同时保持由相对位置、距离或角度定义的机器人期望间距。除此之外,相比于单机器人,多移动机器人协同系统在效率提升、可拓展性和鲁棒性方面都有较大的提升,在搜索、运输、救援和监控等各个领域都有广泛的应用。目前编队控制问题已经有了大量的研究,从智能体状态获取的角度考虑,编队控制分为基于位移和基于距离的方法。对于基于位移的控制,相邻智能体的状态是从全局坐标系中获得的。然而基于距离的控制是通过惯性策略单元、激光雷达、摄像头或其他机载传感器从本地坐标系获得。

2、然而在传统的编队控制方法中,通常需要手动设计模型和调整参数以适应不同的环境和任务。这种方法存在着一些局限性,比如模型可能无法完全准确地描述真实环境,参数调整可能需要大量的实验和专业知识,并且在面对复杂和动态的环境时,这些方法可能无法取得最优的性能。因此,我们提出了基于循环sac的自适应分布式leader-follower编队控制方法。其能够通过智能体与环境的交互学习最优策略,无需手动设计模型或者调整参数。并且能够更好地适应不确定的环境和任务,克服传统方法在模型和参数调整方面的劣势,从而实现更高效的编队控制。

技术实现思路

1、本发明针对技术背景中提到的问题,提出了一种新的循环sac分布式编队控制方法。通过该方法,我们成功地突破了传统模型对领航者完整状态的依赖,实现了无需手动设计模型和调整参数,仅凭借机器人之间的位置误差来实现编队控制的目标。我们构建了全新的循环-sac强化学习框架,以确保编队控制具备良好的瞬态和稳态特性,从而获得了出色的控制性能。此外,提出了剧集式记忆回放单元存储及采样方法,以及一种新颖的归一化奖励函数,使得循环sac强化学习编队框架能够快速收敛,并在各种任务中获得一致性的激励,更好地学习和适应不同场景下的编队任务要求。同时,通过对状态空间的归一化处理,我们有效地消除了不同形状编队任务之间的差异性,提高了模型的泛化能力。具体包括以下步骤:

2、(1)仿真环境构建,使用gazebo作为仿真环境,模拟环境中的静态物体,如基础设施、建筑物和移动物体,如车辆和行人。对于leader-follower编队任务,采用urdf文件在gazebo中生成跟随机器人和领航机器人,以保证它们在道路上运行。

3、(2)移动机器人运动增强设计,为了确保编队模型在不同情况下能够良好推广,在训练过程中,对领航者采用多种运动方式和多种运动速度。

4、(3)循环sac算法设计,循环sac算法利用整个剧集的信息作为输入,而非仅限于单步信息。在决策时,算法仍然以单步状态作为输入,但通过lstm的记忆细胞传递信息,探索每步状态之间的时间序列信息。在每个剧集的初始步骤中,对lstm的隐含状态(h)和细胞状态(c)进行初始化,确保lstm网络在每个新的剧集开始时都处于清晰状态,不受之前剧集的影响。在实践中,通常将lstm的隐含状态(h)和细胞状态(c)初始化为零向量或根据特定规则进行初始化,以确保网络在开始时处于适当状态,加速学习过程并提高算法性能。

5、(4)构建状态空间,将领航者机器人相对于跟随者机器人的位置和姿态作为状态空间。为了使跟随者能够在不依赖于固定的leader-follower间距且更有效地学习并优化策略。

6、(5)设计状态归一化映射函数,状态归一化映射函数将状态值映射到[0,1]之间,使智能体能够更好地理解与leader的相对位置,并且减少对绝对位置的依赖。该函数如公式1所示。

7、

8、其中,θlf,xlf,ylf分别是follower相对于leader的偏转角、x和y坐标;θe,xe,ye分别为期望的follower相对于leader的偏转角、x和y坐标;θmax,xmax,ymax分别为follower相对于leader的最大偏转角、x坐标和y坐标;θmin,xmin,ymin分别为follower相对于leader的最小偏转角、x坐标和y坐标。

9、(6)构建动作空间,在本研究中,我们定义了一个新的动作空间,涵盖了智能体(follower)在三个关键方向上的运动:x轴和y轴上的速度,以及z轴上的角速度。具体来说,精心设计了一种映射方式,将这些参数转换为[0,1]区间内的值。

10、(7)奖励函数设计,设计的奖励函数能够提供有效的反馈来评估跟随者的动作价值。定义了一个平行于地面的二维局部坐标系s,y轴从跟随者的左侧指向右侧,x轴垂直于y轴并指向跟随者的前部。坐标系原点位于跟随者中心。前车在坐标系s中的位置用(xlf,ylf)表示。奖励函数如公式2所示:

11、

12、其中,a是奖励整形信号,且a>0。是原始奖励信号。n是奖励平均常数,此处与奖励相关的变量有角度,x坐标和y坐标3项,故n=3;δθmax,δxmax,δymax分别是偏转角,x和y坐标的归一化常数

13、(8)构建强化学习网络框架,框架由两部分组成,包括时序特征提取器和决策器。

14、时间特征提取器由两个独立的lstm循环神经网络组成,将编码后的位姿信息作为时间特征提取器的输入。这些输入通过输入门、遗忘门和输出门,最终能够从leader-follower编队任务中提取到关键的时间特征。

15、决策器由两个部分组成,为由全连接层构成的actor网络和critic网络。actor网络的输入是时间特征提取器中的第一个lstm循环神经网络的输出,然而critic网络的输入为时间特征提取器中的第一个lstm循环神经网络的输出与编码后的动作的拼接。

16、(9)训练leader-follower编队网络,通过rostopic话题从gazebo环境中获得的领航者相对于跟随者的位姿信息,并进行归一化处理,输入强化学习网络,并输出动作和动作价值。仿真环境执行动作,并根据奖励函数反馈奖励。学习率设置为0.001,基于奖励值采用循环sac算法优化网络模型,记录每一步的奖励,绘制曲线,观察曲线收敛后保存网络模型参数。

17、(10)leader-follower编队,将领航者相对于跟随者的位姿信息进行状态归一化处理后,输入强化学习模型的actor网络,输出动作并进行反归一化后,跟随者执行动作,并反馈新的位姿信息,从而实现leader-follower编队。

18、进一步,移动机器人运动增强具体实现方式如下:

19、(1)多类型运动方式:将leader运动方式设置为直行、横移、斜行、旋转和混合5种运动模式。

20、(2)多种运动速度:对leader的运动速度进行了细致的分类,将其划分为x轴和y轴方向的平移速度,以及z轴方向的旋转速度。为了模拟更加真实的动态环境,我们分别设定了每个方向上的最大速度和最小速度限制。在实际运动过程中,leader的速度将在这些预定的最大值和最小值之间进行随机选择,以此来模拟不同的运动场景和条件。

21、(3)leader运动多样性:在每个实验周期(episode)中,首先从五种预设的运动模式中随机选择一种。接着,再从多样化的运动速度中随机生成速度值。这两阶段的随机选择流程确保了leader的运动具有高度的多样性和不可预测性,从而更好地模拟现实环境中的动态变化。

22、进一步,时间特征提取器由两对lstm循环神经网络模型构成。lstm模型为单层,隐藏特征和输入特征为128。在lstm之前采用全连接层进行状态编码,状态编码层和lstm层之间采用relu函数进行激活。

23、进一步,决策器由actor和critic网络组成,critic网络是由valuenetworkandsoftq-network两个网络构成,决策其都由全连接层组成,不共享相同的输入特征。critic网络用于逼近状态价值函数,而actor网络用于输出动作的策略分布,跟随者根据分布选择动作。

24、进一步,对于动作空间我们精心设计了一种映射方式,将动作空间参数转换为[0,1]区间内的值。这一转换由公式(3)完成。

25、

26、其中,action是映射后的动作空间,vx,vy,ωz分别是follower的x方向速度、y方向速度和z方向角速度,分别是follower的x方向、y方向和z方向最小的速度及角速度,分别是follower在x方向、y方向和z方向最大的速度及角速度。

27、根据本文中提出的技术方案,我们实现了稳定的leader-follower编队,其中跟随者将相对位姿作为输入并生成相应的控制信号作为输出。提出的循环sac方法擅长从位姿中提取和集成时空特征,通过定制的奖励函数和强化学习训练避免了手动设计模型或者调整参数。

本文地址:https://www.jishuxx.com/zhuanli/20240730/149117.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。