技术新讯 > 五金工具产品及配附件制造技术 > 基于约束性模型的深度强化学习机械臂运动规划方法、系统和存储介质  >  正文

基于约束性模型的深度强化学习机械臂运动规划方法、系统和存储介质

  • 国知局
  • 2024-07-08 10:44:31

本发明涉及机械臂控制,特别是涉及基于约束性模型的深度强化学习机械臂运动规划方法、系统和存储介质。

背景技术:

1、传统的机械臂运动规划方法通常基于预定义的轨迹或规则进行设计,这种方法能够通过简单的数学模型或者规则表达,具有简单易实现的优点。然而,这种往往缺乏适应性和灵活性。具体来说,首先,在动态任务下的局限性;由于预定义的轨迹或规则是固定的,无法适应动态任务的变化;当面临未知的障碍物、不确定的工件位置或动态的任务需求时,传统的机械臂运动规划方法无法做出及时的调整和适应。其次,在复杂环境下的局限性;在复杂的工作空间中,例如狭窄的空间、不规则形状的工件等情况下,传统的机械臂运动规划方法往往难以生成合适的运动轨迹。同时,由于缺乏对环境的感知和认知能力,这种方法容易导致碰撞、摩擦等问题,影响机械臂的安全性和运动效果。上述缺陷是本领域技术人员期待克服的。

技术实现思路

1、本发明的目的在于克服现有技术中的上述缺陷,本发明第一方面提供了一种基于约束性模型的深度强化学习机械臂运动规划方法。

2、基于本发明的第一方面,本发明的第二方面还提供了一种基于约束性模型的深度强化学习机械臂运动规划系统。

3、基于本发明的第一方面,本发明的第三方面还提供了一种计算机可读存储介质。

4、为了解决上述技术问题,本发明采用了如下技术方案:

5、第一方面,提供了基于约束性模型的深度强化学习机械臂运动规划方法,包括以下步骤:

6、步骤s1、采集初始的真实环境状态信息;基于深度强化学习算法,根据所述初始的真实环境状态信息采取策略,执行动作;采集执行动作后的真实环境状态信息,获得奖励信号;

7、步骤s2、将t个时间步中步骤s1的初始的真实环境状态信息、执行动作后的真实环境状态信息、动作信息以及奖励信号组成的一条轨迹存储于经验池中;

8、步骤s3、从步骤s2的经验池中抽取一批转移元组,构建并训练动力学环境模型;

9、步骤s4、机械臂与步骤s3的动力学环境模型进行交互,选择当前转移元组后的某一状态作为起始预测点,生成虚拟未来轨迹,用于加速探索;在虚拟未来轨迹上,满足约束条件的虚拟目标用于重新标记历史转移元组的期望目标;

10、步骤s5、将经步骤s4重新标记期望目标后的历史转移元组,用于更新步骤s1中所述深度强化学习算法的策略网络和价值网络;

11、所述步骤s1中的真实环境状态信息包括机械臂末端执行器的信息、被操作物体的信息以及期望目标的位置信息。

12、首先,所述学习机械臂运动规划方法能够充分利用已有的样本数据,提高样本利用率,更好地学习环境的动力学特性,从而提高机械臂的运动规划效果;能够加速对环境的探索,提高运动规划效率;使得机械臂能够更快地学习到有效的策略,提高训练速度。其次,所述述学习机械臂运动规划方法能够使机械臂在运动过程中遵守设置的约束条件,如避免碰撞或者保持物体稳定,有利于提高机械臂运动的稳定性与安全性。最后,所述学习机械臂运动规划方法还可以更快地收敛到最优解。

13、进一步地,所述机械臂末端执行器的信息包括机械臂末端执行器的坐标、角速度、线速度和夹爪打开状态;所述被操作物体的信息包括被操作物体的坐标、角速度和线速度;所述期望目标的位置信息为需要机械臂末端执行器或者被操作物体达到的三维坐标。

14、进一步地,所述步骤s1中采用的深度强化学习算法为ddpg(deep deterministicpolicy gradient)算法;将步骤s1中的真实环境状态信息输入ddpg算法中,输出机械臂末端执行器的坐标位移和夹爪的打开状态。有利于提高机械臂运动规划的准确性、稳定性和泛化能力。

15、进一步地,所述步骤s1中,通过计算机械臂末端执行器或者被操作物体的三维坐标与期望目标的三维坐标之间的距离是否小于阈值,从而获得奖励信号;奖励信号是稀疏和二进制的,当机械臂末端执行器或者被操作物体的三维坐标与期望目标的三维坐标之间的距离小于等于阈值时,返回奖励0;当机械臂末端执行器或者被操作物体的三维坐标与期望目标的三维坐标之间的距离大于阈值时,返回奖励-1。有利于深度强化学习算法更好地理解任务目标,从而能够更快地学习有效的运动策略;并且设置奖励信号为稀疏和二进制的形式,有效减少奖励信号的冗余性,使得奖励信号更加简洁明了,减少训练过程中噪声的干扰,加速学习过程。

16、进一步地,所述步骤s2中,经验池通过使用字典和长度为t的numpy数组来保存转移元组;经验池有一个字典属性buffers,其中包含了各个转移元组的numpy数组。该经验池能够高效存储和管理大量的转移元组;另外,通过设置字典属性buffers,还可以将不同转移元组按照不同的标识符进行存储,便于从经验池中获取或者重新标记特定的转移元组。

17、进一步地,所述步骤s3中,动力学环境模型采用多层感知机模型,该多层感知机模型由一层输入层,四层隐藏层和一层输出层组成;将真实环境状态信息和动作信息输入多层感知机模型,输出预测的环境状态信息;所述步骤s3中,从经验池中抽取的同一批转移元组对动力学环境模型进行两次训练。能够提高模型对状态变化的预测准确性,适用于复杂的运动规划任务;第一次训练使模型初步学习到数据的模式和特征,第二次训练则进一步优化模型参数,使得模型更好地适应各种运动规划场景,以增加模型的泛化能力;除此之外,两次训练模型,能够减小模型训练的误差,提高系统的稳定性和可靠性,同时也减少训练的计算成本。

18、进一步地,所述步骤s4中,机械臂与动力学环境模型进行交互的方法包括以下步骤:

19、步骤s41、选择当前时间步t的转移元组后的某一状态sk(t≤k≤t)作为预测起始环境状态s'k;

20、步骤s42、机械臂根据步骤s41中的预测起始环境状态s'k输出动作;

21、步骤s43、动力学环境模型根据步骤s41中的预测起始环境状态s'k以及步骤s42中机械臂输出的动作信息,输出预测的环境状态信息;

22、步骤s44、重复前三个步骤n次。

23、较佳的,所述步骤s4中,用于重新标记的虚拟目标φ(s'k+l)需要满足的约束条件为:

24、

25、

26、其中,0≤l≤n-1;φ(s)将状态s映射到已实现的目标gachieved;是目标φ(s'k+l+1)和φ(s'k+l)之间的距离。

27、第二方面,提供了基于约束性模型的深度强化学习机械臂运动规划系统,包括以下模块:

28、数据采集模块,用于采集初始的真实环境状态信息与执行动作后的真实环境状态信息;

29、深度强化学习算法模块,与所述数据采集模块连接,用于接收初始的真实环境状态信息并采取策略,得到动作信息;所述深度强化学习算法模块包括策略网络与价值网络;

30、机械臂控制模块,与所述深度强化学习算法模块连接,用于接收动作信息并控制机械臂执行动作;

31、构建模块,用于构建奖励函数、经验池以及动力学环境模型;具体的,基于奖励函数,根据数据采集模块得到的初始的真实环境状态信息与执行动作后的真实环境状态信息,得到奖励信号;将初始的真实环境状态信息、动作信息、以及奖励信号组成的一条轨迹存储于经验池中;从经验池中抽取一批转移元组,构建动力学环境模型;

32、训练模块,用于从经验池中抽取一批转移元组,训练动力学环境模型;用于将机械臂与动力学环境模型进行交互,选择当前转移元组后的某一状态作为起始预测点,生成虚拟未来轨迹;在虚拟未来轨迹上,满足约束条件的虚拟目标用于重新标记历史转移元组的期望目标;将重新标记期望目标后的历史转移元组,用于更新所述深度强化学习算法模块的策略网络与价值网络。

33、第三方面,提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,当所述计算机程序在计算机上运行时,使得该计算机执行上述第一方面中的方法。

34、与现有技术相比,本发明的有益效果如下:

35、本发明的一种基于约束性模型的深度强化学习机械臂运动规划方法,通过将t个时间步的真实环境状态信息、执行动作后的真实环境状态信息、动作信息和奖励信号存储到经验池中,并利用这些数据构建和训练动力学环境模型,使得该方法能够充分利用已有的样本数据,提高样本利用率,更好地学习环境的动力学特性,从而提高机械臂的运动规划效果;通过设置机械臂与动力学环境模型进行交互,选择当前转移元组后的某一状态作为起始预测点,生成虚拟未来轨迹;并将虚拟未来轨迹上,满足约束条件的虚拟目标重新标记历史转移元组的期望目标,一方面,使得该方法能够加速对环境的探索,提高运动规划效率;机械臂能够更快地学习到有效的策略,提高训练速度;另一方面,设置约束条件能够使机械臂在运动过程中遵守设置的约束条件,如避免碰撞或者保持物体稳定,有利于提高机械臂运动的稳定性与安全性。同时,通过将重新标记期望目标后的历史转移元组,用于更新深度强化学习算法的策略网络和价值网络,可以更快地收敛到最优解。所述基于约束性模型的深度强化学习机械臂运动规划方法能够适应动态任务的变化以及复杂的环境,具有灵活性。

本文地址:https://www.jishuxx.com/zhuanli/20240617/50037.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。