技术新讯 > 五金工具产品及配附件制造技术 > 一种基于深度强化学习的机械臂控制系统校准方法、存储装置和电子设备  >  正文

一种基于深度强化学习的机械臂控制系统校准方法、存储装置和电子设备

  • 国知局
  • 2024-07-08 10:48:05

本发明涉及机械臂控制,尤其涉及一种基于深度强化学习的机械臂控制系统校准方法、存储装置和电子设备。

背景技术:

1、目前,随着计算机领域的不断发展,机器学习算法在机械臂应用方面取得了重大进展。深度强化学习是人工智能领域的一个新的研究热点,具有广泛的应用前景。它以一种通用的形式将深度学习的感知能力与强化学习的决策能力相结合,并能够通过端对端的学习方式实现从原始输入到输出的直接控制。机械臂在现实中采集数据来训练更新网络,训练效果优于无模型算法,但训练成本过高,且会降低机械臂的使用寿命。因此深度强化学习方法在现实中应用通常是sim-to-real模式,即再仿真环境中训练机械臂,将训练结果反馈到现实中。

2、深度强化学习作为一种解决序列决策的学习方法,通过不断优化控制策略,能够建立一个对环境有高层次理解的自治系统,从而学得最最优策略。在深度强化学习中,训练好的模型仅适用于当前环境,如果环境做出改变,训练好的模型就需要重新训练。

3、迁移学习,作为一种新的学习范式,被提出用于解决这个问题。迁移学习其目的为将某个领域或任务上学习到的知识或模式应用到不同但相关的领域或问题中。主要思想为从相关领域中迁移标注数据或者知识结构、完成或改进目标领域或任务的学习效果。

4、综上,现有无模型的强化学习算法和有模型强化学习各自在机械臂训练过程中利用现实环境的机械臂训练成本过高,而在仿真环境中虽然练成本低但训练出来的模型很难在现实环境使用。

技术实现思路

1、本发明的目的是提供一种基于深度强化学习的机械臂控制系统校准方法、存储装置和电子设备,能够结合深度强化学习算法,将仿真环境与现实环境做比对,从而使仿真环境最大限度的接近现实环境,可以使在仿真环境中训练好的强化学习模型可以较容易地运用在现实环境中。

2、本发明采用的技术方案为:

3、一种基于深度强化学习的机械臂控制系统校准方法,包括以下步骤:

4、步骤1:根据现实环境中相机与机械臂的相对位置搭建仿真环境:根据机械臂的三维模型和三指夹爪的三维模型创建仿真环境,并在仿真环境中建立与仿真相机;

5、步骤2:通过相机采集多张现实系统中的目标物体背景单一的图像,并获取现实系统中物体的位姿信息;再通过现实相机的外部参数得到物体相对机械臂的位姿信息即物体在机械臂坐标系下的位姿信息;

6、步骤3:根据步骤2获取的物体位姿信息,将现实物体相对应的cad模型依次放置在仿真环境中,在仿真系统中生成相同位姿数据的仿真物体;

7、步骤4:采集仿真环境中相机的图像:通过仿真环境下相机视角依次拍摄与现实系统中相同张数的目标物体,得到多张仿真图像;

8、步骤5:采用步骤2.1采集到的现实图像与步骤4的仿真图像进行二值化处理并进行像素级对比;并通过移动仿真环境下相机来降低二者之间的误差,完成仿真环境校准;

9、步骤6:校准机械臂坐标系误差,即对机械臂的位置误差校准,具体的:步骤6.1:现实系统中拍摄多张机械臂末端在工作台不同位姿背景单一的真实图像;

10、步骤6.2:仿真系统中根据现实系统提供的参数摆放机械臂并拍摄相同张数的机械臂末端仿真图像;

11、步骤6.3:对步骤6.1与步骤6.2中所采集的真实图像与仿真图像进行二值化处理,并计算其像素级差距;训练强化学习的机械臂校准模型,通过移动仿真环境中机械臂来进行机械臂误差校准。

12、所述的步骤2中,物体在机械臂坐标系下的位姿信息过程具体包括如下

13、步骤:

14、步骤2.1:摆放多次物体,通过相机分别采集其现实环境中的不同位置物体的现实图像;

15、步骤2.2:通过基于形状匹配的位姿估计算法分别确定图像中物体的位置与姿态信息;

16、步骤2.3:通过相机外参将所得到的物体位姿转换为机械臂坐标系下的位姿。

17、所述的步骤5完成仿真环境的校准,即实现现实系统的相机与仿真系统中的相机位姿误差校准。具体包括如下步骤:

18、步骤5.1:对现实图像和仿真图像进行二值化处理,而后进行像素级对比;

19、步骤5.2:根据步骤5.1的对比结果设计相机校准模型的奖励函数与loss函数;

20、步骤5.3:通过移动仿真相机来降低loss值,直至收敛。

21、所述的步骤5.1具体包括如下步骤:

22、步骤5.1.1:设位姿总数为n,则对任意一个位姿下的现实图像与仿真图像相减,而后将位姿1下图像相减后产生的像素矩阵中元素值求和,得到误差l1;步骤5.1.2:重复步骤5.1.1,将剩余n-1个位姿下的现实图像与仿真图像均作相同处理,而后得到l2,l3,l4…ln;

23、步骤5.1.3:根据步骤5.1.1与步骤5.1.2可以得到相机坐标系误差δ相机坐标系误差=l1+l2+l3+...+ln。

24、所述的步骤5.2具体包括如下步骤:

25、步骤5.2.1:扩充经验池,设定前让仿真相机随机调整位姿,调整范围为仿真环境下工作台的范围;每调整一次位姿,重复采集一遍仿真图像并计算δ相机坐标系误差,而后将仿真相机的动作、状态、δ相机坐标系误差作为一组经验放入经验池;

26、步骤5.2.2:令相机校准模型的loss值与δ相机坐标系误差成正比,loss值为cδ相机坐标系误差,其中c>0,开始ddpg训练,每训练一次以降低loss值为准则调整模型中actor网络和critic网络中的参数直至收敛;相机矫正模型中奖励函数设定为与loss值相关的q值,将相机的姿态移转化成坐标,在相机四角设置四个关键点,以关键点的坐标表示相机姿态,动作设为相机四个角点的坐标。

27、所述的步骤6.3具体包括如下步骤:

28、步骤6.3.1:对现实图像和仿真图像进行二值化处理,而后进行像素级对比;其二值化后现实图像像素为xi,仿真图像像素值为xi',m为对比图像组总数。根据公式1.1得到像素级差别;

29、

30、步骤6.3.2:根据步骤6.3.1所得出的像素级对比结果设计强化学习的奖励函数,如公式(1.2)所示;

31、

32、步骤6.3.3:通过移动仿真环境中机械臂末端来降低loss值,直至收敛。

33、所述的步骤6.3.1具体包括如下步骤:

34、步骤6.3.1.1:设位姿的总数为m,则对任一个位姿下的现实图像与仿真图像相减,而后将位姿1下图像相减后产生的像素矩阵中元素值求和,得到误差k1;

35、步骤6.3.1.2:重复步骤6.1.1,将剩余m-1个位姿下的现实图像与仿真图像均作相同处理,而后得到k2,k3,k4,...,km,δ机械臂位姿误差=k1+k2+k3+...+km。

36、一种计算机可读存储介质,其上存储有计算机程序,所述的计算机程序被处理器执行时,使所述计算机可读存储介质所在设备执行如上所述的基于深度强化学习的机械臂控制系统校准方法。

37、一种电子设备,包括:存储器和处理器,所述存储器上存储有可在所述处理器上运行的程序,所述处理器执行所述程序时实现如上所述的基于深度强化学习的机械臂控制系统校准方法。

38、本发明通过对比现实环境中相机所拍摄图像与仿真环境中相机所拍摄图像进行比对,通过移动仿真环境下相机的位置使仿真环境无限接近现实环境,大大的降低了仿真环境下训练好的强化学习模型迁移至现实环境的难度。为利用强化学习实现机械臂抓取等任务用于与现实环境降低了训练成本。

本文地址:https://www.jishuxx.com/zhuanli/20240617/50287.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。