技术新讯 > 五金工具产品及配附件制造技术 > 基于力控协调和深度强化学习的轴孔装配控制方法及系统 > 正文

基于力控协调和深度强化学习的轴孔装配控制方法及系统

国知局
2024-07-08 10:53:28

本发明属于机器人装配，尤其涉及基于力控协调和深度强化学习的轴孔装配控制方法及系统。

背景技术：

1、在机器人装配领域，目前的机器人装配技术仍存在装配精度不高、自适应能力差、智能化水平低等问题，传统的装配方法难以在高精度的装配(例如轴孔装配)零部件、装配工序上发挥作用。发明人发现，现有技术中机器人在进行轴孔装配时，仍然存在以下技术问题：

2、(1)在机器人进行高精度的轴孔装配过程中，装配过程中轴件所受力、力矩以及接触状态具有高度不确定性，直接影响了装配精度和成功率；

3、(2)装配过程中，轴件在位置或姿态上产生轻微的误差都可能使轴件所受力/力矩过大，从而导致装配任务失败，过大的力/力矩甚至会损坏轴件和机械臂零部件；

4、(3)强化学习算法利用经验回放机制从经验池中抽取经验样本来更新网络，经验池中的经验样本以相同概率被随机抽样，导致学习价值高的经验无法以较高的概率被反复抽取学习。

技术实现思路

1、为克服上述现有技术的不足，本发明提供了基于力控协调和深度强化学习的轴孔装配控制方法及系统，在机器人运动控制中引入pd力控制器，将pd力控制器的计算输出融入深度强化学习策略网络的动作输出，根据受力情况实时修正机器人运动轨迹，从而减小轴件在装配过程所受力/力矩，提高装配速度；此外，在drl算法中融入了优先经验回放机制，提高了算法利用样本数据的效率，进一步加快了轴孔装配策略收敛过程。

2、为实现上述目的，本发明的一个或多个实施例提供了如下技术方案：

3、本发明第一方面提供了基于力控协调和深度强化学习的轴孔装配控制方法。

4、基于力控协调和深度强化学习的轴孔装配控制方法，包括以下步骤：

5、将机器人对齿轮轴孔的装配过程分为搜孔和插孔两阶段，分别进行马尔可夫过程描述，完成整体建模；

6、引入深度强化学习算法和pd力控制器，融合深度强化学习网络的输出和pd力控制器的输出共同控制机器人动作，使轴和齿轮之间以设定期望力相接触或者轴以设定期望力插入齿轮孔中，控制轴件跟随轨迹点运动，对深度强化学习网络进行训练，得到训练好的深度强化学习网络，并完成机器人对轴孔的装配。

7、本发明第二方面提供了基于力控协调和深度强化学习的轴孔装配控制系统。

8、基于力控协调和深度强化学习的轴孔装配控制系统，包括：

9、建模模块，被配置为：将机器人对齿轮轴孔的装配过程分为搜孔和插孔两阶段，分别进行马尔可夫过程描述，完成整体建模；

10、共同控制与训练模块，被配置为：引入深度强化学习算法和pd力控制器，融合深度强化学习网络的输出和pd力控制器的输出共同控制机器人动作，使轴和齿轮之间以设定期望力相接触或者轴以设定期望力插入齿轮孔中，控制轴件跟随轨迹点运动，对深度强化学习网络进行训练，得到训练好的深度强化学习网络，并完成机器人对轴孔的装配。

11、本发明第三方面提供了计算机可读存储介质，其上存储有程序，该程序被处理器执行时实现如本发明第一方面所述的基于力控协调和深度强化学习的轴孔装配控制方法中的步骤。

12、本发明第四方面提供了电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的程序，所述处理器执行所述程序时实现如本发明第一方面所述的基于力控协调和深度强化学习的轴孔装配控制方法中的步骤。

13、以上一个或多个技术方案存在以下有益效果：

14、(1)本发明利用针对连续动作空间控制的双延时深度确定性策略梯度(td3)算法，在无需建立模型的情况下，可以通过探索的方式训练机器人学习最优装配策略，提高了机器人的自主学习能力，并且能够在轴孔间隙为0.3mm的高精度装配场景下完成装配任务；

15、(2)根据装配过程的不同特征，将轴孔装配任务分解为搜孔和插孔两个阶段，并对搜孔和插孔两阶段分别进行马尔可夫过程描述，设计了不同的状态空间、动作空间以及引导性奖励函数。首先进行搜孔任务训练，加载训练完成的搜孔模型，在完成搜孔任务后进行插孔训练，通过这种方式加速了轴孔装配的速度并提高了装配成功率；

16、(3)基于优先经验回放机制的td3算法，在装配策略训练的过程中，给机器人与环境交互的每一条经验赋予优先级，学习价值高的经验优先级高，在算法抽样更新网络时，优先级高的经验被抽取的概率大，从而提高了训练的效率；

17、(4)在轴孔装配过程中，引入pd力控制器，通过融合td3算法策略网络的输出和pd力控制器的输出控制机器人运动，从而优化机器人的装配轨迹。当轴件所受力大于期望力时，pd力控制器根据当前受力和期望力之间的关系输出减小轴件向下插入的位移量，从而减小装配过程中轴件所受力；当轴件所受力小于期望力时，pd力控制器输出增加轴件向下插入的位移量，达到加速装配过程的效果。

18、本发明附加方面的优点将在下面的描述中部分给出，部分将从下面的描述中变得明显，或通过本发明的实践了解到。

技术特征：

1.基于力控协调和深度强化学习的轴孔装配控制方法，其特征在于，包括以下步骤：

2.如权利要求1所述的基于力控协调和深度强化学习的轴孔装配控制方法，其特征在于，在搜孔阶段：

3.如权利要求1所述的基于力控协调和深度强化学习的轴孔装配控制方法，其特征在于，在插孔阶段：

4.如权利要求2所述的基于力控协调和深度强化学习的轴孔装配控制方法，其特征在于，搜孔阶段的奖励函数为：

5.如权利要求3所述的基于力控协调和深度强化学习的轴孔装配控制方法，其特征在于，插孔阶段的奖励函数为：

6.如权利要求1所述的基于力控协调和深度强化学习的轴孔装配控制方法，其特征在于：

7.如权利要求6所述的基于力控协调和深度强化学习的轴孔装配控制方法，其特征在于：

8.基于力控协调和深度强化学习的轴孔装配控制系统，其特征在于：包括：

9.计算机可读存储介质，其上存储有程序，其特征在于，该程序被处理器执行时实现如权利要求1-7任一项所述的基于力控协调和深度强化学习的轴孔装配控制方法中的步骤。

10.电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的程序，其特征在于，所述处理器执行所述程序时实现如权利要求1-7任一项所述的基于力控协调和深度强化学习的轴孔装配控制方法中的步骤。

技术总结本发明提出基于力控协调和深度强化学习的轴孔装配控制方法及系统，涉及机器人装配技术领域。包括将机器人对齿轮轴孔的装配过程分为搜孔和插孔两阶段，分别进行马尔可夫过程描述，完成整体建模；引入深度强化学习算法和PD力控制器，融合深度强化学习网络的输出和PD力控制器的输出共同控制机器人动作，使轴和齿轮之间以设定期望力相接触或者轴以设定期望力插入齿轮孔中，控制轴件跟随轨迹点运动，对深度强化学习网络进行训练，并完成机器人对轴孔的装配。本发明将PD力控制器的计算输出融入深度强化学习策略网络的动作输出，减小轴件在装配过程所受力/力矩，并融入了优先经验回放机制，加快轴孔装配策略收敛过程。技术研发人员：宋勇,屠鹏,许庆阳,袁宪锋,刘萍萍,刘冰,田容雨,李贻斌受保护的技术使用者：山东大学技术研发日：技术公布日：2024/6/11