技术新讯 > 五金工具产品及配附件制造技术 > 一种基于改进DDPG算法的机械臂路径规划方法、设备和介质 > 正文

一种基于改进DDPG算法的机械臂路径规划方法、设备和介质

国知局
2024-12-06 12:35:54

本发明属于机械臂控制，尤其是涉及一种基于改进ddpg算法的机械臂路径规划方法、设备和介质。

背景技术：

1、在工业自动化和智能制造领域，机械臂的广泛应用要求其具备高效、准确的路径规划能力，以便在复杂多变的工作环境中完成任务。现有的机械臂路径规划方法多依赖于预定义的路径或复杂的传感器系统，这些方法在应对动态和不确定的环境时表现出局限性，难以适应复杂任务的需求。特别是在非结构化环境中，机械臂的路径规划面临诸多挑战，如工件位置的不确定性、工作空间的限制以及环境动态变化等。

2、现有的基于传感器的路径规划方法虽然能够提供实时环境信息，但传感器数据的高维度和噪声问题为路径规划带来了额外挑战。此外，传统的路径规划算法在处理连续动作空间时存在收敛速度慢、稳定性差等问题，导致机械臂在实际应用中的作业效率和可靠性受到影响。为了解决这些问题，研究人员提出了一些基于强化学习的机械臂路径规划方法，中国专利申请202310657299.7公开了一种基于深度强化学习的机械臂控制方法，设计基于深度确定性策略梯度(ddpg)的自适应伺服增益算法，通过深度强化学习来自适应调整控制器(smcc-ibvs)伺服增益，减少伺服误差，提高稳定性。ddpg算法通过结合深度学习和确定性策略梯度的优势，在一定程度上提高了机械臂在动态环境中的路径规划能力，然而，ddpg算法仍存在一定局限性，尤其是在稀疏奖励情况下，算法的学习效率和收敛速度受到较大影响。因此，需要重新设计一种机械臂路径规划方法，实现高效的机械臂控制。

技术实现思路

1、本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于改进ddpg算法的机械臂路径规划方法、设备和介质，以解决稀疏奖励问题，实现高效的机械臂路径规划。

2、本发明的目的可以通过以下技术方案来实现：

3、本发明提供一种基于改进ddpg算法的机械臂路径规划方法，包括以下步骤：

4、获取机械臂初始信息和目标点信息，输入训练好的机械臂路径规划模型，获得机械臂路径规划结果；

5、其中，所述机械臂路径规划模型包括机械臂状态空间、机械臂动作空间和奖励函数，所述机械臂状态空间包括机械臂末端的三维坐标、目标点的三维坐标和机械臂末端执行器的姿态角，所述机械臂动作空间包括机械臂末端的位移向量、机械臂末端执行器的转动姿态角和机械臂末端夹爪的开合状态；

6、所述机械臂路径规划模型通过引入her技术的改进ddpg算法进行训练，引入her技术的改进ddpg算法将达到或未达到目标点的机械臂状态标定为潜在目标状态，基于所述奖励函数和所述潜在目标状态计算奖励值。

7、进一步地，所述机械臂路径规划模型基于机械臂的动力学模型构建，机械臂的动力学模型基于机械臂的运动学模型构建。

8、进一步地，采用改进d-h法建立机械臂的运动学模型，具体过程如下：

9、在机械臂每根连杆的首端建立坐标系，通过d-h参数描述机械臂的每个关节和连杆的关系，建立机械臂的运动学模型，所述d-h参数包括连杆长度、扭转角、连杆偏移和关节角。

10、进一步地，采用逆向工程方法构建机械臂的动力学模型，具体过程如下：

11、基于机械臂的运动学模型，计算机械臂动力学数据，包括机械臂的惯性矩阵和重力矢量，构建符号回归矩阵，通过最小二乘法获得动态系数，建立正运动学方程，根据拉格朗日方程推导得到逆运动学方程，获得机械臂的动力学模型。

12、进一步地，引入her技术的改进ddpg算法包括actor网络、target actor网络、critic网络和target critic网络，通过引入her技术的改进ddpg算法训练所述机械臂路径规划模型的具体过程如下：

13、从所述机械臂状态空间中获取机械臂当前状态st，根据机械臂当前状态st，通过actor网络从所述机械臂动作空间中选取机械臂当前动作at，at＝μ(st|θμ)+nt，其中μ为actor网络，nt为噪声，θμ为actor网络的参数；

14、执行机械臂当前动作at，获得机械臂下一状态st+1，将机械臂下一状态st+1标定为潜在目标状态g，根据所述奖励函数和所述潜在目标状态g计算相应的奖励rt，将信息元组(st,at,rt,st+1,g)存储于经验池；

15、通过target actor网络计算机械臂下一状态st+1对应的机械臂动作μ′(si+1)，其中，μ′为target actor网络；

16、从经验池中随机抽取n组样本，通过target critic网络计算状态动作对(st+1,μ′(si+1))的目标q值yi，通过critic网络计算状态动作对(st,at)的q值q(si,ai|θq)，其中，q为critic网络，θq为critic网络的参数；

17、基于目标q值和q值构建损失函数l，使用梯度下降法更新actor网络的参数θμ和critic网络的参数θq；

18、采用软更新方式更新target actor网络的参数θμ′和target critic网络的参数θq′。进一步地，动作对(st+1,at+1)的目标q值yi的计算公式具体如下：

19、yi＝ri+γq′(si+1,μ′(si+1,θμ′)|θq′)

20、其中，γ为奖励的折扣因子，q′为target critic网络，θq′为target critic网络的参数。

21、进一步地，损失函数l的表达式具体如下：

22、

23、进一步地，采用软更新方式更新target actor网络的参数θμ′和target critic网络的参数θq′的具体过程如下：

24、θq′←τθq+(1-τ)θq′

25、θμ′←τθμ+(1-τ)θμ′

26、其中，τ为参数更新率。

27、本发明还提供一种电子设备，包括存储器、处理器，以及存储于所述存储器中的程序，所述处理器执行所述程序时实现上述方法。

28、本发明还提供一种计算机可读存储介质，其上存储有计算机程序，所述程序被处理器执行时实现上述方法。

29、与现有技术相比，本发明具有以下有益效果：

30、1、本发明提供一种基于改进ddpg算法的机械臂路径规划方法，将机械臂初始信息和目标点信息输入训练好的机械臂路径规划模型，获得机械臂路径规划结果，机械臂路径规划模型包括机械臂状态空间、机械臂动作空间和奖励函数，其中，机械臂状态空间包括机械臂末端的三维坐标、目标点的三维坐标和机械臂末端执行器的姿态角，机械臂动作空间包括机械臂末端的位移向量、机械臂末端执行器的转动姿态角和机械臂末端夹爪的开合状态，通过机械臂状态空间和机械臂动作空间可以准确描述机械臂的静态特性和动态能力，提高控制的精度和灵活性；机械臂路径规划模型通过引入her技术的改进ddpg算法进行训练，her技术是一种经验回放技术，引入her技术的改进ddpg算法将达到或未达到目标点的机械臂状态标定为潜在目标状态，基于奖励函数和潜在目标状态计算奖励值，可以充分利用已有的经验获得更多的训练样本，解决稀疏奖励问题，加快模型训练速度，增强算法的适应性和鲁棒性，实现高效的机械臂路径规划。

31、2、本发明采用改进d-h法建立机械臂的运动学模型，通过增加虚拟坐标系的方式，简化了对机械臂连杆间相对位置关系的描述，降低了建模的复杂度，适用于具有多个自由度的机械臂，简化了后续机械臂运动学方程的建立和求解过程。