技术新讯 > 控制调节装置的制造及其应用技术 > 一种基于GPT大模型的仓储物流机器人控制方法  >  正文

一种基于GPT大模型的仓储物流机器人控制方法

  • 国知局
  • 2024-07-31 23:42:35

本发明涉及机器人控制领域,具体涉及一种基于gpt大模型的仓储物流机器人控制方法。

背景技术:

1、随着人工智能的迅速发展,大型语言模型在工业领域的应用研究取得了长足的进展。

2、chatgpt的出现使得人工智能在通用自然语言任务的理解和生成能力上迈上了新的台阶。大量相关工作推动了llm大模型的发展,其理论和应用变得更加完善。在工业领域,通过充足的数据支持和应用实践,借助chatgpt的文字输入指令,可以快速提取关键信息,从而完成各种工业应用任务,避免复杂的程序指令。

3、但是,通常人工智能根据固有指令做出相应动作,若需要动作过程遵循较优的路径,则需要输入较为完整的详细指令,从而导致机器人动作控制过程效率较低。

技术实现思路

1、本发明要解决的技术问题是:现有的机器人控制过程效率较低。

2、为此,本发明提供一种基于gpt大模型的仓储物流机器人控制方法。

3、本发明解决其技术问题所采用的技术方案是:

4、一种基于gpt大模型的仓储物流机器人控制方法,包括以下步骤,

5、向yolo模型输入指令,yolo模型调取视觉传感器识别目标物,获取目标物位置信息形成新的指令;

6、将新的指令传递给分层式ddpg控制模型;

7、分层式ddpg控制模型中的底层控制器接收yolo模型的指令执行任务,根据任务初始点与目标点并控制顶层控制器输出多套路线及动作;

8、顶层控制器根据奖励函数计算各套动作的奖励值,并判断出最优动作;

9、机器人执行最优动作。

10、进一步地,向设置在机器人上位机中的gpt大模型中输入命令,所述gpt大模型将输入的命令进行自然语言处理(nlp)生成对应的计算机指令输入yolo模型。

11、进一步地,所述yolo模型形成新的指令后,对新的指令的准确性进行复核,若新的指令不准确,则重新进行自然语言处理(nlp),所述yolo模型重新生产新的命令。

12、进一步地,所述分层式ddpg控制模型包括顶层控制器、底层控制器,以及与顶层控制器对应的状态空间、动作空间、奖励函数,与底层控制器对应的状态空间、动作空间、奖励函数。

13、进一步地,所述底层控制器设置有四个,分别用于控制出发点导航、抓取控制、目标点导航、放置控制四个子任务,底层控制器的任务状态(=,,对应着底层控制器的数量)。

14、进一步地,所述顶层控制器采用长短时记忆网络(lstm),所述底层控制器神经网络使用深度竞争循环双q神经网络(d3rqn),即在深度竞争q神经网络的基础上将最后一层全连接(fc)层替换为长短时记忆(lstm)层。

15、进一步地,所述奖励函数用于对机器人每一次动作进行评价,所述激励函数=+,为出发点导航控制器的奖励函数,=,其中,任务状态函数,为距离奖励函数,,dis1为三维空间下的曼哈顿距离,为避障奖励函数;为抓取控制器的奖励函数,=,其中,为趋向初始点这个阶段任务所得的额外奖励,任务状态函数,为距离奖励函数,2,dis2为三维空间下的曼哈顿距离;为目标点导航控制器的奖励函数,=为机械臂完成抓取这个阶段任务完成任务所得的额外奖励,为距离奖励函数,3,dis3为三维空间下的曼哈顿距离;为放置控制器的奖励函数,=,其中,移动底盘趋向木匾的这个阶段任务完成任务所得的额外奖励,为距离奖励函数,,dis4为三维空间下的曼哈顿距离。

16、进一步地,当机器人完成任务、超出工作空间、发生碰撞或者步数计数达到最大回合步数时,任务结束,进行下一训练任务,循环训练至控制模型收敛,训练完成,即可将其应用于实际工作场景中。

17、进一步地,当机器人完成任务,当前任务的参数放入经验池中,经验池用于存放b={,,,, done},分别对应每一个回合下的每个时间步长t时对应的状态、动作、奖励、下个状态、是否完成回合,当经验数据达到所需的采样数目batch时,通过优先采样机制进行采样训练,若经验池处于饱和状态,则清除最先放入经验池的样本。

18、进一步地,每次任务训练完成后,使用优化器如adam 算法更新顶层控制器的神经网络参数、底层控制器的实时策略网络参数与实时评价网络参数,采用软更新方式更新目标策略网络和目标评价网络,具体如下:=+=+,其中,为实时策略网络参数,实时评价网络参数,为软更新中的一个超参数(常数),用于控制目标网络参数向当前网络参数逐渐靠近的速度。

19、本发明的有益效果是,本发明综合运用了yolo模型、分层式ddpg控制模型以及gpt大模型,在yolo模型与ddpg分层强化学习控制算法的基础上,借助gpt大模型,设计了一种使用自然语言控制的仓储物流机器人控制方法,实现物流任务。

20、本发明中的控制方法采用基于gpt模型的自然语言处理技术,机器人可以更好地与人类进行交互,接收指令、提供信息反馈,实现更直观、便捷的人机界面,而不需要专业的程序员进行设计与调试。gpt模型的强大语言理解和生成能力,机器人可以实现智能决策和学习,根据环境变化和任务需求不断调整策略,提升适应性和灵活性。

21、结合yolo模型的分层强化学习算法控制模型可以帮助机器人通过对环境的感知和预测在复杂的仓储环境中进行运动规划,考虑到各种因素如障碍物、货物位置、工作站等,从而实现更高效的运输路径,提高安全性,提高机器人动作控制效率。

技术特征:

1.一种基于gpt大模型的仓储物流机器人控制方法,其特征在于,包括以下步骤,

2.根据权利要求1所述的基于gpt大模型的仓储物流机器人控制方法,其特征在于,向设置在机器人上位机中的gpt大模型中输入命令,所述gpt大模型将输入的命令进行自然语言处理(nlp)生成对应的计算机指令输入yolo模型。

3.根据权利要求2所述的基于gpt大模型的仓储物流机器人控制方法,其特征在于,所述yolo模型形成新的指令后,对新的指令的准确性进行复核,若新的指令不准确,则重新进行自然语言处理(nlp),所述yolo模型重新生产新的命令。

4.根据权利要求1所述的基于gpt大模型的仓储物流机器人控制方法,其特征在于,所述分层式ddpg控制模型包括顶层控制器、底层控制器,以及与顶层控制器对应的状态空间、动作空间、奖励函数,与底层控制器对应的状态空间、动作空间、奖励函数。

5.根据权利要求4所述的基于gpt大模型的仓储物流机器人控制方法,其特征在于,所述底层控制器设置有四个,分别用于控制出发点导航、抓取控制、目标点导航、放置控制四个子任务,底层控制器的任务状态(=,,对应着底层控制器的数量)。

6.根据权利要求4所述的基于gpt大模型的仓储物流机器人控制方法,其特征在于,所述顶层控制器采用长短时记忆网络(lstm),所述底层控制器神经网络使用深度竞争循环双q神经网络(d3rqn),即在深度竞争q神经网络的基础上将最后一层全连接(fc)层替换为长短时记忆(lstm)层。

7.根据权利要求4所述的基于gpt大模型的仓储物流机器人控制方法,其特征在于,所述奖励函数用于对机器人每一次动作进行评价,所述激励函数=+,为出发点导航控制器的奖励函数,=,其中,任务状态函数,为距离奖励函数,,dis1为三维空间下的曼哈顿距离,为避障奖励函数;为抓取控制器的奖励函数,=,其中,为趋向初始点这个阶段任务所得的额外奖励,任务状态函数,为距离奖励函数,2,dis2为三维空间下的曼哈顿距离;为目标点导航控制器的奖励函数,=为机械臂完成抓取这个阶段任务完成任务所得的额外奖励,为距离奖励函数,3,dis3为三维空间下的曼哈顿距离;为放置控制器的奖励函数,=,其中,移动底盘趋向木匾的这个阶段任务完成任务所得的额外奖励,为距离奖励函数,,dis4为三维空间下的曼哈顿距离。

8.根据权利要求4所述的基于gpt大模型的仓储物流机器人控制方法,其特征在于,当机器人完成任务、超出工作空间、发生碰撞或者步数计数达到最大回合步数时,任务结束,进行下一训练任务,循环训练至控制模型收敛,训练完成,即可将其应用于实际工作场景中。

9.根据权利要求4所述的基于gpt大模型的仓储物流机器人控制方法,其特征在于,当机器人完成任务,当前任务的参数放入经验池中,经验池用于存放b={, , , ,done},分别对应每一个回合下的每个时间步长t时对应的状态、动作、奖励、下个状态、是否完成回合,当经验数据达到所需的采样数目batch时,通过优先采样机制进行采样训练,若经验池处于饱和状态,则清除最先放入经验池的样本。

10.根据权利要求4所述的基于gpt大模型的仓储物流机器人控制方法,其特征在于,每次任务训练完成后,使用优化器如adam 算法更新顶层控制器的神经网络参数、底层控制器的实时策略网络参数与实时评价网络参数,采用软更新方式更新目标策略网络和目标评价网络,具体如下:=+=+,其中,为实时策略网络参数,实时评价网络参数,为软更新中的一个超参数(常数),用于控制目标网络参数向当前网络参数逐渐靠近的速度。

技术总结本发明涉及机器人控制领域,具体涉及一种基于GPT大模型的仓储物流机器人控制方法,包括以下步骤,向YOLO模型输入指令,YOLO模型调取视觉传感器识别目标物,获取目标物位置信息形成新的指令;将新的指令传递给分层式DDPG控制模型;分层式DDPG控制模型中的底层控制器接收YOLO模型的指令执行任务,根据任务初始点与目标点并控制顶层控制器输出多套路线及动作;顶层控制器根据奖励函数计算各套动作的奖励值,并判断出最优动作;机器人执行最优动作。本申请综合运用了YOLO模型、分层式DDPG控制模型以及GPT大模型帮助机器人通过对环境的感知和预测在复杂的仓储环境中进行运动,并通过奖励函数判断选择最优动作,以提高机器人动作控制效率。技术研发人员:吴鹏,苏恒,刘腾飞,董昊,李旻,陈志豪受保护的技术使用者:常州大学技术研发日:技术公布日:2024/6/18

本文地址:https://www.jishuxx.com/zhuanli/20240730/198201.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。