技术新讯 > 五金工具产品及配附件制造技术 > 一种基于视觉大模型的机械臂控制方法、装置、设备及存储介质与流程  >  正文

一种基于视觉大模型的机械臂控制方法、装置、设备及存储介质与流程

  • 国知局
  • 2024-07-08 10:55:53

本发明实施例涉及具身智能,尤其涉及一种基于视觉大模型的机械臂控制方法、装置、设备及存储介质。

背景技术:

1、在具身智能中,机械臂在通用物体操作中需要在语言指令下理解三维空间中的物体并进行准确的动作选择。具体的,复杂的三维操作任务中机械臂需要理解工作空间的物理结构,例如物体的位置、姿态和形状,物体之间的阻挡关系,物体与环境的关系等,随后根据三维空间的环境信息来进行准确的机械臂动作建模。现有三维空间机械臂控制方法主要通过使用3d体素作为表征对空间信息进行建模,对人类专家数据进行模仿学习来学习动作策略,从而实现具身机械臂控制。然而由于3d体素表征的数据量随着空间大小呈现三次方的增长速度,这种方法需要消耗大量的计算资源,效率较为低下,使其难以广泛应用于大规模的具身数据集。

技术实现思路

1、本发明实施例提供一种基于视觉大模型的机械臂控制方法、装置、设备及存储介质,可以降低对三维空间机械臂控制的计算量,提高控制效率。

2、第一方面,本发明实施例提供了一种基于视觉大模型的机械臂控制方法,包括:

3、获取目标任务的描述文本及其多个视角的场景图像;

4、将所述目标任务的描述文本及其多个视角的场景图像输入动作预测模型,获得动作序列;其中,所述动作预测模型包括:视觉分割大模型、多视角注意力网络及动作预测网络;所述动作序列包括多个动作位姿信息;

5、基于所述动作序列控制机械臂以执行所述目标任务。

6、第二方面,本发明实施例还提供了一种基于视觉大模型的机械臂控制装置,包括:

7、场景图像获取模块,用于获取目标任务的描述文本及其多个视角的场景图像;

8、动作序列获取模块,用于将所述目标任务的描述文本及其多个视角的场景图像输入动作预测模型,获得动作序列;其中,所述动作预测模型包括:视觉分割大模型、多视角注意力网络及动作预测网络;所述动作序列包括多个动作位姿信息;

9、机械臂控制模块,用于基于所述动作序列控制机械臂以执行所述目标任务。

10、第三方面,本发明实施例还提供了一种电子设备,所述电子设备包括:

11、至少一个处理器;以及

12、与所述至少一个处理器通信连接的存储器;其中,

13、所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行本发明实施例所述的基于视觉大模型的机械臂控制方法。

14、第四方面,本发明实施例还提供了一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现本发明实施例所述的基于视觉大模型的机械臂控制方法。

15、本发明实施例公开了一种基于视觉大模型的机械臂控制方法、装置、设备及存储介质。获取目标任务的描述文本及其多个视角的场景图像;将目标任务的描述文本及其多个视角的场景图像输入动作预测模型,获得动作序列;其中,动作预测模型包括:视觉分割大模型、多视角注意力网络及动作预测网络;动作序列包括多个动作位姿信息;基于动作序列控制机械臂以执行目标任务。本发明实施例提供的基于视觉大模型的机械臂控制方法,通过包括视觉分割大模型、多视角注意力网络及动作预测网络的动作预测模型对目标任务的描述文本及其多个视角的场景图像进行处理,获得动作序列,以控制机械臂按照该动作序列执行目标任务,可以降低对三维空间机械臂控制的计算量,提高控制效率。

技术特征:

1.一种基于视觉大模型的机械臂控制方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,将所述目标任务的描述文本及其多个视角的场景图像输入动作预测模型,获得动作序列,包括:

3.根据权利要求2所述的方法,其特征在于,所述多视角注意力网络包括多模态预训练神经网络、单视角注意力模块及多视角注意力模块;将所述多个视角的图像特征与所述描述文本输入所述多视角注意力网络,输出视觉文本对齐特征,包括:

4.根据权利要求2所述的方法,其特征在于,将所述视觉文本对齐特征输入所述动作预测网络,获得动作序列,包括:

5.根据权利要求1所述的方法,其特征在于,所述视觉分割大模型包括预训练的图像分割大模型和新增网络结构,其中,所述新增网络结构基于所述预训练的图像分割大模型中的参数构建;所述视觉分割大模型基于设定微调算法对所述新增网络结构中的参数进行调整获得。

6.根据权利要求5所述的方法,其特征在于,所述动作预测模型的训练方式为:

7.根据权利要求6所述的方法,其特征在于,基于所述预测动作序列与所述真实动作序列对所述动作预测模型进行训练,包括:

8.一种基于视觉大模型的机械臂控制装置,其特征在于,包括:

9.一种电子设备,其特征在于,所述电子设备包括:

10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令用于使处理器执行时实现权利要求1-7中任一项所述的基于视觉大模型的机械臂控制方法。

技术总结本发明公开了一种基于视觉大模型的机械臂控制方法、装置、设备及存储介质。获取目标任务的描述文本及其多个视角的场景图像;将所述目标任务的描述文本及其多个视角的场景图像输入动作预测模型,获得动作序列;其中,所述动作预测模型包括:视觉分割大模型、多视角注意力网络及动作预测网络;所述动作序列包括多个动作位姿信息;基于所述动作序列控制机械臂以执行所述目标任务。本发明实施例提供的基于视觉大模型的机械臂控制方法,通过动作预测模型对目标任务的描述文本及其多个视角的场景图像进行处理,获得动作序列,以控制机械臂按照该动作序列执行目标任务,可以降低对三维空间机械臂控制的计算量,提高控制效率。技术研发人员:白辰甲,赵斌,张俊杰,李学龙受保护的技术使用者:上海人工智能创新中心技术研发日:技术公布日:2024/6/11

本文地址:https://www.jishuxx.com/zhuanli/20240617/51062.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。