技术新讯 > 五金工具产品及配附件制造技术 > 基于视觉语言大模型的机器人操纵方法 > 正文

基于视觉语言大模型的机器人操纵方法

国知局
2024-09-05 14:34:45

本发明涉及人工智能和具身智能领域，具体涉及基于视觉语言等多模态信息利用大语言模型算法来支撑多任务机器人操纵的方法。

背景技术：

1、随着社会经济的不断发展以及人工智能浪潮在中国的蓬勃兴起，具身智能概念近期受到人工智能领域研究者广泛关注，近期全球几大人工智能公司相继推出大模型，例如openai发布的gpt-4，以及metaai发布的sam，这些大模型都有极强的语义理解能力，也让以往的“internetai”在当今算力资源条件下几乎达到了性能顶峰。具身智能希望机器人在与环境产生交互后，通过自身的学习产生对于客观世界理解能力，从而实现真正意义上的智能。近些年来，具身智能下属子任务被不断开发，如视觉语言导航、视觉语言问答等。在此研究基础之上，人们开始将目光转向通过人类指令操纵物体的子任务上。这类子任务被称为基于视觉语言的信息的机器人操纵任务，即操作者提出语言指令，机器人理解指令及视觉环境，完成相关操纵任务，可以广泛应用于工业生产、日常家居等多种场景。

2、尽管基于视觉语言的信息的机器人操纵任务与人类生产生活息息相关，但相关领域的研究仍处于起步阶段，完成基于视觉语言信息的机器人操纵任务还存在诸多困难。首先是抽象指令的理解，如何让智能体理解抽象指令并分解为具体子指令是一大难点；其次，智能体很难判断长期任务的执行进度，智能体执行任务中常常停滞在任务某一阶段，无法判断任务完成进度从而无法继续推进；最后，当前的一些算法泛化性能较差，难以在新场景、新指令中达到较高成功率。

技术实现思路

1、本发明的目的是为了解决现有机器人理解指令及视觉环境后执行的操纵任务完成准确率低的问题，而提出基于视觉语言大模型的机器人操纵方法。

2、基于视觉语言大模型的机器人操纵方法具体过程为：

3、步骤一、将语言指令文本和深度相机捕获的rgbd图像输入视觉语言大模型；

4、视觉语言大模型的pc机输出三维位置坐标、三维旋转位姿和机械爪的开闭状态；

5、步骤二、视觉语言大模型机械臂上jetson nano端通过ros接收三维位置坐标、三维旋转位姿和机械爪的开闭状态；

6、步骤三、视觉语言大模型机械臂上jetson nano端利用kdl库对接收到的三维位置坐标、三维旋转位姿和机械爪的开闭状态信息进行逆运动学解算，将解算后所得的各关节角度输入舵机，对舵机进行pid控制完成机械臂的动作。

7、优选地，所述视觉语言大模型包括pc机和深度相机；

8、所述pc机分别连接dofbot六自由度机械臂和深度相机；

9、所述dofbot六自由度机械臂拥有6个舵机，每个舵机的旋转角度为0°至180°；

10、6个舵机采用串联级连的连接方式，一个总线舵机的输出轴连接至下一舵机的输入轴；

11、所述dofbot六自由度机械臂内封装舵机控制函数，利用主控板运行python程序向舵机控制函数输入各舵机角度用于控制各舵机，利用主控板运行python程序读取各舵机位置信息；

12、所述dofbot六自由度机械臂上主控板采用jetson nano开发板，dofbot六自由度机械臂上装有多个usb接口以连接深度相机；

13、所述pc机与dofbot六自由度机械臂之间采用ros系统进行通信，pc机作为ros的上位机。

14、优选地，所述深度相机选用奥比中光公司生产的astra pro相机，使用深度相机前首先采用张氏标定法对深度相机进行标定，来获取深度相机坐标系与世界坐标系关系。

15、优选地，所述pc机为带有ubuntu 18.04系统的pc机。

16、优选地，所述步骤一中将语言指令文本和深度相机捕获的rgbd图像输入视觉语言大模型；

17、视觉语言大模型的pc机输出三维位置坐标、三维旋转位姿和机械爪的开闭状态；

18、具体过程为：

19、步骤一一、获得额外具体部件信息；

20、步骤一二、获得具体部件所在位置信息；

21、步骤一三、将语言指令文本和额外具体部件信息输入clip语言编码器获得语言特征向量；

22、将rgbd图像和具体部件所在位置信息通过三维卷积视觉编码器提取体素块特征；

23、将得到的语言特征向量以及体素块特征输入perceiver transformer算法模型中进行特征融合，得到融合结果；

24、融合结果分别输入三个多层感知机，三个多层感知机分别得到三维位置坐标信息、旋转位姿信息，以及机械爪的开闭状态信息；

25、将三维位置坐标信息、旋转位姿信息，以及机械爪的开闭状态信息输入三维体素编码器进行编码，输出编码后的机械臂末端三维位置坐标信息，机械臂末端的三维旋转位姿信息和机械臂末端机械爪的开闭状态信息；

26、将语言大模型的pc机输出的编码后的机械臂末端三维位置坐标信息、机械臂末端的三维旋转位姿信息，以及机械臂末端机械爪的开闭状态信息通过ros通信输送给视觉语言大模型机械臂上jetson nano端，控制机械臂完成相应动作。

27、优选地，所述步骤一一中获得额外具体部件信息；具体过程为：

28、将语言指令文本输入视觉语言大模型，利用nlkt库提取语言指令文本中的物体相关名词，按照模板的形式将物体相关名词输入到预训练语言模型gpt-4中，将预训练语言模型gpt-4输出物体部件信息作为额外具体部件信息。

29、优选地，所述步骤一二中获得具体部件所在位置信息；具体过程为：

30、基于sam预训练语义分割模型将rgbd图像切割成n个部分，将切割得到的n块信息逐块输入到clip视觉编码器，clip视觉编码器输出特征向量；

31、同时将额外具体部件信息中第一个信息输入到clip语言编码器，clip语言编码器输出特征向量；n取值为正整数；

32、计算clip视觉编码器输出特征向量和clip语言编码器输出特征向量之间的相似度，取相似度最高的区域作为具体部件所在位置信息。

33、本发明的有益效果为：

34、本发明机器人根据操作者所提的语言指令和深度相机获取的视觉环境包括物体颜色、位置等信息，对视觉模态和语言模态进行特征提取，并通过perceiver transformer作为算法进行视觉语言多模态特征融合。根据所提取到的特征，完成相关操纵任务。同时，基于先验知识提升模型泛化能力，使机器人即使面对完全未知的任务和物体时，也可以获取操纵物体的基本信息和对应物体部件位置方位，以方便完成操纵任务。

技术特征：

1.基于视觉语言大模型的机器人操纵方法，其特征在于：所述方法具体过程为：

2.根据权利要求1所述的基于视觉语言大模型的机器人操纵方法，其特征在于：所述视觉语言大模型包括pc机和深度相机；

3.根据权利要求2所述的基于视觉语言大模型的机器人操纵方法，其特征在于：所述深度相机选用奥比中光公司生产的astra pro相机，使用深度相机前首先采用张氏标定法对深度相机进行标定，来获取深度相机坐标系与世界坐标系关系。

4.根据权利要求3所述的基于视觉语言大模型的机器人操纵方法，其特征在于：所述pc机为带有ubuntu 18.04系统的pc机。

5.根据权利要求4所述的基于视觉语言大模型的机器人操纵方法，其特征在于：所述步骤一中将语言指令文本和深度相机捕获的rgbd图像输入视觉语言大模型；

6.根据权利要求5所述的基于视觉语言大模型的机器人操纵方法，其特征在于：所述步骤一一中获得额外具体部件信息；具体过程为：

7.根据权利要求6所述的基于视觉语言大模型的机器人操纵方法，其特征在于：所述步骤一二中获得具体部件所在位置信息；具体过程为：

技术总结基于视觉语言大模型的机器人操纵方法，本发明涉及人工智能和具身智能领域，具体涉及基于视觉语言大模型的机器人操纵方法。本发明的目的是为了解决现有机器人理解指令及视觉环境后执行的操纵任务完成准确率低的问题。过程为：将语言指令文本和深度相机捕获的RGBD图像输入视觉语言大模型；视觉语言大模型的PC机输出三维位置坐标、三维旋转位姿和机械爪的开闭状态；视觉语言大模型机械臂上Jetson Nano端通过ROS接收三维位置坐标、三维旋转位姿和机械爪的开闭状态；对接收到的三维位置坐标、三维旋转位姿和机械爪的开闭状态信息进行逆运动学解算，将解算后的各关节角度输入舵机，对舵机进行PID控制完成机械臂的动作。技术研发人员：高亚斌,尚瀚军,陈艺翔,匡冀源,齐弼卿,刘健行,孙光辉,吴立刚受保护的技术使用者：哈尔滨工业大学技术研发日：技术公布日：2024/9/2