基于多模态融合模仿学习的灵巧手自适应抓取方法
- 国知局
- 2024-10-21 15:27:56
本发明涉及灵巧手控制设计领域,尤其涉及一种基于多模态融合模仿学习的灵巧手自适应抓取方法。
背景技术:
1、仿人灵巧手具有极高的灵活性和类人结构特征,能够执行精细的操作,如工具处理和各种手部操作任务。在灵巧手所有接触丰富的任务中,可靠且通用的抓取任务仍未得到解决,尤其是在考虑到可变形物体的情况下。传统方法遇到了许多问题,如预测非结构化表面上的接触位置、非线性交互建模和手指抓取等,要获得确定性的解决方案具有挑战性。因此,强化学习和模仿学习方法在这一领域得到了广泛应用。
2、强化学习需要精心设计的奖励函数和与环境的广泛交互来提高性能。模仿学习需要收集大量的人类示范数据,并用这些数据训练模型。在这些方法中,物理仿真引擎被广泛使用。然而,在仿真环境中同时模拟灵巧手、可变形物体以及它们之间的非线性交互是非常困难的。当把在仿真环境中表现良好的策略移植到真实的机器人系统中时,仿真环境和真实环境之间的差异往往会导致性能大幅下降。与此同时,之前的一些工作(aloha、umi)已经验证了直接收集演示数据并训练机器人在真实世界中复制人类操作的可行性。
3、参照人类抓取行为的信息处理机制,人类在抓取前会用眼睛观察物体的位置、形状和大小,并根据已有知识估计其类型和硬度。在抓取过程中,人类会根据形变和触觉反馈调整手势。与人类的多模态感知和控制策略类似,灵巧手在操作过程中也需要整合来自多个来源的异构信息,以实现自适应控制。然而,有效融合异构模态数据仍面临巨大挑战。
技术实现思路
1、本发明的目的在于提供一种基于多模态融合模仿学习的灵巧手自适应抓取方法。
2、为实现上述发明目的,本发明提供一种基于多模态融合模仿学习的灵巧手自适应抓取方法,包括以下步骤:
3、s1.执行多模态数据的采集,并构建出多模态数据集;其中,所述多模态数据集包括:与灵巧手抓取动作相对应的视觉图像、手指关节扭矩和手指关节角度;
4、s2.基于所述多模态数据集构建用于控制灵巧手的自适应抓取模型;其中包括:
5、s21.对所述多模态数据集进行特征提取,以获得多组特征向量,其中,多组所述特征向量包括:与所述视觉图像相对应的第一特征向量,与所述手指关节扭矩相对应的第二特征向量,与所述手指关节角度相对应的第三特征向量;
6、s22.将属于连续状态的多组所述特征向量进行多模态融合,以获得连续状态的多模态特征;
7、s23.将连续状态的所述多模态特征输入多层感知器获取灵巧手自适应抓取动作输出,以及,对所述多模态数据集进行特征提取的特征提取神经网络,用于进行多模态融合的多模态融合网络和所述多层感知器构成自适应抓取模型;
8、s3.针对抓取目标,所述自适应抓取模型输出供所述灵巧手执行的动作指令以自适应抓取所述抓取目标。
9、根据本发明的一个方面,步骤s1中,执行多模态数据的采集,并构建出多模态数据集的步骤中,所述手指关节扭矩包括:小指弯曲扭矩、无名指弯曲扭矩、中指弯曲扭矩、食指弯曲扭矩、拇指弯曲扭矩和拇指摆动扭矩;
10、所述手指关节角度包括:小指弯曲角度、无名指弯曲角度、中指弯曲角度、食指弯曲角度、拇指弯曲角度和拇指摆动角度。
11、根据本发明的一个方面,步骤s21中,对所述多模态数据集进行特征提取,以获得多组特征向量的步骤中,所述特征向量为 d维特征向量。
12、根据本发明的一个方面,步骤s21中,对所述多模态数据集进行特征提取,以获得多组特征向量的步骤中,包括:
13、s211.获取连续时刻的所述视觉图像并对所述视觉图像进行时间位置编码,基于时间位置编码的所述视觉图像进行特征提取,以获得所述第一特征向量;
14、s212.获取连续时刻的所述手指关节扭矩,采用one-hot编码对所述手指关节扭矩进行空间关系的归一化,并对归一化的所述手指关节扭矩进行时间位置编码,以及基于双层多层感知器将空间关系归一化且时间位置编码后的所述手指关节扭矩进行特征提取,以获得所述第二特征向量;
15、s213.获取连续时刻的所述手指关节角度,采用one-hot编码对所述手指关节角度进行空间关系的归一化,并对归一化的所述手指关节角度进行时间位置编码,以及基于双层多层感知器将空间关系归一化且时间位置编码后的所述手指关节角度进行特征提取,以获得所述第三特征向量。
16、根据本发明的一个方面,步骤s211中,对所述视觉图像进行时间位置编码的步骤中,基于所述视觉图像的采集时间以用于对所述视觉图像进行时间编码,以及基于正弦和余弦位置编码方式对所述视觉图像进行位置编码;
17、步骤s212中,对归一化的所述手指关节扭矩进行时间位置编码的步骤中,基于所述手指关节扭矩的采集时间以用于对所述手指关节扭矩进行时间编码,以及基于正弦和余弦位置编码方式对所述手指关节扭矩进行位置编码;
18、步骤s213中,对归一化的所述手指关节角度进行时间位置编码的步骤中,基于所述手指关节角度的采集时间以用于对所述手指关节角度进行时间编码,以及基于正弦和余弦位置编码方式对所述手指关节角度进行位置编码。
19、根据本发明的一个方面,步骤s22中,将属于连续状态的多组所述特征向量进行多模态融合,以获得多模态特征的步骤中,用于多模态融合的模态融合网络采用多头注意力机制构成,以将多组连续状态的所述特征向量在所述多头注意力机制的控制下生成具有连续状态的多模态特征。
20、根据本发明的一个方面,所述多头注意力机制表示为:
21、;
22、;
23、;
24、其中,表示注意力头的查询,表示注意力头的键,表示注意力头的值,表示所述第一特征向量、所述第二特征向量和所述第三特征向量的拼接矩阵,,表示注意力头的数量,为注意力头的编号;表示修改注意力机制中单个注意力头的查询、键和值对应的线性变换矩阵,和分别表示输入特征的数量和维度,是一个参数矩阵,其参数在所述自适应抓取模型训练中迭代更新。
25、根据本发明的一个方面,基于所述连续状态的多模态特征经过多层感知器获取灵巧手自适应抓取动作输出,并以对所述多模态数据集进行特征提取的特征提取神经网络,用于进行多模态融合的多模态融合网络和所述多层感知器构成自适应抓取模型的步骤中,基于损失函数以引导所述自适应抓取模型的生成,其中,所述损失函数表示为:
26、;
27、;
28、其中,表示角度损失函数,表示扭矩损失函数,表示手指关节角度,表示预测出的手指关节角度,表示手指关节扭矩,表示预测出的手指关节扭矩,表示手指关节角度的调整阈值,表示手指关节扭矩的调整阈值。
29、根据本发明的一种方案,本发明提出的灵巧手自适应抓取算法以视觉、手指关节角度、手指关节扭矩三种模态数据为依据,相比现有灵巧手抓取算法具有更高的成功率、更强的物体类型适应性,为后续研发灵巧手抓取算法提供了重要指导。
30、根据本发明的一种方案,本发明的灵巧手自适应抓取算法参考了人类的抓取经验,以基于采集的多模态数据进行融合,有效的实现了对不同物体的准确抓握,尤其是对于较软的物体其能够尽量减少物体的变形,并同时保持对物体抓握的稳定可靠。
31、根据本发明的一种方案,本发明通过采用多模态数据的融合,可有效的捕捉视觉图像、手指关节角度和扭矩信息之间的复杂关系,增强复杂任务的表示能力,并且通过多头注意机制可在同一时间步,实现一种模态对另一种不同模态的补偿,以有效的保证对物体抓取的准确可靠。
本文地址:https://www.jishuxx.com/zhuanli/20241021/321621.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表