一种基于视触觉与注意力机制的机械臂抓取结果检测方法
- 国知局
- 2024-07-31 22:54:59
本发明涉及机器人智能抓取,特别涉及一种基于视触觉与注意力机制的机械臂抓取结果检测方法。
背景技术:
1、工业和服务机器人需要执行一系列抓取和复杂操纵任务,随着对这些机器人的需求日益增长,机器人操纵领域已引起广泛的关注。要提高机器人的一般抓取能力,准确高效的抓取状态评估是一个关键的部分。
2、得益于现有的计算机视觉成果,基于计算机视觉的环境感知技术得到了深入研究,研究人员在抓取滑移检测、材料识别等方面取得了大量优秀成果。在视觉感知驱动的场景中,由于环境感知的诸多限制,计算机视觉只能从单一视角获取有限的信息。这些信息主要包括完整的场景描述,而完整的场景描述往往会受到光线和目标材料变化引起的曝光和聚焦问题的影响。由于这些限制,纯视觉技术虽然可以提供解决方案,但在非结构化场景中,纯视觉方法的性能可能仍然不足。在光照条件远非理想,或发生意外障碍物遮挡目标,或需要与目标进行复杂交互的情况下,视觉等间接测量信息很可能不够充分,视觉输入中的复杂背景或操作细节缺失等问题常常导致任务失败。
3、相比之下,触觉传感信息通过与被操作物体直接接触来获取交互信息感知的信息更局部和细致。同样值得注意的是,在任务执行过程中,操作对象的不同姿态可能会产生类似的触觉信号,这可能会对具体的执行操作产生不利影响。鉴于视觉和触觉的不同特性,将视觉和触觉的优势结合起来进行感知是更为有效的方式。
4、但是现有技术中,传统的cnn结合lstm方法解决视觉-触觉信息的过程,通过cnn方式的特征提取方式难以从场景中获得细节的接触信息以及抓取对象的位姿准确信息;基于lstm的序列特征提取难以有效获得在序列中的多帧数据间的相对关系,而这对于提取完整流程的连续性和稳定性十分重要。虽然结合了注意力机制的方法进一步考虑了模态间的相关性,但是均为通过在输入的视觉和触觉信号特征上应用注意力机制,主要目标是实现对单模态内的特征更为有效的提取,但是此类的特征提取过程中忽略了视觉和触觉信息在模态间的相对重要性。同时对视觉-触觉系列输入的时空特征的提取方式仍有不足,现有技术中仅针对空间特征中的景深图像作为数据源进行分析,对抓取过程中时间维度包含的稳定性以及空间维度包含的抓取姿态信息的明确考虑,时空特征间的融合方式较少被作为重点进行研究。
技术实现思路
1、本发明的目的在于克服现有技术中所存在的难以获得抓取对象的位姿准确信息、忽略了视觉和触觉信息在模态间的相对重要性的问题,提供一种基于视触觉与注意力机制的机械臂抓取结果检测方法。
2、为了实现上述发明目的,本发明提供了以下技术方案:
3、一种基于视触觉与注意力机制的机械臂抓取结果检测方法,抓取结果判别模型根据机械臂抓取物品的视觉-触觉序列实时数据集,输出机器臂物品抓取结果信息,所述抓取结果判别模型的生成过程具体包括以下步骤:
4、s1、获取机械臂抓取物品的视觉-触觉序列初始数据集,对所述视觉-触觉序列初始数据集进行预处理和数据增强,再切分为训练集和测试集;
5、s2、将所述训练集输入特征提取模块,得到基于视觉信息的时空特征和基于触觉信息的时空特征并输入到双阶段融合模块,得到视觉-触觉融合特征,将所述视觉-触觉融合特征输入到抓取结果预测模块进行训练,得到抓取结果判别初始模型;
6、s3、重复步骤s2,判断训练次数是否达到训练次数阈值,若是则停止训练,得到多个所述抓取结果判别初始模型,将所述测试集输入到抓取结果判别初始模型,得到抓取结果判别中间模型,将准确度最高的抓取结果判别中间模型作为抓取结果判别模型。
7、作为本发明的优选方案,步骤s1中的预处理和数据增强过程具体为:根据预设的单个样本的数据长度,分别调整视觉-触觉序列初始数据集中视觉图像和触觉图像的尺寸,采用图像跨帧相减的方式分别对视觉图像和触觉图像进行预处理,并按照预设概率对图像翻转来进行数据增强。
8、作为本发明的优选方案,步骤s1中在进行数据增强时,对于同一个样本的数据,视觉图像和触觉图像的翻转方式保持一致,将处理好的视觉-触觉序列初始数据集,按照一定比例拆分为训练集、测试集和验证集,并为各个数据集构建数据列表和加载方式。
9、作为本发明的优选方案,步骤s2中特征提取模块基于注意力机制进行构建,包括时间特征编码器和空间特征编码器。
10、作为本发明的优选方案,所述时间特征编码器提取的基于视觉的时空特征包括来自视觉信息的时间特征编码和空间特征编码所述空间特征编码器提取的基于触觉的时空特征包括来自触觉信息的时间特征编码和空间特征编码
11、作为本发明的优选方案,视觉-触觉序列初始数据集输入的图像序列对具体表示为和其中xv和xh分别表示输入的视觉序列和触觉序列,n、h、w分别表示序列长度、图像高度以及图像宽度。
12、作为本发明的优选方案,所述空间特征编码器的运行过程如下:
13、s211、将视觉-触觉序列初始数据集的最后一帧数据作为模块输入,分块操作后获得单帧图像的空间分块;
14、s212、通过卷积网络和全连接层,对单帧图像的每个空间分块进行编码,获得单帧图像的特征编码;
15、s213、在单帧图像的特征编码上采用空间与通道注意力机制(spatial andchannel-wise attention,sca)对特征编码的不同子区域(对应不同的分块)的重要性进行评估,获得放缩后的分块特征,所述放缩后的分块特征由多层感知机进行特征投影后获得视觉信息和触觉信息的单模态的空间特征编码具体公式如下所示:
16、
17、其中,f为特征编码,pool为sca中使用的池化层,sig为sigmod激活层,用于获得对输入的各个部分的重要性得分,mlp为多层感知机。
18、作为本发明的优选方案,所述时间特征编码器的运行过程如下:
19、s221、对视觉-触觉序列初始数据集的每一帧的图像进行分块提取,获得单帧图像的时间分块;
20、s222、所述单帧图像的时间分块经过卷积层和全连接层,多个单帧图像组合形成多帧图像,所述多帧图像分别转换为一维的特征向量;
21、s223、根据所述一维的特征向量分别计算对应的查询向量、键向量和值向量,并对所得向量采用自注意力机制,得到视觉-触觉序列初始数据集内部的相关性信息,所述相关性信息与原始的输入信息相乘后,通过多层感知机的映射,获得视觉信息和触觉信息的时间特征编码。
22、作为本发明的优选方案,步骤s223中计算查询向量、键向量和值向量的过程具体为:一维的特征向量分别与独立查询向量矩阵wq、键向量矩阵wk和值向量矩阵wv相乘,获得对应的查询向量q、键向量k和值向量v,具体公式如下所示:
23、q=xwq,k=xwk,v=xwv
24、其中,x为一维的特征向量,将查询向量q和键向量k的点积计算获得对图像中不同位置的关注得分qkt,在对其放缩后与值向量v相乘,获得单一的注意力提取的关注得分attention(q,k,v);将注意力提取的关注得分与原始输入相乘后,通过多层感知机的映射,获得单模态的时间特征编码
25、作为本发明的优选方案,所述双阶段融合模块的融合过程包括跨模态融合阶段和跨时空融合阶段;来自视觉信息的时间特征编码和空间特征编码来自触觉信息的时间特征编码和空间特征编码先通过跨模态融合阶段进行初步融合,再经过跨时空融合阶段得到视觉-触觉融合特征。
26、作为本发明的优选方案,所述双阶段融合模块的跨模态融合阶段具体包括以下步骤:
27、s231、将基于视觉信息的时空特征和基于触觉信息的时空特征输入到模态门控网络中,获得对每个特征的重要性评估值,根据所述重要性评估值与原始的时空特征相乘后获得对应的权衡结果特征,具体公式如下所示:
28、fb=f⊙g(f)
29、其中,fb为权衡结果特征,f为特征编码,g(f)为特征的重要性评估值;
30、s232、将获得的权衡结果特征按照维度拼接融合后经过前馈神经网络,得到时间初步融合特征和空间初步融合特征,具体公式如下所示:
31、
32、
33、其中,ftime为时间初步融合特征,fspace为空间初步融合特征,mlp为多层感知机,g表示作用于模态特征上的门控网络。
34、作为本发明的优选方案,所述双阶段融合模块的跨时空融合阶段具体包括以下步骤:
35、s233、将时间初步融合特征和空间初步融合特征分别通过时空门控网络,再分别与本身相乘后获得放缩后的时间特征和放缩后的空间特征,具体公式如下所示:
36、f′time=ftime⊙g(ftime)
37、f′space=fspace⊙g(fspace)
38、其中,f′time为放缩后的时间特征,f′space为放缩后的空间特征,g为时空门控网络;
39、s234、所述放缩后的时间特征和放缩后的空间特征进行拼接,通过线性转换操作将拼接后的特征映射到低维的特征空间,得到视觉-触觉融合特征,公式如下所示:
40、ffused=concat(f′time,f′space)·wt+b
41、其中,ffused为视觉-触觉融合特征,wt为模型中执行线性映射的可学习参数,b为另一组用于提供偏移的可学习参数。
42、作为本发明的优选方案,所述抓取结果预测模块基于全连接神经网络(fullconnection network,fcn)进行构建,通过构建多层感知机将获得的视觉-触觉融合特征映射到决策的二维空间,判别当前回合机器臂的抓取是否是稳定的。
43、作为本发明的优选方案,所述抓取结果判别初始模型设有损失函数,所述损失函数具体为机器学习中的二分类任务交叉熵损失函数,同时设有梯度下降算法对损失函数进行优化,具体公式如下所示:
44、
45、其中,loss为交叉熵损失函数,y为分类的标签,为分类属于y标签的概率,同时设有梯度下降算法对损失函数进行优化,在计算一个完整回合后,在测试集上对抓取结果判别初始模型当前的准确度(accuracy)、精确率(precision)和召回率(recall)指标进行评估。
46、与现有技术相比,本发明的有益效果:
47、1.本发明在特征提取阶段明确区分了视觉信息的特征提取和触觉信息的特征提取,采用独立的参数,实现对视触觉中的不同特性特征进行提取,同时,在融合方式,本发明充分考虑了抓取过程中的持续性和抓取姿态的重要性,融合时采用了双阶段融合方式对不同来源的特征的重要性进行了自适应的调控,有效地增强了模型的适应性和抓取结果评估的准确度;
48、2.本发明在特征提取阶段采用注意力机制,能够更有效的提取到视觉-触觉序列初始数据集内、单帧图像各部分间的不同特征以及各自的重要性;并且注意力可视化结果显示本发明的特征提取方式能够很好的获取到抓取的位置、目标物体的姿态信息,以及输入序列内的连贯性;
49、3.本发明的实施例在数据处理阶段,不同于其他方法采用的相邻图像作差方法,本发明对输入的视觉图像和触觉图像采用跨帧相减的方式,拉大了窗口的长度,能够在特征预处理阶段更突出的显示出序列内部的差异,有效地增强了抓取结果判别模型在时间维度上的特征提取能力;
50、4.本发明对视觉信息和触觉信息的输入采用了平行的特征提取方式,同时获得了来自视觉-触觉、时间-空间的四维特征,通过两步融合的方式显式地分阶段融合模态信息和时空信息;同时在融合阶段引入门控网路,调控多输入的重要性评估,增强了模型的适应性。
本文地址:https://www.jishuxx.com/zhuanli/20240730/195301.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
上一篇
对话方法及相关产品与流程
下一篇
返回列表