一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于深度学习的工程机械工作装置位姿估计方法与流程

2022-03-08 22:36:37 来源:中国专利 TAG:


1.本发明涉及工程机械控制技术领域,尤其涉及一种基于深度学习的工程机械工作装置位姿估计方法。


背景技术:

2.随着基础设施建设和矿山采掘行业的快速发展,挖掘机、装载机等工程机械在施工现场中担任的角色越来越重要,但是在复杂、恶劣的工作环境中的频繁使用带来了巨大的安全风险,由工程机械引发的安全事故不在少数。工程机械的自动化和智能化施工来代替作业人员操作施工是解决这一问题最理想的方案,实现工程机械的自动化和智能化,必须以工作装置的位姿估计技术为前提,因此,施工现场中工程机械的位姿估计方法极为重要。
3.传统的工程机械工作装置位姿估计方法大多采用接触式的位移传感器和电子罗盘等设备对挖掘机等工程机械的工作装置位姿进行估计,这些技术的优点是精度高,但成本相对较高,恶劣环境下测量不可靠,且在工作状态下会与施工目标存在不可避免的碰撞,最终导致传感器损坏,可靠性较差。
4.视觉估计作为一种非接触式的估计方法,具有设备价格低廉、操作简便和估计精度高的优点。近年来,随着计算机视觉技术的迅速发展,利用其对工程机械工作装置进行识别,逐渐走入人们视野。目前,国内外利用计算机视觉对工程机械工作装置的位姿估计的方法可概括为两种,一种方法是采用激光雷达或深度相机得到的点云信息来获取位姿,通过三维重建等技术来实现高精度的估计。但是此方法数据量大,处理过程冗杂,因此动态响应较慢。另一种方法是首先对工程机械工作装置关节点进行标志化处理,然后利用相机拍摄获取工程机械工作装置图像,经图像处理计算出关节点的像素坐标,最终经正运动学运算推断出工程机械工作装置的位姿。这种方法数据量小,但易受施工环境影响,导致可靠性较差。近年来,随着深度学习的不断发展,利用计算机视觉算法来实现工程机械工作装置的位姿估计成为可能。如何针对现有研究存在的问题提出一个工程机械工作装机位姿估计的方法,为工程机械工作装置的位姿估计提供一个自动化、智能化的解决方案,是一个亟待解决的问题。


技术实现要素:

5.本发明针对现有工程机械工作装置位姿估计成本高、数据量大、动态响应差和易受施工环境影响等问题,提出了一种基于深度学习的工程机械工作装置位姿估计方法,实现了施工现场工程机械工作装置位姿的高效准确估计。
6.根据申请的第一方面,提供了一种基于深度学习的工程机械工作装置位姿估计方法,具体包括以下步骤:
7.步骤s101,训练语义分割子网络,得到语义分割模型,训练位姿估计子网络,得到位姿估计模型;
8.步骤s102,获取工作装置彩色图;
9.步骤s103、将所述工作装置彩色图输入到所述语义分割模型,得到语义分割结果;
10.步骤s104,将所述语义分割结果与所述工作装置彩色图进行图像掩膜处理;
11.步骤s105,将图像掩膜处理结果输入到所述位姿估计模型得到所述工作装置属具工作点的位置和姿态。
12.步骤s101中训练所述语义分割子网络所用到的语义分割数据集的样本数据包括在不同施工环境下不同位姿的同一型号的工程机械工作装置的彩色图片以及所对应的语义分割标注,所述语义分割标注具体为工程机械工作装置和背景两个类别的标注。
13.步骤s101中训练所述位姿估计子网络所用到的位姿估计数据集样本数据包含不同位姿工作装置的无背景彩色图以及所对应的位姿估计标签数据,所述位姿估计标签数据具体为工程机械工作装置属具中心点所对应的位置和姿态信息。
14.步骤s102中获取所述工作装置彩色图的相机固定安装在工程机械上。
15.步骤s103中所述语义分割结果为仅包含工作装置与背景两个类别且与所述工作装置彩色图尺寸大小相同的二值图。
16.步骤s104中所述图像掩膜处理,其输入为步骤s103所述语义分割结果和步骤s102所述的工作装置彩色图,其输出为仅包含工作装置的无背景彩色图,所述工作装置的无背景彩色图具体为所述彩色图中除工作装置所在像素外,其他像素颜色相同的彩色图。
17.步骤s105中所述将所述图像掩膜处理结果输入到所述位姿估计模型得到所述工作装置属具工作点的位置和姿态,包括:输入为仅包含工程机械工作装置的无背景彩色图,即图像掩膜处理结果;输出为工作装置属具中心点的位置和姿态信息。
18.以上所述工程机械工作装置属具包括但不限于铲斗、吊钩、桩锤、夯板、破碎锤和松土器。
19.本发明具有以下优点和有益效果:
20.(1)工程机械在实际工作中,施工环境复杂,光线等因素都要考虑;本方法采用语义分割能有效地去除变化的施工环境对工作装置位姿估计的影响,提高了工程机械工作装置位姿估计的准确性和鲁棒性;
21.(2)相机具有非接触测量的优势,可以避免因接触导致传感器失效的问题,保证了位姿估计的有效性和稳定性;
22.(3)采用基于深度学习的工程机械工作装置位姿估计方法较采用传统计算机视觉进行工程机械工作装置位姿估计方法可省去特征选取和提取的步骤以及由此带来的误差,有着更强大的物体识别能力,提高了工程机械工作装置位姿估计的精度;
23.(4)本方法基于普通相机,成本低、操作简单,整个估计过程均为自动化处理,显著降低了估计过程的人工参与度。
24.应当理解,本部分所描述的内容并非旨在标识本技术的实施例的关键或重要特征,也不用于限制本技术的范围。本技术的其他特征将通过以下的说明书而变得更加容易理解。
附图说明
25.本技术上述以及其他的特征、性质和优点将通过下面结合附图和实施例的描述变
得更加明显,在附图中相同的附图标记始终表示相同的特征,附图不构成对本技术的限定。其中:
26.图1为本技术实施例基于深度学习的工程机械工作装置位姿估计方法的流程框图;
27.图2为本技术实施例基于深度学习的工程机械工作装置位姿估计方法的流程示意图;
28.图3为本技术实施例语义分割网络结构示意图;
29.图4为本技术实施例姿态估计网络结构示意图;
30.图5为本技术实施例相机安装示意图;
31.图6为本技术实施例的工程机械工作装置示意图;
32.图7为本技术实施例语义分割效果示意图;
33.图8为本技术实施例图像掩膜处理效果示意图。
具体实施方式
34.以下结合附图对本技术的实施例做出说明,其中包括本技术实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本技术的范围和精神。为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
35.参阅图1,基于深度学习的工程机械工作装置的位姿估计方法流程框图包括:
36.步骤s101,训练语义分割子网络,得到语义分割模型,训练位姿估计子网络,得到位姿估计模型;
37.步骤s102,获取工作装置彩色图;
38.步骤s103,将所述工作装置彩色图输入到所述语义分割模型,得到语义分割结果;
39.步骤s104,将所述语义分割结果与所述工作装置彩色图进行图像掩膜处理;
40.步骤s105,将图像掩膜处理结果输入到所述位姿估计模型得到所述工作装置属具工作点的位置和姿态。
41.步骤s101中可选地,利用基于deeplabv3 卷积神经网络训练生成的图像语义分割模型对步骤s102中所述工程机械工作装置彩色图进行图像语义分割。所述基于deeplabv3 卷积神经网络参阅图3,主干网络选择卷积神经网络。deeplabv3 是目前最新的语义分割网络之一,它采用具有多尺度的卷积层以及编码器-解码器结构相结合的方式提高分割准确率。deeplabv3 是在deeplabv3的基础上增加了一个解码器模块,其中卷积操作采用的是空洞卷积。编码器-解码器网络包含:逐步减少特征图并提取更高语义信息的编码器模块和逐步恢复空间信息的解码器模块。deeplabv3 使用deeplabv3作为编码器模块,并添加一个简单且有效的解码器模块来获得更清晰的分割。步骤s102中所述工程机械工作装置彩色图作为网络的输入,在编码器部分,输入图像首先被送入含有空洞卷积的卷积神经网络模块中来提取图像特征,得到高级语义特征和低级语义特征。高级语义特征进入到空洞金字塔池化模块,分别与四个空洞卷积层和一个池化层进行卷积和池化,捕获该特征的空间信息,得到五个特征图并进行特征融合,然后进行1*1的卷积运算进行通道压缩。在解码器部分,首先对提取得到的多尺度特征信息进行4倍双线性插值上采样,得到高级语义特征图。通过在
深度卷积网络层卷积神经网络模块中找到一个与高级语义特征图分辨率相同的低级语义特征图,并经过1*1卷积进行降通道数使之与高级语义特征图所占通道比重一样,便于模型学习。然后低级语义特征图和高级语义特征图进行特征融合得到新的特征图,再通过一个3*3的卷积进行细化和4倍双线性插值进行上采样,得到仅包含目标与背景两个类别的二值图即步骤s103所述语义分割结果。
42.步骤s101中,可选地,利用基于p-resnet卷积神经网络训练生成的位姿估计模型对s104中所述经图像掩膜处理后的图像进行位姿估计。所述p-resnet是通过对resnet网络结构进行适当的微调,得到的一种新的用于位姿估计的端到端的回归网络,其结构参阅图4,在网络隐藏层的设计中,包含了卷积层、池化层与全连接层,共35层的网络,借鉴了resnet中提出的残差结构。传统卷积网络和全连接网络会存在信息丢失和损耗,同时还易导致梯度消失、梯度爆炸。利用残差结构,通过直接将输入信息绕道传到输出,以保护信息的完整性。参阅图4中虚线框,残差结构的主分支是由两层3x3的卷积层组成,而残差结构右侧的连接线是短连接分支。如果输入与输出的维度不匹配,需要进行虚线框中虚线所示的残差结构,在短连接分支上通过1x1的卷积核进行降维处理。在最后一个残差结构的最后要接一个平均池化层,得到2048维的特征,再经过两个全连接层来实现末端位姿数据的回归。为防止模型过拟合,对最后的两个全连接层进行了正则化。网络隐藏层的激活函数选用relu函数,以保证x>0时保持梯度不衰减,从而缓解梯度消失问题。神经网络的输出为6维的张量(x,y,z,roll,pitch,yaw)。考虑到输入样本标签数据归一化到0和1之间,本技术实施例选择sigmoid函数作为神经网络最后一层的激活函数,sigmoid函数可以将网络的输出限制在(0,1)之间,其计算公式见公式(1)
[0043][0044]
式中:x为输入数据。
[0045]
本技术实施例选择adam优化算法通过计算梯度的一阶矩估计和二阶矩估计,为不同的参数设计独立的自适应性学习率来最小化损失函数,设置初始学习率为0.001。隐藏层和输出节点的权重用随机数初始化,以最小化初始值的影响。损失函数采用适用于回归问题的均方差损失函数。均方差损失函数是目标变量与预测值之间距离平方之和,其计算公式为:
[0046][0047]
式中:n为样本个数,yi代表第i个样本图像中机械臂末端的真实位姿,y
p
代表第i个样本图像中机械臂位姿预测值,mse代表均方差损失函数。
[0048]
步骤s102中,获取所述工程机械工作装置彩色图的相机固定安装在工程机械上,安装位置可参考图5,其中1为工程机械工作装置,2为工程机械,3为相机。
[0049]
步骤s104中,所述图像掩膜处理,可选地,通过opencv开源计算机视觉库实现,得到仅包含工程机械工作装置的无背景图像作为位姿估计网络的输入图像。其中,所述掩膜为步骤s103所述语义分割结果,所述待处理图像为步骤s102所述工程机械工作装置彩色图。
[0050]
以上描述了本技术实施例的多种实施方式,以下基于具体的例子详细描述本技术
实施例的具体实现过程。
[0051]
图6示意性的给出了工程机械工作装置彩色图像,图7示意性的给出了图像语义分割处理后的结果,图8示意性的给出了图像掩膜处理后得到仅包含工程机械工作装置的无背景图像。
[0052]
在应用本技术实施例之前,应首先对类似于图6的工程机械工作装置彩色图进行语义级别的标注,包括对工程机械工作装置和环境进行两个类别的标注,作为工程机械工作装置语义分割训练集训练卷积神经网络(例如deeplabv3 卷积神经网络),可得到工程机械工作装置语义分割模型。将经图像掩膜处理之后类似于图8的图像和对应的位姿作为工程机械工作装置位姿估计训练集训练p-resnet卷积神经网络可得到工程机械工作装置位姿估计模型,所述对应位姿包括空间位置坐标和欧拉角,可通过传感器获得。
[0053]
上述训练后的语义分割模型和位姿估计模型以及安装在工程机械上的相机和处理器用于实现本技术实施例基于深度学习的挖掘机工作装置位姿估计方法,以下进行具体描述。
[0054]
参阅图5,为了拍摄所需图像,可在挖掘机驾驶室内固定安装相机。
[0055]
将所拍摄的工程机械工作装置彩色图像输入语义分割模型,检测施工背景和工程机械工作装置,将工程机械工作装置分割出来。
[0056]
分割之后,将所拍摄的彩色图像和分割结果进行图像掩膜处理,得到仅包含工程机械工作装置的无背景图像。
[0057]
最后,将经图像掩膜处理之后的图像输入到位姿估计网络进行位姿估计,得到工程机械工作装置属具中心点的位置和姿态。
[0058]
以上通过以挖掘机为实施例在不同角度描述了本技术实施例的具体设置方法和实现方式。上述具体实施方式,并不构成对本技术保护范围的限制。本领域技术人员应该明白的是,根据设计要求和其他因素,可以进行各种修改、组合、子组合和替代。任何在本技术的精神和原则之内所做的修改、等同替换和改进等,均应包含在本技术保护范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献