一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种物体位姿检测方法及装置与流程

2022-03-09 06:16:27 来源:中国专利 TAG:


1.本技术涉及图像处理技术领域,尤其涉及一种物体位姿检测方法及装置。


背景技术:

2.随着深度学习算法的发展,越来越多的位姿估计方法利用神经网络的强大学习能力来提升位姿检测的精度。这些位姿检测方法运用于工件等物体检测,提高了流水线生产的效率和算法的可靠性,极大地提升实际生产效能。
3.然而,现有技术的位姿检测方法受实际环境影响较大,特别是在遮挡环境下,会存在位姿检测准确度大幅度降低的技术问题。


技术实现要素:

4.本技术提供了一种物体位姿检测方法及装置,用于解决现有技术的位姿检测方法在遮挡环境下准确度低的技术问题。
5.本技术第一方面提供了一种物体位姿检测方法,包括:
6.获取包含待检测的目标物体的观察图像;
7.基于所述观察图像,通过二值掩码分割处理,得到所述目标物体的二值轮廓分割图;
8.将所述二值轮廓分割图作为resnet网络模型的输入量,通过所述resnet网络模型的运算,确定所述目标物体的关键点信息、边缘向量信息以及图像像素对称对应关系信息;
9.基于所述关键点信息、所述边缘向量信息以及所述图像像素对称对应关系信息,通过仿射空间位姿换算方式以及epnp算法,得到所述目标物体的初始位姿参数。
10.优选地,得到所述目标物体的初始位姿参数之后还包括:
11.基于所述目标物体的标准三维模型,结合所述初始位姿参数,构建所述目标物体的渲染图像;
12.对所述渲染图像与所述观察图像进行特征比较,确定所述初始位姿参数与实际位姿参数的位姿参数偏差值,以便基于所述初始位姿参数与所述位姿参数偏差值,确定所述目标物体的实际位姿参数。
13.优选地,对所述渲染图像与所述观察图像进行特征比较,确定所述初始位姿参数与实际位姿参数的位姿参数偏差值具体包括:
14.将所述渲染图像与所述观察图像作为flownetsimple网络模型的输入量,通过所述flownetsimple网络模型以及点匹配损失函数对所述渲染图像与所述观察图像进行特征比较运算,以确定所述初始位姿参数与实际位姿参数的位姿参数偏差值。
15.优选地,所述点匹配损失函数具体为:
[0016][0017]
式中,x代表图像中的像素点,n为像素点的数量,p代表所述渲染图像,代表所述
观察图像,r代表所述渲染图像中目标物体的位姿旋转分量,代表所述观察图像中目标物体的位姿旋转分量,t代表所述渲染图像中目标物体的位姿平移分量,代表所述观察图像中目标物体的位姿平移分量。
[0018]
优选地,获取包含待检测的目标物体的观察图像之后,且基于所述观察图像,通过二值掩码分割处理,得到所述目标物体的二值轮廓分割图之前还包括:
[0019]
基于所述观察图像中包含的目标物体,从所述观察图像中分割出所述目标物体的图像,以便基于分割得到的图像,通过二值掩码分割处理,得到所述目标物体的二值轮廓分割图。
[0020]
本技术第二方面提供了一种物体位姿检测装置,包括:
[0021]
观察图像获取单元,用于获取包含待检测的目标物体的观察图像;
[0022]
二值分割处理单元,用于基于所述观察图像,通过二值掩码分割处理,得到所述目标物体的二值轮廓分割图;
[0023]
目标物体信息确定单元,用于将所述二值轮廓分割图作为resnet网络模型的输入量,通过所述resnet网络模型的运算,确定所述目标物体的关键点信息、边缘向量信息以及图像像素对称对应关系信息;
[0024]
初始位姿计算单元,用于基于所述关键点信息、所述边缘向量信息以及所述图像像素对称对应关系信息,通过仿射空间位姿换算方式以及epnp算法,得到所述目标物体的初始位姿参数。
[0025]
优选地,之后还包括:
[0026]
物体渲染图像构建单元,用于基于所述目标物体的标准三维模型,结合所述初始位姿参数,构建所述目标物体的渲染图像;
[0027]
实际位姿参数确定单元,用于对所述渲染图像与所述观察图像进行特征比较,确定所述初始位姿参数与实际位姿参数的位姿参数偏差值,以便基于所述初始位姿参数与所述位姿参数偏差值,确定所述目标物体的实际位姿参数。
[0028]
优选地,实际位姿参数确定单元具体用于:
[0029]
将所述渲染图像与所述观察图像作为flownetsimple网络模型的输入量,通过所述flownetsimple网络模型以及点匹配损失函数对所述渲染图像与所述观察图像进行特征比较运算,以确定所述初始位姿参数与实际位姿参数的位姿参数偏差值。
[0030]
优选地,所述点匹配损失函数具体为:
[0031][0032]
式中,x代表图像中的像素点,n为像素点的数量,p代表所述渲染图像,代表所述观察图像,r代表所述渲染图像中目标物体的位姿旋转分量,代表所述观察图像中目标物体的位姿旋转分量,t代表所述渲染图像中目标物体的位姿平移分量,代表所述观察图像中目标物体的位姿平移分量。
[0033]
优选地,还包括:
[0034]
目标物体图像分割单元,用于基于所述观察图像中包含的目标物体,从所述观察图像中分割出所述目标物体的图像,以便基于分割得到的图像,通过二值掩码分割处理,得
到所述目标物体的二值轮廓分割图。
[0035]
从以上技术方案可以看出,本技术实施例具有以下优点:
[0036]
本技术基于目标物体的观察图像处理后得到的二值轮廓分割图,将二值轮廓分割图作为resnet网络模型的输入量,通过resnet网络模型的运算,确定目标物体的关键点信息、边缘向量信息以及图像像素对称对应关系信息;基于关键点信息、边缘向量信息以及图像像素对称对应关系信息,通过仿射空间位姿换算方式以及epnp算法进行运算,得到目标物体的初始位姿参数。当目标物体部分被遮挡的情况下也能够检测出位姿参数,解决了现有技术的位姿检测方法在遮挡环境下准确度低的技术问题,为机器人的工件物体抓取任务提供信息,进而提升流水线的生产效率。
附图说明
[0037]
为了更清楚地说明本技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其它的附图。
[0038]
图1为本技术提供的一种物体位姿检测方法的一个实施例的流程示意图。
[0039]
图2为本技术提供的一种物体位姿检测方法的第二个实施例的流程示意图。
[0040]
图3为本技术提供的一种物体位姿检测装置的一个实施例的结构示意图。
具体实施方式
[0041]
本技术实施例提供了一种物体位姿检测方法及装置,用于解决现有技术的位姿检测方法在遮挡环境下准确度低的技术问题。
[0042]
为使得本技术的发明目的、特征、优点能够更加的明显和易懂,下面将结合本技术实施例中的附图,对本技术实施例中的技术方案进行清楚、完整地描述,显然,下面所描述的实施例仅仅是本技术一部分实施例,而非全部的实施例。基于本技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其它实施例,都属于本技术保护的范围。
[0043]
请参阅图1,本技术第一个实施例提供了一种物体位姿检测方法,包括:
[0044]
步骤101、获取包含待检测的目标物体的观察图像。
[0045]
步骤102、基于观察图像,通过二值掩码分割处理,得到目标物体的二值轮廓分割图。
[0046]
需要说明的是,本实施例的二值轮廓分割图图像具体为基于图像采集设备采集的rgb图像,通过二值掩码分割处理转换成二值图像后,提取其中目标物体的轮廓特征形成的,只存在有目标物体的轮廓。
[0047]
步骤103、将二值轮廓分割图作为resnet网络模型的输入量,通过resnet网络模型的运算,确定目标物体的关键点信息、边缘向量信息以及图像像素对称对应关系信息。
[0048]
基于步骤102获得的二值轮廓分割图,将该图像作为预先训练好的resnet网络模型的输入量,通过resnet网络模型的运算,确定目标物体的关键点信息、边缘向量信息以及图像像素对称对应关系信息。
[0049]
更具体地,由预先训练的resnet网络获取目标物体对称关系信息、目标物体边缘向量和目标物体关键点信息。具体地,使用smooth l1损失来训练resnet网络,resnet网络以大小为(3,h,w)的rgb图像i为输入,输出大小为(c,h,w)的张量,其中(h,w)为图像分辨率,c=1 2|k| 2|ε| 2为输出张量中的通道数。用于预测一组关键点k={pk},一组关键点之间的边缘向量ε={ve},一组图像像素之间的对称对应关系s={(q
s,1
,q
s,2
)}。
[0050]
需要说明的是:
[0051][0052]
其中,|ε|为边缘向量的数量,|k|为关键点的数量。
[0053]
同时,输出张量中的第一个通道是二进制分割掩码m。如果m(x,y)=1,则(x,y)对应于输入图像i中感兴趣对象上的像素。使用交叉熵损失来训练分割掩码。
[0054]
输出张量中的2|k|通道给出所有|k|关键点的x和y分量。关键点使用现成的预测网络pvnet,pvnet是最先进的基于关键点的姿态估计器,采用投票方案来预测可见和不可见的关键点。关键点使用最远点采样算法计算,本发明实施例取|k|=8个关键点。
[0055]
输出张量中的2|ε|通道给出了所有|ε|边的x和y分量,一般将其表示为边。边缘向量由预定义图形的边缘向量组成,明确地模拟每对关键点之间的位移。利用相邻关键点之间定义的语义边缘向量。这种表示捕捉关键点之间的相关性并揭示对象的底层结构,简洁且易于预测。
[0056]
输出张量的最后两个通道定义了对称对应的x和y分量。这种对称对应的双通道“映射”称为sym。设(x,y)为输入图像中感兴趣对象上的一个像素,即m(x,y)=1。假设δx=sym(0,x,y)和δy=sym(1,x,y),本发明认为(x,y)和(x δx,y δy)相对于反射对称面是对称的。对称对应关系由反映底层反射对称性的预测像素对称对应组成。其中对称对应扩展了flownet 2.0的网络架构,该架构结合了密集的像素化流和pvnet预测的语义掩码。产生的对称对应由掩模区域内的预测像素方向的流动给出。与关键点和边缘向量相比,对象上的每个图像像素都有一个对称对应,因此,对称对应的数量明显更大,这为被遮挡的对象提供了丰富的约束。即使具有较大的异常值比率,对称对应仍然为估计反射对称平面提供了足够的约束,以正则化基础姿态。
[0057]
需要说明的是,本发明的网络定义训练损失函数为:
[0058][0059]
步骤104、基于关键点信息、边缘向量信息以及图像像素对称对应关系信息,通过仿射空间位姿换算方式以及epnp算法,得到目标物体的初始位姿参数。
[0060]
需要说明的是,在具体实现中,将预测的三种元素{k,ε,s}作为输入,并为输入工件图像i输出工件的6d对象的初始姿态pose(0):(ri∈so(3),ti∈r3)。本发明将标准坐标系中的3d关键点坐标表示为1≤k≤|k|。将预测的关键点、边缘向量和对称对应分别表示为pk∈r2,1≤k≤|k|,ve∈r2,1≤e≤|ε|和(q
s,1
∈r2,q
s,2
∈r2),1≤s≤|s|。其中公式还分别使用了pk,ve,q
s,1
和q
s,2
的齐次坐标和
[0061]
利用(ri,ti)和预测元素之间的约束,并在仿射空间中求解(ri,ti),然后以交替优
化的方式将其投影到se(3)。为此,本发明将每种类型的预测元素引入以下差分向量:
[0062][0063][0064][0065]
其中es和et是边e的端点,是正则系统中反射对称平面的法线。
[0066]
通过组合来自预测元素的这三个约束,生成ax=0形式的线性系统,其中a是矩阵,且矩阵a维数是(3|k| 3|ε| |s|)
×
12。是包含仿射空间中旋转和平移参数的向量。
[0067]
根据epnp,将x计算为:
[0068][0069]
其中vi是a的最小右奇异向量。理想情况下,当预测元素无噪声时,n=1且x=v1是最优解。然而,这种策略在嘈杂的预测中表现不佳。同epnp,选择n=4。为了计算最优x,优化潜在变量γi和旋转矩阵r,这是一个具有以下目标函数的交替优化过程:
[0070][0071]
其中ri∈r3×3是由vi的前9个元素重塑而来。优化后,再次应用奇异值分解将投影到so(3)的空间上,即r
init
=udiag(1,1,1)v
t
并在r
init
=u∑v
t
处强制使det(r
init
)>0。利用ax=0,相应的平移t
init
是:
[0072][0073]
其中a1=a
[:,1:9]
,a2=a
[:,10:12]
,由r
init
重塑而来。最终将得到工件的初始位姿pose(0):(r
init
,t
init
)。
[0074]
本技术基于目标物体的观察图像处理后得到的二值轮廓分割图,将二值轮廓分割图作为resnet网络模型的输入量,通过resnet网络模型的运算,确定目标物体的关键点信息、边缘向量信息以及图像像素对称对应关系信息;基于关键点信息、边缘向量信息以及图像像素对称对应关系信息,通过仿射空间位姿换算方式以及epnp算法进行运算,得到目标物体的初始位姿参数。当目标物体部分被遮挡的情况下也能够检测出位姿参数,解决了现有技术的位姿检测方法在遮挡环境下准确度低的技术问题。
[0075]
以上内容便是本技术提供的一种物体位姿检测方法第一个实施例的详细说明,下面内容为本技术提供的一种物体位姿检测方法的另一个实施例的详细说明。
[0076]
请参阅图2,本技术第二个实施例提供的一种物体位姿检测方法,在上一个实施例的基础上,还进一步包括:
[0077]
进一步地,得到目标物体的初始位姿参数之后还包括:
[0078]
步骤105、基于目标物体的标准三维模型,结合初始位姿参数,构建目标物体的渲染图像;
[0079]
步骤106、对渲染图像与观察图像进行特征比较,确定初始位姿参数与实际位姿参数的位姿参数偏差值,以便基于初始位姿参数与位姿参数偏差值,确定目标物体的实际位姿参数。
[0080]
进一步地,对渲染图像与观察图像进行特征比较,确定初始位姿参数与实际位姿参数的位姿参数偏差值具体包括:
[0081]
将渲染图像与观察图像作为flownetsimple网络模型的输入量,通过flownetsimple网络模型以及点匹配损失函数对渲染图像与观察图像进行特征比较运算,以确定初始位姿参数与实际位姿参数的位姿参数偏差值。
[0082]
在具体实现中,在得到工件的初始位姿pose(0)之后,就需要对工件的姿态进一步细化,因此,提出了深度迭代匹配的姿态细化方法。使用flownetsimple架构作为主干网络,该网络被训练来预测两幅图像之间的光流。姿态估计分支将来自flownetsimple的10个卷积层后的特征图作为输入。它包含两个完全连接的层,每个层的维数为256,后面是两个额外的完全连接的层,分别用于预测3d旋转和3d平移的四元数。
[0083]
给定对象的初始姿态pose(0),连同对象的3d模型,生成渲染图像,其示出在该粗略姿态估计下目标对象的外观。利用渲染图像和观察图像的图像对,网络预测可用于细化输入姿态的相对变换。细化姿态可以用作下一次迭代的输入姿态,因此该过程可以重复,直至偏差达到设定阈值之下或者迭代次数达到预定次数。
[0084]
将相对旋转和平移表示为[r
δ
|t
δ
],给定源对象姿态[r
src
|t
src
],也即初始位姿参数(r
init
,t
init
),转换后的目标姿态如下:
[0085]rtgt
=r
δrsrc
,t
tgt
=r
δ
t
src
t
δ

[0086]
其中[r
tgt
|t
tgt
]表示由变换产生的目标姿态,即实际位姿参数。
[0087]
进一步地,点匹配损失函数具体为:
[0088][0089]
式中,x代表图像中的像素点,n为像素点的数量,p代表渲染图像,代表观察图像,r代表渲染图像中目标物体的位姿旋转分量,代表观察图像中目标物体的位姿旋转分量,t代表渲染图像中目标物体的位姿平移分量,代表观察图像中目标物体的位姿平移分量。
[0090]
考虑到想要精确预测3d中的对象姿态,本实施例提供的点匹配损失函数是基于几何重投影损失的基础上。给定真实姿态p=[r|t]和估计姿态修改得到的,具体如上式所示。
[0091]
进一步地,获取包含待检测的目标物体的观察图像之后,且基于观察图像,通过二值掩码分割处理,得到目标物体的二值轮廓分割图之前还包括:
[0092]
步骤100、基于观察图像中包含的目标物体,从观察图像中分割出目标物体的图像,以便基于分割得到的图像,通过二值掩码分割处理,得到目标物体的二值轮廓分割图。
[0093]
需要说明的是,将堆叠物体rgb图像中的目标物体从图像中分割出来,得到目标物
体二值轮廓分割图,方便后续步骤对目标物体的关键点信息、图像像素对称对应关系信息和边缘向量的获取。
[0094]
以上,内容为本技术提供的一种种物体位姿检测方法第二个实施例的详细说明,下面内容为本技术提供的一种物体位姿检测装置的一个实施例的详细说明。
[0095]
请参阅图3,本技术第三个实施例提供了一种物体位姿检测装置,包括:
[0096]
观察图像获取单元201,用于获取包含待检测的目标物体的观察图像;
[0097]
二值分割处理单元202,用于基于观察图像,通过二值掩码分割处理,得到目标物体的二值轮廓分割图;
[0098]
目标物体信息确定单元203,用于将二值轮廓分割图作为resnet网络模型的输入量,通过resnet网络模型的运算,确定目标物体的关键点信息、边缘向量信息以及图像像素对称对应关系信息;
[0099]
初始位姿计算单元204,用于基于关键点信息、边缘向量信息以及图像像素对称对应关系信息,通过仿射空间位姿换算方式以及epnp算法,得到目标物体的初始位姿参数。
[0100]
进一步地,之后还包括:
[0101]
物体渲染图像构建单元205,用于基于目标物体的标准三维模型,结合初始位姿参数,构建目标物体的渲染图像;
[0102]
实际位姿参数确定单元206,用于对渲染图像与观察图像进行特征比较,确定初始位姿参数与实际位姿参数的位姿参数偏差值,以便基于初始位姿参数与位姿参数偏差值,确定目标物体的实际位姿参数。
[0103]
进一步地,实际位姿参数确定单元206具体用于:
[0104]
将渲染图像与观察图像作为flownetsimple网络模型的输入量,通过flownetsimple网络模型以及点匹配损失函数对渲染图像与观察图像进行特征比较运算,以确定初始位姿参数与实际位姿参数的位姿参数偏差值。
[0105]
进一步地,点匹配损失函数具体为:
[0106][0107]
式中,x代表图像中的像素点,n为像素点的数量,p代表渲染图像,代表观察图像,r代表渲染图像中目标物体的位姿旋转分量,代表观察图像中目标物体的位姿旋转分量,t代表渲染图像中目标物体的位姿平移分量,代表观察图像中目标物体的位姿平移分量。
[0108]
进一步地,还包括:
[0109]
目标物体图像分割单元200,用于基于观察图像中包含的目标物体,从观察图像中分割出目标物体的图像,以便基于分割得到的图像,通过二值掩码分割处理,得到目标物体的二值轮廓分割图。
[0110]
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
[0111]
在本技术所提供的几个实施例中,应该理解到,所揭露的装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅
仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
[0112]
本技术的说明书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本技术的实施例,例如能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
[0113]
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0114]
另外,在本发明各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
[0115]
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:u盘、移动硬盘、只读存储器(rom,read-only memory)、随机存取存储器(ram,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。
[0116]
以上所述,以上实施例仅用以说明本技术的技术方案,而非对其限制;尽管参照前述实施例对本技术进行了详细的说明,本领域的普通技术人员应当理解:其依然可以对前述各实施例所记载的技术方案进行修改,或者对其中部分技术特征进行等同替换;而这些修改或者替换,并不使相应技术方案的本质脱离本技术各实施例技术方案的精神和范围。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献