一种基于CEMGM-FE-FCN的车辆三维尺寸信息提取方法与流程

2022-02-22 10:26:49 来源：中国专利 TAG：

一种基于cemgm-fe-fcn的车辆三维尺寸信息提取方法
技术领域
1.本发明涉及图像处理与机器学习领域，是一种对车辆三维尺寸进行提取的方法。

背景技术：

2.针对车辆三维尺寸的提取问题，常见的单目视觉系统有面向任务的视觉系统、引入机器学习的视觉系统，以及基于模型的视觉系统。传统的基于图像中车道线消失点的车距测量方法，依据车道线在图像上的倾角，估计车道线在图像上的交点从而计算目标距离，由于交点是通过估计获得的，距离测量的准确性依赖于估计的准确性。而在存在环境干扰的情况下提取车辆的三维尺寸信息所需考虑的因素更多，主要干扰之一就是车辆之间的粘连和遮挡，当摄像机相对地面不是很高时粘连误差更是不容忽视。同时，传统的深度估计算法在低纹理或纹理丢失的图像区域表现较差，预测深度值与实际深度值存在尺度因子，图像深度预测精度还有待提高。
3.随着多媒体技术的不断进步，每天都有海量的图像和视频信息产出，其中存在大量取景于真实场景的素材，这些多媒体素材很难全面地反映事物的量化属性。目前，高速公路上的工作人员可以从道路监控视频中直观地看到车辆能否顺利通过限高门，但是却不能从中获取准确的车辆尺寸信息。如果要基于道路监控视频提取物流车辆的尺寸信息，就必须辅以一定的技术手段。不难发现，传统的限高门只能定性判断车辆是否存在超限行驶行为，并且还会影响双层公交、消防车等大型车辆的正常通行；而激光雷达扫描方法所需的高精度摄像头以及海量的计算资源使得车辆尺寸信息提取的成本大幅度上升。因此，如何合理利用视觉情报技术实现图片或视频中的量化信息提取是一个亟待解决的问题。

技术实现要素：

4.针对上述现有技术中存在的问题，本发明要解决的技术问题是提供一种基于cemgm-fe-fcn的车辆三维尺寸信息提取算法，“cemgm-fe-fcn”方法的全程是“分量形式的期望最大化混合高斯-特征增强-全卷积网络”(component-wise expectation-maximization for gaussian mixtures-feature enhanced-fully convolutional networks，简称fcn)，其具体流程如图1所示。
5.技术方案实施步骤如下：
6.(1)确定图像均值μ；
7.在图像上进行尺寸划分，并在每个划分得到的块中随机采样n个像素，指定距离阈值t1,t2，针对像素强度使用canopy算法进行预划分；
8.根据欧式距离和汉明距离的均值粗略估算聚类中心ci，即为概率分布参数μ初始化值；
9.(2)期望最大化；
10.期望(expect，e)步骤，将所需参数的初始化值或上一次迭代后得到的迭代值带入下述公式；
[0011][0012]
式中，z表示隐性变量，表示第j个数据在第k个分模型隐性变量，k表示k个混合模型中第k个分模型，αk表示混合系数，即选择第k个分模型的概率，θk表示均值参数与协方差矩阵参数的集合，θi＝{θ1,θ2,
···
,θk}，αi＝{α1,α2,
···
,αk}，yj表示观测数据，p(yj|θk)是第j个数据在第k个分模型的高斯分布密度；
[0013]
最大(max，m)步骤，将e步骤中计算出的z的当前估计值带入求最大似然估计的公式，来获得新的参数值如下；
[0014][0015][0016][0017]
式中，μk表示均值，μk表示估计均值，σk表示协方差矩阵，σk表示估计协方差矩阵，αk表示混合系数，αk表示估计混合系数，n表示样本数，表示估计混合系数，n表示样本数，《y
jm
|k》表示条件均值，表示样本矫正协方差；
[0018]
(3)重复步骤(2)，直到收敛，得到最终的cemgm模型；
[0019][0020]
θk＝(μk,σk)；
[0021]
式中，p(y|θ)表示所有观测数据在所有分模型的高斯分布密度，p(y|θk)表示所有观测数据在第k个分模型的高斯分布密度；
[0022]
(4)确定图片背景色，数值表示为g；
[0023]
将聚类后具有较低均值的聚类中心，分配为局部区域的背景色，记作gi；
[0024]
同理，在整个图像中随机采样e个像素以进行全局聚类，将聚类后具有较低均值的聚类中心标记为初始全局背景色g0；
[0025]
将最接近背景聚类平均值的强度指定为最终全局背景rgb参考g；
[0026]
(5)去除阴影遮罩；
[0027][0028]
式中，qi表示在像素i处存在的阴影的浓度，gi表示对于像素i而言的局部背景色，g表示全局背景色；
[0029]
(6)提取图像特征信息；
[0030]
残差编码(下采样)，用retnet-50网络作为特征分类器，提取图像特征，主要包括卷积操作、池化操作和4个由多个残差单元组成的残差模块；
[0031]
conv1_x
→
conv2_x
→
conv3_x
→
conv4_x
→
conv5_x
→
conv；
[0032]
将提取出的含有输入图像特征信息的特征图输入相应的残差解码模块(上采样)，直接通过快速上映射结构，包括四种规格的卷积核，分别为3
×
3、3
×
2、2
×
3、2
×
2，再把图像经过四个小卷积后得到四张图像按照顺序进行排列组合得出结果；
[0033]
(7)确定深度估计图像；
[0034]
复用从下采样与上采样的结果中得到的多尺度特征图，本发明方法选用下釆样过程中conv2_x和conv3_x输出的特征图，实现特征金字塔网络结构；
[0035]
利用图像高通滤波器提取输入数据的高频特征；
[0036][0037]
g(δ,ε)＝h(δ,ε)f(δ,ε)；
[0038]
式中，g(δ,ε)表示提取高频特征后图像，h(δ,ε)表示高通滤波器，d0表示频率阈值，f(δ,ε)表示经过傅里叶变换的图像数据；
[0039]
进行3
×
3的卷积运算，并将与上采样中的结果融合，输出深度估计图像及车辆角点坐标；
[0040]
(8)确定车辆三维尺寸l,w,h；
[0041]
结合相机模型计算出车辆三维空间内角点坐标；
[0042][0043]
式中，z为尺度因子，(u,v)像素坐标系下一点的像素横、纵坐标，dx、dy分别表示x、y方向上的一个像素在相机感光板上的物理长度，u0、v0分别表示相机感光板中心在像素坐标系下的坐标，θ表示感光板的横边和纵边之间的角度，f表示焦距，r表示旋转矩阵，t表示平移矢量，(u,v,w)为图像中指定点对应世界坐标系下一点的物理坐标；
[0044]
最终求得车辆三维尺寸l,w,h(l代表长，w代表宽，h代表高)。
[0045]
本发明比现有技术具有的优点：
[0046]
(1)本发明基于路面颜色均一的特性，采用emgm方法进行阴影提取，并结合canopy算法改进其准确性依赖初始均值的缺陷，达到较好的阴影去除效果。
[0047]
(2)本发明引入特征金字塔结构，将残差编码模块中提取的多尺度特征图与残差解码模块进行融合,利用高通滤波器提取输入图像的高频信息，丰富细化图像，能够有效的保存rgb图像中的特征，提髙网络预测性能。
附图说明
[0048]
为了更好地理解本发明，下面结合附图作进一步的说明。
[0049]
图1是建立基于cemgm-fe-fcn的车辆三维尺寸信息提取算法的步骤流程图；
[0050]
图2是建立基于cemgm-fe-fcn的车辆三维尺寸信息提取算法流程图；
[0051]
图3是fe-fcn神经网络的结构示意图；
[0052]
图4是三种图像深度信息提取方法结果误差对比；
具体实施方案
[0053]
下面通过实施案例对本发明作进一步详细说明。
[0054]
本实施案例选用的数据集一共有800组样本，选取5个不同交通监控地点图片各160组，采用随机抽样的方法从5组数据中各抽取120组样本作为训练集，剩余的40组作为测试集。最终，用作训练的样本总数为600，用作测试的样本总数为200。
[0055]
本发明所提供的车辆三维尺寸信息提取算法整体流程如图1所示，具体步骤如下：
[0056]
(1)确定图像均值μ
[0057]
以21
×
21在图像上进行尺寸划分，在一个划分得到的块中随机采样120个像素，像素强度分别为67,178,207
…
195。指定距离阈值t1,t2，使用canopy算法进行预划分。
[0058]
根据欧式距离粗略估算聚类中心ci，即为概率分布参数μ初始化值。
[0059]
(2)期望最大化：
[0060]
e步骤，将所需参数的初始化值或上一次迭代后得到的迭代值带入下述公式：
[0061][0062]
式中，z表示隐性变量，k表示k个混合模型中第k个分模型，αk表示混合系数，即选择第k个分模型的概率，θi＝{θ1,θ2,
···
,θk}，αi＝{α1,α2,
···
,αk}，yj表示观测数据，p(y|θk)是高斯分布密度。
[0063]
m步骤，将e步骤中计算出的z的当前估计值带入求最大似然估计的公式，来获得新的参数值如下：
[0064][0065]
[0066][0067]
式中，μk表示均值，σk表示协方差矩阵，αk表示混合系数，z表示隐性变量，yj表示观测数据，n表示样本数，观测数据，n表示样本数，《y
jm
|k》表示条件均值，表示样本矫正协方差。
[0068]
(3)重复步骤(2)，直到收敛，得到最终的cemgm模型：
[0069][0070]
θk＝(μk,σk)
[0071]
由第一组块尺寸划分数据得到聚类中心102,188。
[0072]
(4)确定图片背景色g：
[0073]
将聚类后具有较低均值的聚类中心，即102，分配为局部区域的背景色，记作g1。
[0074]
同理，在整个图像中随机采样1000个像素以进行全局聚类，将聚类后具有较低均值的聚类中心标记为初始全局背景色g0。
[0075]
将最接近背景聚类平均值的强度108指定为最终全局背景rgb参考g。
[0076]
(5)去除阴影遮罩：
[0077][0078]
式中，qi表示在像素i处存在的阴影的浓度，gi表示对于像素i而言的局部背景色，g表示全局背景色。得到的gi和qi值分别为102,34,96
…
115和0.04,0.50,0.08
…‑
0.05。
[0079]
(6)提取图像特征信息：
[0080]
残差编码(下采样)，用retnet-50网络作为特征分类器，提取图像特征，主要包括卷积操作、池化操作和4个由多个残差单元组成的残差模块。
[0081]
conv1_x
→
conv2_x
→
conv3_x
→
conv4_x
→
conv5_x
→
conv
[0082]
将提取出的含有输入图像特征信息的特征图输入相应的残差解码模块(上采样)，直接通过快速上映射结构，包括四种规格的卷积核，分别为3
×
3、3
×
2、2
×
3、2
×
2，再把图像经过四个小卷积后得到四张图像按照顺序进行排列组合得出结果。
[0083]
(7)确定深度估计图像：
[0084]
复用从下采样与上采样的结果中得到的多尺度特征图，本方法选用下釆样过程中conv2_x和conv3_x输出的特征图，实现特征金字塔网络结构。
[0085]
利用图像高通滤波器提取输入数据的高频特征：
[0086][0087]
g(δ,ε)＝h(δ,ε)f(δ,ε)
[0088]
式中，g(δ,ε)表示提取高频特征后图像，h(δ,ε)表示高通滤波器，d0表示频率阈
值，f(δ,ε)表示经过傅里叶变换的图像数据。
[0089]
进行3
×
3的卷积运算，并将与上采样中的结果融合，输出深度估计图像及车辆角点像素坐标。
[0090]
(8)确定车辆三维尺寸：
[0091]
结合相机模型计算出车辆三维空间内角点坐标：
[0092][0093]
式中，z为尺度因子，(u,v)像素坐标系下一点的像素坐标，dx、dy分别表示x、y方向上的一个像素在相机感光板上的物理长度，u0、v0分别表示相机感光板中心在像素坐标系下的坐标，θ表示感光板的横边和纵边之间的角度，f表示焦距，r表示旋转矩阵，t表示平移矢量，(u,v,w)为该点对应世界坐标系下一点的物理坐标。
[0094]
最终求得车辆三维尺寸，长度l为4640mm，宽度w为1830mm，高度h为1690mm。
[0095]
为了验证本发明对图片深度信息估计的准确性，使用以下指标对其效果进行量化分析，并与改进前方法进行对比。可以看到，fe-fcn方法和cemgm-fe-fcn方法预测误差较小，在深度估计方面效果良好。
[0096]

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：基于RPA的财务数据优化方法与流程

一种基于CEMGM-FE-FCN的车辆三维尺寸信息提取方法与流程

相关文献

最热文献