一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种集装箱箱顶洞识别方法与流程

2022-02-22 02:53:30 来源:中国专利 TAG:


1.本发明涉及图像识别的技术领域,尤其涉及到一种集装箱箱顶洞的识别方法。


背景技术:

2.近年来,在人工智能和机器学习领域,深度学习技术迅速发展,其主要的一个特点是 自动地从训练样本中学习特征,不再需要手工设计,减少了人工干预,同时分类识别的效 果也得到了显著的提升。在计算机视觉领域,采用最多的深度学习技术是深度卷积神经网 络,与传统的卷积神经网络相比,其特点在于网络层数和深度极大地加深。深度卷积神经 网络已广泛的应用于自然场景中的字符检测和识别,取得不错的效果。集装箱在长途运输、 装卸、中转等多频次流转后,非常容易破损,导致船舶和从事相关工作的人员无法及时、 准确地掌握集装箱的状态,不利于集装箱货物运输的安全。同时在查验过程中,箱体检查 最难以触达的地方为箱顶,降低了集装箱的查验效率。在传统的识别技术中,由于照片拍 摄的角度存在差异,为确定箱面朝向、图片矫正造成困难;同时图片中残损东大小、类型 多样,一些污损、文字等容易造成干扰。
3.因此,如何提供一种识别速度快、准确率高,并且能够对抗吊臂遮挡、集装箱四角吊 孔,以及污损、文字的干扰的集装箱箱顶洞识别方法是本领域中亟需解决的技术问题。


技术实现要素:

4.本发明的目的在于提供一种识别速度快、准确率高,并且能够对抗吊臂遮挡、集装箱 四角吊孔,以及污损、文字的干扰的集装箱箱顶洞识别方法,已解决现有技术中的问题。 所述技术方案具体如下:
5.一种集装箱箱顶洞识别方法,所述方法具体包括如下步骤:
6.s1、输入图像:以安装在桥吊的摄像头作为视频采集器,通过5个相机分别抓拍集装 箱的左、顶、右、前、后箱的视频流和图像,运用帧之间纹理特征相邻两帧之间的差异选 取关键帧,然后进行图像拼接并输入箱顶定位模型;
7.s2、采用改进的mobilenetv3作为特征提取的骨架网络进行特征提取。从h
×w×
c的 特征图(feature map)经过凭据池化(averagepool)变成1
×1×
c的向量,再经过两次1
×
1 的卷积后,获得1
×1×
c的权重。最后将原来的特征图逐层与该向量相乘,获得最终的结 果。所述步骤中采用的激活函数如下:
[0008][0009]
优选地所述步骤s2具体为:
[0010]
第一步,将原先输入的12
×
12
×
3拆分成12
×
12
×
1的单层;
[0011]
第二步,将5
×5×
3的卷积核拆分成5
×5×
1,逐层进行卷积获得3个8
×8×
1的特 征;
[0012]
第三步,采用256个1
×
1的卷积获取256个8
×
8的特征。
[0013]
s3、使用1
×
1、3
×
3大小的卷积神经网络(cnn)以及最大池化(max pooling)对提取 到的特征进行采样输出特征矩阵;所述最大池化先对原图像进行填充再做卷积。填充值的 大小根据卷积核大小以及滑动步长决定,当滑动步长大于1时填充数=k-i%s(k卷积核边 长,i输入图像的边长,s为滑动步长)。当滑动步长为1时,卷积核边长直接减1,当差偶 数个元素时,首尾各补一半,差奇数个时前边补奇数个,后边补偶数个。所述特征矩阵的 计算方法如下:
[0014]
output
size
=ceil[(input
size
padding*2-kernel
size
)/stride] 1,其中,ceil[1.1]=2
[0015]
s4、所述步骤s3获得的特征矩阵进入双注意力网络进行特征融合;所述双注意力网络 包括位置注意力模块和通道注意力模块。所述位置注意力模块旨在利用任意两点特征之间 的关联,来相互增强各自特征的表达。所述通道注意力模块旨在通过建模通道之间的关联, 增强通道下特定语义的相应能力。
[0016]
位置注意力模块旨在利用任意两点特征之间的关联,来相互增强各自特征的表达。具 体来说,首先计算出任意两点特征之间关联强度矩阵,即原始特征a经过卷积降维获得特 征b和特征c,然后改变特征维度b为((hxw)xc')和c为(c'x(hxw))然后矩阵乘 积获得任意两点特征之间的关联强度矩((hxw)x(hxw))。然后经过softmax操作归一化 获得每个位置对其他位置的注意力图s,其中越相似的两点特征之间,其响应值越大。接 着将注意力图中响应值作为加权对特征d进行加权融合,这样对于各个位置的点,其通 过注意力图在全局空间中的融合相似特征。
[0017]
通道注意力模块旨在通过建模通道之间的关联,增强通道下特定语义响应能力。具体 过程与位置注意力模块相似,不同的是在获得特征注意力图x时,是将任意两个通道特 征进行维度变换和矩阵乘积,获得任意两个通道的关联强度,然后同样经过softmax操作 获得的通道间的注意力图。最后通过通道之间的注意力图加权进行融合,使得各个通道之 间能产生全局的关联,获得更强的语义响应的特征。
[0018]
优选地所述通道注意力模块的获取步骤如下:
[0019]
第一步,特征图a(c
×h×
w)首先分别通过3个卷积层(bn和relu)得到3个特征图 {b,c,d}.shape∈(cxhxw),然后改变为c
×
n,其中n=h
×
w。
[0020]
第二步,矩阵c和b的转置相乘,再通过softmax得到空间注意力模块s(n
×
n)。
[0021]
第三步,矩阵d和s的转置相乘,得到(cxhxw)再乘以尺度系数再改变为原来形状, 最后与a相加得到最后的输出e其中α初始化为0,并逐渐的学习分配到更大的权重。可 以看出e的每个位置的值是原始特征每个位置的加权求和得到。
[0022]
优选地所述通道注意力模块的获取步骤如下:
[0023]
第一步,在道注意力模块中,分别对a做改变和变换顺序;
[0024]
第二步,将得到的两个特征图相乘再通过softmax得到道注意力模块x(c
×
c);
[0025]
第三步,x与a做乘积再乘以尺度系数β再为原来形状,最后与a相加得到最后的输 出e。其中β初始化为0,并逐渐的学习分配到更大的权重。
[0026]
s5、所述步骤s4特征融合后与mobilenetv3的中间输出层进行合并;
[0027]
s6、对合并后的特征矩阵上采样到原始图片分辨率后输出语义分割的结果;所述上采 样的方法如下:f
lr
是所述步骤s5输出的特征,scale factor表示为r,对于sr图像中的
每 个像素(i,j),由lr图像在像素(i

,j

)上的特征和对应滤波器(卷积核)的权重决定。需要将 模块(i,j)和(i

,j

)匹配。上采样的形式化表述如下:
[0028]isr
(i,j)表示sr在(i,j)的像素值,表示的是用来计 算像素值的特征映射函数。w(i,j)是sr上的像素(i,j)对应的卷积核的权重w(i,j)是sr上的像素(i,j)对应的卷积核的权重其中
[0029]
对于sr中的每个像素(i,j)位置投影模块要找到lr图像对应的(i

,j

)。用以下投影操 作来映射这两个像素t是转换函数。
[0030]
s7、采用yolov5进行边框回归。将所述步骤s6输出的图片分为m
×
n个模块,检测 目标中心点在哪一个模块,给定(p
x
,py,pw,ph)寻找一种映射f,使得)寻找一种映射f,使得并且所述边框回归包括以下步骤:
[0031]
第一步,输入所述步骤s6获得的特征向量(p
x
,py,pw,ph);
[0032]
第二步,平移(δx,δy),将窗口p变成窗口
[0033]
δx=p
wdx
(p),δy=p
hdy
(p)
[0034][0035][0036]
第三步,尺度缩放(sw,sh),sw=exp(d
x
(p)),,sh=exp(dh(p))
[0037][0038][0039]
s8、输出箱顶洞中心点所在的坐标。输入待识别的图片经过本发明提供的识别模型 后最终生成一张与原图片同样大小但是只包含0和1的二值化图片,生成的图片中像素 值为1的的位置对应箱顶洞的区域,通过计算值为1的连通域进行定位,最终可以得到 箱顶洞中心点所在的坐标。
[0040]
本发明所获得的有益技术效果:本发明将箱顶洞识别准确率提高到了98.5%,在很 大程度上可以对抗吊臂遮挡、集装箱四角吊孔,以及污损、文字的干扰问题,货物的运 输安全和验箱的便捷性。
[0041]
上述说明仅是本技术技术方案的概述,为了能够更清楚地了解本技术的技术手段, 从而可依照说明书的内容予以实施,并且为了让本技术的上述目的和其他目的、特征和 优点能更明显易懂,以下以本技术的较佳实施例并配合附图详细说明如后。
[0042]
根据下文结合附图对本技术具体实施例的详细描述本领域技术人员将会更加名了本 申请的上述以及其他的目的、优点和特征。
附图说明
[0043]
为了更清楚地说明本发明实施例和现有技术中的技术方案,下面将对实施例或现有 技术描述中所需要使用的附图做简单介绍,显而易见地,下面描述的附图仅仅是本发明 的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以 根
据这些附图获得其他的附图。
[0044]
图1是本发明集装箱箱顶洞识别方法的流程示意图;
[0045]
图2是本发明集装箱箱顶洞识别方法的算法结构图;
具体实施方式
[0046]
为了使本发明的技术手段、创造特征、达成目的与功效易于明白了解,下面结合具 体图示,进一步阐述本发明。显然,所描述的实施例是本技术一部分实施例,而不是全 部的实施例。在下面的描述中,提供诸如具体的配置和组件的特定细节仅仅是为了帮助 全面理解本技术的实施例。因此,本领域技术人员应该清楚,可以对这里描述的实施例 进行各种改变和修改而不是脱离本技术的范围和精神。
[0047]
可以理解的是,此处所描述的具体实施例仅仅用于解释本发明,而非对本发明的限定。 另外需要说明的是,为了便于描述,附图中仅示出了与本发明相关的部分而非全部结构。 在更加详细地讨论示例性实施例之前应当提到的是,一些示例性实施例被描述成作为流程 图描绘的处理或方法。虽然流程图将各项操作或步骤描述成顺序的处理,但是其中的许多 操作可以被并行地、并发地活着同时实施。此外,各项操作顺序可以被重新安排。
[0048]
图1所示是一种集装箱箱顶洞识别方法,实施步骤如下:
[0049]
s1、图像输入,以安装在桥吊的摄像头作为视频采集器,通过5个相机分别抓拍集 装箱的左、顶、右、前、后箱的视频流和图像,运用帧之间纹理特征相邻两帧之间的差 异选取关键帧,然后进行图像拼接并输入箱顶定位模型;
[0050]
s2、采用改进的mobilenetv3作为特征提取的骨架网络进行特征提取。如图2所示, 从h
×w×
c的特征图(feature map)经过平均池化(averagepool)变成1
×1×
c的向量,再经过 两次1
×
1的卷积后,获得1
×1×
c的权重。最后将原来的特征图逐层与该向量相乘,获得 最终的结果。所述步骤中采用的激活函数如下:
[0051][0052]
所述步骤s2具体为:
[0053]
第一步,将原先输入的12
×
12
×
3拆分成12
×
12
×
1的单层;
[0054]
第二步,将5
×5×
3的卷积核(kernel)拆分成5
×5×
1,逐层进行卷积获得3个
[0055]8×8×
1的特征;
[0056]
第三步,采用256个1
×
1的卷积获取256个8
×
8的feature。
[0057]
s3、使用1
×
1、3
×
3大小的卷积神经网络(cnn)以及最大池化(max pooling)对提取到 的特征进行采样输出特征矩阵;所述max pooling先对原图像进行填充再做卷积。填充 值的大小根据卷积核大小以及滑动步长决定,当滑动步长大于1时填充数=k-i%s(k卷 积核边长,i输入图像的边长,s为滑动步长)。当滑动步长为1时,卷积核边长直接减1, 当差偶数个元素时,首尾各补一半,差奇数个时前边补奇数个,后边补偶数个。所述特 征矩阵的计算方法如下:
[0058]
output
size
=ceil[(input
size
padding*2-kernel
size
)/stride] 1,其中,ceil[1.1]
[0059]
s4、所述步骤s3获得的特征矩阵进入双注意力网络进行特征融合;所述双注意力
其中
[0073]
对于sr中的每个像素(i,j)位置投影模块要找到lr图像对应的(i

,j

)。用以下投影 操作来映射这两个像素t是转换函数。
[0074]
s7、采用yolov5进行边框回归。将所述步骤s6输出的图片分为m
×
n个模块,检 测目标中心点在哪一个模块,给定(p
x
,py,pw,ph)寻找一种映射f,使得)寻找一种映射f,使得并且
[0075]
所述边框回归包括以下步骤:
[0076]
第一步,输入所述步骤s6获得的特征向量(p
x
,py,pw,ph);
[0077]
第二步,平移(δx,δy),将窗口p变成窗口
[0078]
δx=p
wdx
(p),δy=p
hdy
(p)
[0079][0080][0081]
第三步,尺度缩放(sw,sh),sw=exp(d
x
(p)),,sh=exp(dh(p))
[0082][0083][0084]
s8、输出箱顶洞中心点所在的坐标。输入待识别的图片经过本发明提供的识别模型 后最终生成一张与原图片同样大小但是只包含0和1的二值化图片,生成的图片中像素 值为1的的位置对应箱顶洞的区域,通过计算值为1的连通域进行定位,最终可以得到 箱顶洞中心点所在的坐标。
[0085]
上述实施例仅例示性说明本发明的原理及其功效,而非用于限制本发明。任何熟悉此 技术的人士皆可在不违背本发明的精神及范畴下,对上述实施例进行修饰或改变。因此, 举凡所属技术领域中具有通常知识者在未脱离本发明所揭示的精神与技术思想下所完成 的一切效修饰或改变,仍应由本发明的权利要求所涵盖。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献