基于双通路Transformer模型的皮带缺陷分类方法
- 国知局
- 2024-09-05 14:27:16
本发明涉及计算机视觉,具体涉及基于双通路transformer模型的皮带缺陷分类方法。
背景技术:
1、在冶金、矿山等工业领域,皮带输送机到处可见。皮带传输的安全稳定运行十分重要,皮带划伤撕裂是影响皮带正常传输的主要因素之一。尤其是长距离、大运量的皮带机,一旦发生撕裂现象将对物料运输产生影响。当撕裂严重时,整个皮带完全报废无法修补,带来巨大的经济损失。常见的皮带撕裂检测仪能够及时发现皮带的划伤撕裂,但受到玻璃护罩磨损、灰尘遮挡、外界光源干扰、激光线局部变暗等情况影响,正常皮带也可能被误判为撕裂。
2、transformer模型可以捕获数据长期依赖的关系,已经在自然语言处理领域取得显著的成果。目前,transformer模型也引起图像处理领域研究者的广泛关注,在图像分割和目标分类领域得到应用。其中,vit(vision transformer)模型在目标分类任务中表现出色,它将图像分割成16×16大小的小块来对图像进行分类,取得令人瞩目的效果。在皮带撕裂检测时,检测仪的激光器发射“一”字激光,照射在皮带底部,工业相机高速连续拍摄皮带底部“一”字激光轮廓图像,激光图像的分辨率较高。而vit模型对高分辨率输入图像进行识别分类时,需要分割出更多的小块,或者每个小块的面积过大,这些都会极大地增加vit模型的计算量并影响其性能。
3、综上,本发明提出基于双通路transformer模型的皮带缺陷分类方法,该方法同时提取高分辨率图像的全局及局部特征来解决vit模型面临的问题。
技术实现思路
1、鉴于此,本发明公开提供了基于双通路transformer模型的皮带缺陷分类方法,以除去检测结果中的干扰误报现象。
2、本发明的技术方案为:基于双通路transformer模型的皮带缺陷分类方法,其特征在于,包括:构建基于局部窗口信息及全局跨窗口信息的双通路transformer网络模型,利用所述双通路transformer网络模型将皮带撕裂缺陷分为:真实撕裂类及干扰类;其中所述双通路transformer网络模型由主干及分支两通路组成,分支通路通过融合模块为主干通路提供互补信息,使得主干通路能够同时提取图像的全局及局部信息。
3、具体地,所述基于局部窗口信息及全局跨窗口信息的双通路transformer网络模型由主干和分支两通路组成;两通路均包括4个stage,每个stage均由2个模块组成;stage1包括transformer模块及patch embedding模块;stage i包含transformer模块及patchmerging模块,其中i=2,3,4;4个stage的输入图像的大小分别为1280×400×3、320×100×96、160×50×192及80×25×384,并且4个stage中transformer模块重复出现2,2,6及2次。
4、具体地,利用所述双通路transformer网络模型将皮带撕裂缺陷分为:真实撕裂类及干扰类,包括:
5、s1:将撕裂缺陷图像同时输入到主干及分支网络的patch embedding模块,模块的输出被输入到其后的transformer模块;transformer模块将输入图像划分成多个大小为8×8的窗口,在每个窗口中计算多头自注意力;
6、s2:在分支通路的stage i中i=2,3,4,特征图先被输入到patch merging模块,生成基于patch融合信息的特征图,其尺度为输入特征图的一半;
7、s3:再将生成特征图输入到transformer模块中,提取基于窗口的多头注意力;主干通络的stage与分支通络的stage的结构相同,在主干通路stage前需融合主干通路与分支通路的特征图;
8、s4:随着网络的加深,输入每个stage的特征图的尺度不断减小,输入第i个stage特征图的分辨率是第i+1个特征图的4倍,不同stage中transformer模块的特征图像中窗口的大小相同,但是其同等大小窗口表示的感受野是不同的,第i+1个stage中transformer模块特征图的窗口的感受野是第i个特征图的4倍;在主干网络中,融合主干网络第i个stage及分支网络第i+1个stage的特征图将使得网络能够学习第i个stage中当前所在窗口的局部信息,还能学习相邻4个窗口的全局跨窗口信息;
9、s5:特征融合模块融合不同stage的特征图像,使得网络能够学习窗口内的局部信息及跨窗口的全局信息;
10、经过四次transformer模块的特征信息提取及特征融合,双通路transformer网络能够生成8×8×768大小的特征图;
11、s6:使用平均池化操作使得特征图变为768×1的特征向量,特征向量被输入到有两个隐藏节点的全连接层;
12、s7:softmax激活层与全连接层相连接,输出网络输入的撕裂图像是真实撕裂类还是干扰类的概率。
13、具体地,所述transformer模块包括具有残差结构的局部注意力la模块和多层感知机mlp模块,图像被输入到两模块前先进行正则化操作;
14、在la模块中,特征图被平均划分为多个8×8大小的窗口,每个窗口均用1×64的列向量token表示,并在窗口内进行多头注意力计算;
15、计算每个窗口内特征图像的多头注意力,包括:
16、对输入图像进行线性变换生成查询(query,q)、键(key,k)和值(value,v)向量,将线性变换后的结果划分为h个头;每个头都学习不同的注意力权重;对于4个不同stage,多头注意力的数目分别为3,6,12及24;最后,计算每个头的自注意力,如公式(1)所示;
17、
18、d为比例因子,防止q和k转置的内积过大;在计算注意力时,使用swish操作对q,k及v进行正则化,并高模型的表征能力,swish(x)=xswish(x)=x·sigmoid(βx);dwc为逐深度卷积,其将位置编码从自注意计算中分离出来;多个头自注意力计算后的输出通过一个可学习的线性变换权重矩阵wo合并成最终的多头注意力输出,如公式(2)表示。
19、multihead(q,k,v)=concat(head1,...,headh)wo (2)。
20、具体地,特征融合模块融合不同stage的特征图像:
21、定义自适应地融合主干及分支网络不同stage的特征图f1及f2;根据主干网络特征图大小,先采用缩放操作使得分支网络的特征图f2与主干网络的特征图f1大小相同;
22、采用卷积操作使得分支网络的特征图f2与主干网络的特征图f1通道数相同;
23、使用全局平均池化操作来提取主干及分支网络特征图的全局空间信息s1及s2;
24、采用softmax激活函数提取s1和s2的注意力系数;
25、融合后的特征图f可以表示为:
26、f=soft(ave(f1))*f1+soft(ave(conv(res(f2))))*conv(res(f2)(3)。
27、本发明公开了基于双通路transformer模型的皮带缺陷分类方法,并利用该模型对皮带的撕裂进行分类,去掉被误判的撕裂。双通路transformer模型并行提取图像的全局及局部特征,并在主干通路对提取的信息进行互补融合。该模型即能够有效地利用图像的有用信息,又能大幅度减少特征提取的计算量。
28、应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本发明的公开。
本文地址:https://www.jishuxx.com/zhuanli/20240905/286528.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表