技术新讯 > 计算推算,计数设备的制造及其应用技术 > 基于门控对齐网络的城市场景实时语义分割方法  >  正文

基于门控对齐网络的城市场景实时语义分割方法

  • 国知局
  • 2024-11-21 11:58:00

本发明属于图像语义分割,具体涉及一种基于门控对齐网络的城市场景实时语义分割方法。

背景技术:

1、语义分割作为计算机视觉领域的前沿研究,旨在为图像的每个像素分配具体的语义标签,为实现更智能的图像理解和分析打下基础。深度卷积神经网络在语义分割任务中的成功应用标志着这一领域的飞速发展,尤其是全卷积网络的提出推动了深度学习在图像语义分割中的广泛应用。

2、尽管以往的研究在提高模型精度方面取得显著进展,但也面临着计算资源消耗大、存储需求高等挑战,特别是对于终端设备的实时语义分割应用,这些问题更为显著。编码器-解码器结构在语义分割网络设计中占据主导地位,但在追求高效性和轻量级方面的需求下,现有实时网络更加注重简化网络结构以提升推理速度。然而,这种简化过程通常伴随着模型精度的下降。城市场景背景复杂,人和物目标尺寸较小,难以兼顾高效性和轻量级需求,因此,构建高性能的适用于城市场景的实时语义分割网络成为当前研究的重要方向。

3、专利公开号为cn115995002b的发明中公开了一种网络构建方法及城市场景实时语义分割方法,利用骨干网络、条形池化语义增强模块spsem和门控融合模块gfm,构建编码器模块;利用6个上下文指导模块cgm,构建解码器模块;将编码器模块的输出端与解码器模块的输入端连接,将解码器模块的输出端与拼接运算层的输入端连接,将拼接运算层的输出端与卷积层的输入端连接,将卷积层的输出端与上采样层的输入端连接,构成初始语义分割模型;利用样本数据训练初始语义分割模型,得到目标语义分割模型。该发明利用目标语义分割模型实现了对城市场景常见物体的语义分割,充分利用多尺度的全局以及局部信息和大感受野中更多的远程上下文信息,有效提高语义分割的精度。然而,该发明进行了多达6次低级特征和高级特征的融合操作,使得网络结构较为复杂,训练和预测的代价较高,实时性较差。

技术实现思路

1、解决的技术问题:本发明公开了一种基于门控对齐网络的城市场景实时语义分割方法,利用目标门控对齐网络模型实现了对城市场景常见人和物的实时语义分割,有效提取上下文信息、融合低层细节和高层语义、减少冗余计算、实现实时语义分割中精度和推理速度的平衡。

2、技术方案:

3、一种基于门控对齐网络的城市场景实时语义分割方法,所述城市场景实时语义分割方法包括以下步骤:

4、步骤s1:获取城市场景数据集并进行数据预处理,按比例将数据集划分成训练集、验证集和测试集;

5、步骤s2:搭建门控对齐网络,所述门控对齐网络包括编码器模块和解码器模块;

6、所述编码器模块包括骨干网络和金字塔池化对齐模块,骨干网络为去除resnet18网络尾部的全连接层后的剩余部分,骨干网络对输入图片提取低级特征图x2和高级特征图x5,再由金字塔池化对齐模块对高级特征图x5进行特征图的感受野的拓展,以进一步提升模型对图像语义信息的感知能力,输出特征图p;

7、所述解码器包括门控对齐模块、上采样模块和相加模块;门控对齐模块对输入的特征图p与低级特征图x2进行对齐处理,输出特征图m;上采样模块对特征图p进行双线性插值上采样,输出特征图u;相加模块将特征图m和特征图u相加后,获得特征图s,再使用1×1卷积将特征图s的通道数减少到1,得到最终的语义分割结果;

8、步骤s3:利用步骤s1得到的训练集、验证集对门控对齐网络进行训练,获得最优网络模型;

9、步骤s4:将步骤s1得到的测试集输入到步骤s3得到的最优网络模型,得到城市场景图像语义分割结果。

10、步骤s1进一步包括:

11、步骤s1.1:从开源数据集网站下载或自制城市场景数据集;

12、步骤s1.2:将数据集中图片以及其标签进行随机抖动、尺度调整、水平翻转和裁剪的预处理,得到预处理后的数据集;

13、步骤s1.3:按比例将预处理后的数据集中的图片及其标签划分成训练集、验证集和测试集。

14、所述骨干网络包括依次连接的5个卷积块,将提取第二个卷积块输出的原图1/4大小的低级特征图x2和第五个卷积块输出的原图1/32大小的高级特征图x5输入金字塔池化对齐模块;

15、所述金字塔池化对齐模块包括第一3×3卷积层、金字塔池化层、第一融合层、第一1×1卷积层、第二3×3卷积层、第一warp操作层和第二融合层;

16、所述金字塔池化层对高级特征图x5进行金字塔池化操作,通过自适应池化在四个尺度上提取特征,并将其融合为一个128通道的特征图xa,其分辨率缩小到输入图像的1/64;所述第一3×3卷积层对高级特征图x5进行特征提取,得到一个128通道的特征图xb;所述第一融合层将特征图xa和xb拼接,将拼接结果依次通过第一1×1卷积层、第二3×3卷积层做1×1卷积和3×3卷积操作,得到通道数为2的流场图δh;

17、所述warp操作层通过warp操作,将特征图xa通过流场图进行对齐,得到对齐后的输入图像1/32大小的特征图xc;

18、所述第二融合层将特征图xb和xc进行拼接,通过1×1卷积进一步精炼信息,输出特征图p。

19、所述门控对齐模块包括第三3×3卷积层、第四3×3卷积层、上采样层、第三融合层、第二1×1卷积层、第四融合层、第三1×1卷积层、第二warp操作层、第五融合层和第四1×1卷积层;

20、所述上采样层对特征图p双线性插值上采样到原始输入图像尺寸的1/4,输出特征图pu;第三3×3卷积层、第四3×3卷积层分别对特征图x2和特征图pu进行3×3卷积操作,第三融合层拼接第三3×3卷积层、第四3×3卷积层的输出结果,将输出结果通过第二1×1卷积层进行1×1卷积处理得到流场图,第四融合层拼接第三3×3卷积层、第四3×3卷积层的输出结果,将输出结果通过第三1×1卷积层进行1×1卷积处理得到门特征图g和门特征图1-g;所述第二warp操作层将特征图p通过流场图进行对齐,将对齐结果通过门特征图1-g进行过滤得到特征图ph;所述特征图x2通过门特征图g进行过滤得到特征图xl;所述第五融合层将特征图ph和特征图xl相加后再通过第四1×1卷积层进行1×1卷积处理得到输出特征图m。

21、步骤s3进一步包括:

22、步骤s3.1:设定模型训练初始参数;

23、步骤s3.2:在训练过程中使用交叉熵损失函数计算损失;根据损失函数计算梯度,采用随机梯度下降优化器更新网络模型参数,采用poly策略进行学习率衰减;

24、步骤s3.3:使用平均交并比miou和帧率fps对模型进行评估,miou值越高表示模型得到的分割结果越准确,fps值越大表示模型的分割速度越快。

25、步骤s3.4:重复步骤s3.2和步骤s3.3的训练过程,每训练完一轮后使用验证集对网络模型进行评估,直至设置好的总训练轮数全部完成,保存最优网络模型。

26、步骤s4进一步包括:

27、导入步骤s3中保存的最优网络模型,读入步骤s1中测试集的图片以及标签,计算miou和fps,保存测试结果。

28、有益效果:

29、第一,本发明公开了一种基于门控对齐网络的城市场景实时语义分割方法,在编码器中设计金字塔池化对齐模块扩大有效感受野,融合基于低分辨率特征图的多尺度上下文,并通过对齐操作保持分辨率,从而有效地增强语义分割网络的感知能力和精度;

30、第二,本发明公开了一种基于门控对齐网络的城市场景实时语义分割方法,在解码器中将门控对齐模块与双线性插值上采样相结合,引入简单的门控机制使模型更加关注低分辨率特征图中的特定区域,从而提高对局部细节的感知,增强语义分割模型的性能。

31、第三,本发明公开了一种基于门控对齐网络的城市场景实时语义分割方法,在提高模型分割精度的同时,保持了网络的实时性,实现实时语义分割中精度和推理速度的平衡。

本文地址:https://www.jishuxx.com/zhuanli/20241120/333614.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。