技术新讯 > 计算推算,计数设备的制造及其应用技术 > 一种融合注意力机制和SwinTransformer的实时目标检测方法  >  正文

一种融合注意力机制和SwinTransformer的实时目标检测方法

  • 国知局
  • 2024-11-06 14:43:39

本发明属于及图像中目标检测,尤其涉及一种融合注意力机制和swintransformer的实时目标检测方法。

背景技术:

1、如今民航运输量持续高速增长,随着机场场面飞机起降次数的增加,飞机的数量随之增加。因机场场面环境复杂,飞机运行繁忙,民用飞机安全和机场使用效率问题日渐突出。为此提出了空中交通管制(atc)概念。atc是保障航空安全的重要支柱之一,是空中交通管制员为保证飞行安全,对每架飞机从起飞到着陆整个飞行过程中的指挥和调配。空中交通管制员的操作表现更是直接关系到空管安全。机场场面监视系统通过监控图像与空中交通管制员紧密协作,共同确保机场的安全,降低飞机的起降时间和滞留时间,以及优化机场飞行、车辆和人员的调度,以实现最大效率的机场运营。但随着航班流量的快速增加,管制员工作负荷越来越大。员工在岗疲劳问题日益凸显。而疲劳会影响管制员的认知加工能力和警觉性,导致其工作效率下降,乃至引发空管不安全事件的发生。因此,为了满足自动化机场场面监视的需求,提高机场的运行与机场使用效率,减少人工指挥与管理的安全隐患,智能实时检测技术应用在机场场面监控系统是十分具有意义的。

2、当前常见的目标检测技术主要可以分为两类:二阶段检测和一阶段检测。其中,二阶段检测方法首先生成一组候选检测框,然后对每个框进行位置和类别预测,例如r-cnn、fast r-cnn和faster r-cnn等算法。而一阶段检测方法则直接在检测网络中进行位置和类别的预测,如sdd、yolo等目标检测算法。

3、以上方面在构建机场实时目标检测方面存在如下问题:一是上述目前的目标检测方法仅仅是对常见数据集,如pascal voc和ms coco等进行了改进和优化,缺乏适用于机场图像的数据集。二是现有yolo目标检测系列中对小目标检测准确性较低,机场监视图像中行人和汽车多为小目标物体,影响了机场监控目标检测的准确性。

技术实现思路

1、本发明的目的在于提供一种融合注意力机制和swin transformer的实时目标检测方法,针对机场实时目标特征的网络结构改进,提升实时目标检测方法综合性能。

2、为实现上述目的,本发明提供了一种融合注意力机制和swin transformer的实时目标检测方法,包括:

3、基于机场视频图像,构建符合机场场景图像特征的数据集;

4、改进yolov7模型;

5、基于所述数据集,对改进的yolov7模型进行训练,获取目标检测模型;

6、利用所述目标检测模型,进行机场场景的实时目标检测。

7、可选地,构建符合机场场景图像特征的数据集包括;

8、通过机场视频采集样本图像;

9、对样本图像进行目标标注;其中,目标位置标签标注类别为:飞机、行人和车;

10、基于标注后的样本图像,构建符合机场场景图像特征的数据集;其中,所述数据集中包括预设数量的小目标图像,所述小目标图像为目标占图像大小小于预设阈值的图像。

11、可选地,改进yolov7模型包括:

12、在主干网络使用swin transformer模块,头部网络增加小目标检测层,在主干网络和头部网络增加esca注意力模块;

13、增加的所述小目标检测层用于专门检测机场监控预设小目标,并通过k-means聚类算法为数据集重新聚类生成新的锚框尺度;

14、所述esca注意力模块为将空间注意力结构添加至eca模块中获得。

15、可选地,增加的所述小目标检测层中,预设一个新的尺度特征图,原图像经过4倍、8倍、16倍、32倍下采样,得到20×20大目标检测特征图、40×40中目标特征检测图、80×80小目标特征检测图、160×160小目标特征检测图,再送入检测网络中。

16、可选地,改进后的yolov7模型包括:主干网络和头部网络;

17、所述主干网络包括:esca结构、cbs结构、elan结构和mp1结构;

18、所述头部网络包括:esca结构、mp2结构、elah-h结构、sppccspc结构、rep结构和小目标检测层。

19、可选地,对改进的yolov7模型进行训练后还包括:

20、采用recall、precision、map和fps作为模型的评价指标,进行模型验证;

21、所述recall、precision、map和fps的定义为:

22、

23、其中,tp表示正确识别正样本数量,fp表示错误识别正样本数量,fn表示遗漏识别正样本数量,m表示识别类别数量,api表示平均准确率,pi表示准确率,ri表示召回率。

24、本发明具有以下有益效果:

25、本发明基于机场视频图像,构建符合机场场景图像特征的数据集;改进yolov7模型;基于数据集,对改进的yolov7模型进行训练,获取目标检测模型;利用目标检测模型,进行机场场景的实时目标检测;能够解决针对机场图像特征研究,缺少数据的问题;解决针对机场图像中目标过小,检测不准的问题;解决部分小目标算法实时性差的问题。

技术特征:

1.一种融合注意力机制和swin transformer的实时目标检测方法,其特征在于,包括:

2.根据权利要求1所述的融合注意力机制和swin transformer的实时目标检测方法,其特征在于,构建符合机场场景图像特征的数据集包括;

3.根据权利要求1所述的融合注意力机制和swin transformer的实时目标检测方法,其特征在于,改进yolov7模型包括:

4.根据权利要求3所述的融合注意力机制和swin transformer的实时目标检测方法,其特征在于,增加的所述小目标检测层中,预设一个新的尺度特征图,原图像经过4倍、8倍、16倍、32倍下采样,得到20×20大目标检测特征图、40×40中目标特征检测图、80×80小目标特征检测图、160×160小目标特征检测图,再送入检测网络中。

5.根据权利要求3所述的融合注意力机制和swin transformer的实时目标检测方法,其特征在于,改进后的yolov7模型包括:主干网络和头部网络;

6.根据权利要求1所述的融合注意力机制和swin transformer的实时目标检测方法,其特征在于,对改进的yolov7模型进行训练后还包括:

技术总结本发明提出了一种融合注意力机制和Swin Transformer的实时目标检测方法,包括:基于机场视频图像,构建符合机场场景图像特征的数据集;改进YOLOv7模型;基于所述数据集,对改进的YOLOv7模型进行训练,获取目标检测模型;利用所述目标检测模型,进行机场场景的实时目标检测。本发明能够解决针对机场图像特征研究,缺少数据的问题;解决针对机场图像中目标过小,检测不准的问题;解决部分小目标算法实时性差的问题。技术研发人员:蔡成涛,周文涛,崔子健,高必钦,徐昊,石浩辰受保护的技术使用者:哈尔滨工程大学技术研发日:技术公布日:2024/11/4

本文地址:https://www.jishuxx.com/zhuanli/20241106/323792.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。