技术新讯 > 计算推算,计数设备的制造及其应用技术 > 一种基于YOLOv7的轻量级无人机图像落水人员检测算法  >  正文

一种基于YOLOv7的轻量级无人机图像落水人员检测算法

  • 国知局
  • 2024-10-09 15:26:48

本发明属于深度学习目标检测,具体为一种基于yolov7的轻量级无人机图像落水人员检测算法。

背景技术:

1、据世界卫生组织统计,世界各地每年至少有23.6万人死于溺水,溺水造成的死亡占全球非故意伤害有关死亡的7%。这些数字不仅令人心痛,也揭示了迫切需要改进水上救援技术的现实。在水上救援领域,快速有效地检测落水人员是提高救援率的关键。传统的救援方法受限于人力和自然条件,无法满足迅速反应的需求。随着无人机技术以及深度学习的发展,基于无人机的目标检测为救援行动提供了新的视角和可能性。

2、目标检测技术作为计算机视觉领域的核心任务之一,近年来随着深度学习的兴起也迎来了革命性的变革。现阶段基于深度学习的目标检测算法主要分为两类,一类是两阶段目标检测算法,如r-cnn、faster r-cnn、mask r-cnn、sppnet等。此类算法检测精度较高,但检测速度较慢。另一类是单阶段目标检测算法,如ssd、yolo系列。此类算法检测速度很快,但检测精度不如两阶段算法。

3、目前,针对无人机视角下的检测任务,赵航岳等人增加检测头来减少目标尺度方差过大带来的负面影响;jawaharlalnehru等人使用k-means聚类算法来确定最佳的锚框尺寸,使其更有效地检测多尺度下的目标;黄淑琴等人提出一种尺度感知加权损失函数,动态地对目标进行权重关注,以此加强小尺度目标对损失的贡献;willy等人将swimtransformer引入到detectors中,加强网络对全局信息的捕捉与处理能力,但模型计算成本过高,不易于在边缘设备中部署。当前,无人机视角下的检测算法研究日益增多,检测精度也不断提高,但是实时检测的需求仍未得到完全满足。

4、模型部署是算法研究过程中必须要考虑的问题,为了加快模型推理速度,众多学者进行了大量的研究,并取得了不小的进展。萧瑾等人设计的自适应感知空间金字塔模块,通过动态调整解码器的参数,加快了推理速度并减少了模型参数数量。周全等人提出了一种双路径轻量级网络,该网络计算复杂度与输入特征分辨率呈线性关系,通过分开处理不同分辨率的特征,从而节省大量计算成本。郭金阳等人提出一种多维剪枝框架,以端到端的方式沿多个维度压缩网络,提高模型运行效率。上述轻量化设计虽然精简了模型,提高了模型运行效率,但对检测精度影响比较大。

5、因此本发明提出了一种基于yolov7的轻量级无人机图像落水人员检测算法来解决上述问题。

技术实现思路

1、(一)解决的技术问题

2、针对现有技术的不足,本发明提供了一种基于yolov7的轻量级无人机图像落水人员检测算法,解决了上述背景技术中所提出的问题。

3、(二)技术方案

4、本发明为了实现上述目的具体采用以下技术方案:

5、一种基于yolov7的轻量级无人机图像落水人员检测算法,包括以下步骤:

6、s1、搜集适量游泳和落水人员图片,制作数据集;

7、s2、将yolov7骨干网络替换为mobilenetv4;

8、s3、重构yolov7的sppcspc结构,并引入ca注意力机制与wise-iou损失函数;

9、s4、在自制数据集上进行消融实验;

10、s5、在自制数据集上将改进的算法与其他目标检测算法进行对比。

11、进一步地,所述s1的具体过程为在网络上搜集高度、分辨率适宜的游泳图片和落水图片,尽量搜集不同场景下以及多种游泳姿势的图片,搜集完成后使用labelme软件对图片进行标注,数据集中包括两个标注类别:游泳者、落水者,所在场景主要有海洋、河流和池塘等。

12、进一步地,所述s2中mobilenetv4是由秦丹峰等人提出的新一代轻量级检测网络,该网络引入了通用倒置瓶颈块,这是一种适用于高效网络设计的可调整模块,能够适应各种优化目标,且不会增加网络搜索复杂度,该模块由mobilenetv2中的倒置瓶颈块改进而来。

13、进一步地,所述s3中通过参考mobilenetv4中的深度可分离卷积和yolov9中的sppelan结构,对sppcspc结构进行了如下改进:

14、(1)将其中3*3的卷积替换为3*3的深度卷积和1*1的逐点卷积,从而大幅减少卷积参数;

15、(2)重新设计池化层结构,将池化窗口的尺寸由(5,9,13)改为三个窗口大小为5的串行结构池化层,以提高计算速度;

16、(3)将最初和最末端的1*1卷积层中的silu函数替换为relu函数,提高模型检测精度,relu函数的位置和数量均基于实验得出;

17、所述s3中ca注意力机制通过精确的位置信息对通道关系和长期依赖性进行编码,具体操作分为coordinate信息嵌入和coordinate attention生成两个步骤a和b;

18、a.coordinate信息嵌入

19、全局池化方法通常用于通道注意编码空间信息的全局编码,但由于它将全局空间信息压缩到通道描述符中,导致难以保存位置信息,为了促使注意力模块能够捕捉具有精确位置信息的远程空间交互,按照以下公式分解了全局池化,转化为一对一特征编码操作:

20、

21、具体来说,给定输入x,首先使用尺寸为(h,1)或(1,w)的池化核分别沿着水平坐标和垂直坐标对每个通道进行编码,因此,高度为h的第c通道的输出可以表示为:

22、

23、同样,宽度为w的第c通道的输出可以写成:

24、

25、上述两种变换分别沿两个空间方向聚合特征,得到一对方向感知的特征图;

26、b.coordinate attention生成

27、通过信息嵌入中的变换后,该部分将上面的变换进行concatenate操作,然后使用1*1卷积变换函数f1对其进行变换操作:

28、f=δ(f1([zh,zw]))

29、式中[·,·]为沿空间维数的concatenate操作,δ为非线性激活函数,f为对空间信息在水平方向和垂直方向进行编码的中间特征映射,这里,r是用来控制se block大小的缩减率,然后沿着空间维数将f分解为两个单独的张量fh和fw,利用另外两个1*1卷积变换fh和fw分别将fh和fw变换为具有相同通道数的张量到输入x,得到:

30、gh=σ(fh(fh))

31、gw=σ(fw(fw))

32、这里σ是sigmiod激活函数,为了降低模型的复杂性和计算开销,这里通常使用适当的缩减比r(如32)来减少f的通道数,然后对输出gh和gw进行扩展,分别作为attentionweights,最后,ca注意力机制的输出y可以写成:

33、

34、所述s3中wise-iou损失函数定义如下:

35、su=wh+wgthgt-wihi

36、

37、lwiou=rwiouliou

38、其中wg,hg表示最小包围框的宽和高,为了防止rwiou产生阻碍收敛的梯度,wg和hg从计算图中分离出来(上标*表示此操作)。

39、进一步地,所述s4中为了验证各模块改进的有效性,分别对各模块进行单独测试,以验证改进有效,实验时采用相同的实验环境,采用帧率fps、参数量params和浮点运算次数gflops、平均精度map作为评价指标,以此评估所提出改进措施的有效性,帧率是指图像刷新帧数,参数量单位为m,浮点运算次数单位为g,平均精度均值是指所有类别检测准确率的均值,计算公式如下:

40、

41、其中tp表示正样本被预测为正样本的个数,fp表示负样本被预测为正样本的个数,fn表示正样本被预测为负样本的个数,c表示目标检测的总类别数,p(r)是以召回率为x轴且准确率为y轴而绘制出的曲线,该曲线与坐标轴围成的图形的面积大小即为平均准确率;且在重构sppcspc结构时,改进卷积层和池化层结构,并在替换了骨干网络的模型上进行对比实验。

42、进一步地,所述s5中具体通过对比经典算法ssd、faster r-cnn及其他yolo算法,来证明本算法的优越性。

43、(三)有益效果

44、与现有技术相比,本发明提供了一种基于yolov7的轻量级无人机图像落水人员检测算法,具备以下有益效果:

45、1.本发明提出的算法在检测精度略微下降的情况下,大幅度提高了检测速度,并且模型参数量和计算量也大幅下降。

46、2.本发明,通过轻量化原有算法,使其更易于部署在无人机等算力有限的边缘设备上。

本文地址:https://www.jishuxx.com/zhuanli/20241009/308775.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。