技术新讯 > 计算推算,计数设备的制造及其应用技术 > 一种基于YOLOv7的轻量级无人机图像落水人员检测算法 > 正文

一种基于YOLOv7的轻量级无人机图像落水人员检测算法

国知局
2024-10-09 15:26:48

本发明属于深度学习目标检测，具体为一种基于yolov7的轻量级无人机图像落水人员检测算法。

背景技术：

1、据世界卫生组织统计，世界各地每年至少有23.6万人死于溺水，溺水造成的死亡占全球非故意伤害有关死亡的7％。这些数字不仅令人心痛，也揭示了迫切需要改进水上救援技术的现实。在水上救援领域，快速有效地检测落水人员是提高救援率的关键。传统的救援方法受限于人力和自然条件，无法满足迅速反应的需求。随着无人机技术以及深度学习的发展，基于无人机的目标检测为救援行动提供了新的视角和可能性。

2、目标检测技术作为计算机视觉领域的核心任务之一，近年来随着深度学习的兴起也迎来了革命性的变革。现阶段基于深度学习的目标检测算法主要分为两类，一类是两阶段目标检测算法，如r-cnn、faster r-cnn、mask r-cnn、sppnet等。此类算法检测精度较高，但检测速度较慢。另一类是单阶段目标检测算法，如ssd、yolo系列。此类算法检测速度很快，但检测精度不如两阶段算法。

3、目前，针对无人机视角下的检测任务，赵航岳等人增加检测头来减少目标尺度方差过大带来的负面影响；jawaharlalnehru等人使用k-means聚类算法来确定最佳的锚框尺寸，使其更有效地检测多尺度下的目标；黄淑琴等人提出一种尺度感知加权损失函数，动态地对目标进行权重关注，以此加强小尺度目标对损失的贡献；willy等人将swimtransformer引入到detectors中，加强网络对全局信息的捕捉与处理能力，但模型计算成本过高，不易于在边缘设备中部署。当前，无人机视角下的检测算法研究日益增多，检测精度也不断提高，但是实时检测的需求仍未得到完全满足。

4、模型部署是算法研究过程中必须要考虑的问题，为了加快模型推理速度，众多学者进行了大量的研究，并取得了不小的进展。萧瑾等人设计的自适应感知空间金字塔模块，通过动态调整解码器的参数，加快了推理速度并减少了模型参数数量。周全等人提出了一种双路径轻量级网络，该网络计算复杂度与输入特征分辨率呈线性关系，通过分开处理不同分辨率的特征，从而节省大量计算成本。郭金阳等人提出一种多维剪枝框架，以端到端的方式沿多个维度压缩网络，提高模型运行效率。上述轻量化设计虽然精简了模型，提高了模型运行效率，但对检测精度影响比较大。

5、因此本发明提出了一种基于yolov7的轻量级无人机图像落水人员检测算法来解决上述问题。

技术实现思路

1、(一)解决的技术问题

2、针对现有技术的不足，本发明提供了一种基于yolov7的轻量级无人机图像落水人员检测算法，解决了上述背景技术中所提出的问题。

3、(二)技术方案

4、本发明为了实现上述目的具体采用以下技术方案：

5、一种基于yolov7的轻量级无人机图像落水人员检测算法，包括以下步骤：

6、s1、搜集适量游泳和落水人员图片，制作数据集；

7、s2、将yolov7骨干网络替换为mobilenetv4；

8、s3、重构yolov7的sppcspc结构，并引入ca注意力机制与wise-iou损失函数；

9、s4、在自制数据集上进行消融实验；

10、s5、在自制数据集上将改进的算法与其他目标检测算法进行对比。

11、进一步地，所述s1的具体过程为在网络上搜集高度、分辨率适宜的游泳图片和落水图片，尽量搜集不同场景下以及多种游泳姿势的图片，搜集完成后使用labelme软件对图片进行标注,数据集中包括两个标注类别：游泳者、落水者，所在场景主要有海洋、河流和池塘等。

12、进一步地，所述s2中mobilenetv4是由秦丹峰等人提出的新一代轻量级检测网络，该网络引入了通用倒置瓶颈块,这是一种适用于高效网络设计的可调整模块，能够适应各种优化目标，且不会增加网络搜索复杂度,该模块由mobilenetv2中的倒置瓶颈块改进而来。

13、进一步地，所述s3中通过参考mobilenetv4中的深度可分离卷积和yolov9中的sppelan结构，对sppcspc结构进行了如下改进：

14、(1)将其中3*3的卷积替换为3*3的深度卷积和1*1的逐点卷积，从而大幅减少卷积参数；

15、(2)重新设计池化层结构，将池化窗口的尺寸由(5，9，13)改为三个窗口大小为5的串行结构池化层，以提高计算速度；

16、(3)将最初和最末端的1*1卷积层中的silu函数替换为relu函数，提高模型检测精度，relu函数的位置和数量均基于实验得出；

17、所述s3中ca注意力机制通过精确的位置信息对通道关系和长期依赖性进行编码，具体操作分为coordinate信息嵌入和coordinate attention生成两个步骤a和b；

18、a.coordinate信息嵌入

19、全局池化方法通常用于通道注意编码空间信息的全局编码，但由于它将全局空间信息压缩到通道描述符中，导致难以保存位置信息，为了促使注意力模块能够捕捉具有精确位置信息的远程空间交互，按照以下公式分解了全局池化，转化为一对一特征编码操作：

20、

21、具体来说，给定输入x，首先使用尺寸为(h，1)或(1，w)的池化核分别沿着水平坐标和垂直坐标对每个通道进行编码，因此，高度为h的第c通道的输出可以表示为：

22、

23、同样，宽度为w的第c通道的输出可以写成：

24、

25、上述两种变换分别沿两个空间方向聚合特征，得到一对方向感知的特征图；

26、b.coordinate attention生成

27、通过信息嵌入中的变换后，该部分将上面的变换进行concatenate操作，然后使用1*1卷积变换函数f1对其进行变换操作：

28、f＝δ(f1([zh,zw]))

29、式中[·，·]为沿空间维数的concatenate操作，δ为非线性激活函数，f为对空间信息在水平方向和垂直方向进行编码的中间特征映射，这里，r是用来控制se block大小的缩减率，然后沿着空间维数将f分解为两个单独的张量fh和fw，利用另外两个1*1卷积变换fh和fw分别将fh和fw变换为具有相同通道数的张量到输入x，得到：

30、gh＝σ(fh(fh))

31、gw＝σ(fw(fw))

32、这里σ是sigmiod激活函数，为了降低模型的复杂性和计算开销，这里通常使用适当的缩减比r(如32)来减少f的通道数，然后对输出gh和gw进行扩展，分别作为attentionweights，最后，ca注意力机制的输出y可以写成：

33、

34、所述s3中wise-iou损失函数定义如下：

35、su＝wh+wgthgt-wihi

36、

37、lwiou＝rwiouliou

38、其中wg，hg表示最小包围框的宽和高，为了防止rwiou产生阻碍收敛的梯度，wg和hg从计算图中分离出来(上标*表示此操作)。

39、进一步地，所述s4中为了验证各模块改进的有效性，分别对各模块进行单独测试，以验证改进有效，实验时采用相同的实验环境，采用帧率fps、参数量params和浮点运算次数gflops、平均精度map作为评价指标，以此评估所提出改进措施的有效性，帧率是指图像刷新帧数，参数量单位为m，浮点运算次数单位为g，平均精度均值是指所有类别检测准确率的均值，计算公式如下：

40、

41、其中tp表示正样本被预测为正样本的个数，fp表示负样本被预测为正样本的个数，fn表示正样本被预测为负样本的个数，c表示目标检测的总类别数，p(r)是以召回率为x轴且准确率为y轴而绘制出的曲线，该曲线与坐标轴围成的图形的面积大小即为平均准确率；且在重构sppcspc结构时，改进卷积层和池化层结构，并在替换了骨干网络的模型上进行对比实验。

42、进一步地，所述s5中具体通过对比经典算法ssd、faster r-cnn及其他yolo算法，来证明本算法的优越性。

43、(三)有益效果

44、与现有技术相比，本发明提供了一种基于yolov7的轻量级无人机图像落水人员检测算法，具备以下有益效果：

45、1.本发明提出的算法在检测精度略微下降的情况下，大幅度提高了检测速度，并且模型参数量和计算量也大幅下降。

46、2.本发明，通过轻量化原有算法，使其更易于部署在无人机等算力有限的边缘设备上。