一种面向空对地轻量级人体目标姿态估计模型的构建方法与应用
- 国知局
- 2025-01-10 13:15:36
本发明涉及人体姿态估计领域,尤其涉及一种面向空对地轻量级人体目标姿态估计模型的构建方法与应用。
背景技术:
1、人体姿态估计作为行为识别的上游任务,旨在定位出图像中地面目标的头部、肩部、髋部等关键部位的坐标,从而构建骨架序列为行为识别提供输入数据来源。姿态估计可以用于各种动态场景中的违规检测,如针对重点区域的智能安防中的潜在威胁行为检测等,通过对远景目标和小目标的特殊化训练,可以使人体姿态估计运用到无人机等空中设备上,有效估计出航拍视角下的人体姿态。
2、目前,用于轻量化人体姿态估计的神经网络,如专利号为“cn 115187660 a”的专利《一种基于知识蒸馏的多人人体姿态估计方法及系统》中,公开了“ghostposenet”网络,使用知识蒸馏技术,利用学生热图与数据标签的目标关节点热图生成关节点偏置,动态调整教师网络向学生网络的知识转移构建出一个轻量化网络。本方法虽然使网络参数量大幅下降,但是网络精度也出现了严重的下降;在文献号为“10.48550/arxiv.2104.06403”的文献中,公开了“lite-hrnet”网络,其使用通道混洗模块shuffle block替换网络中具有较高计算代价的3×3卷积,虽然显著地降低模型的复杂度,但在模型精度上损失较为严重;在文献号为“10.48550/arxiv.2204.10762”的文献中,公开了“dite-hrnet”网络,利用动态分割卷积和自适应上下文建模,设计了动态多尺度上文和动态全局上下文两个轻量化模块,相比之前的方法精度有所提升,但是仍然不理想。
3、上述现有技术中的共同问题是:高精度模型参数量过大,无法部署在无人机等算力有限平台,而轻量化方法的精度往往不够,同时无法有效对无人机离地面5-10m拍摄的远景目标和小目标进行人体姿态估计。
技术实现思路
1、针对上述分析的现有技术存在的缺陷,本发明提出一种面向空对地轻量级人体目标姿态估计模型的构建方法与应用,设计一种轻量级人体姿态估计网络并引入知识蒸馏技术,解决现有人体姿态估计算法模型无法在空中设备平台上有效检测无人机离地面5-10m拍摄的远景目标和小目标的问题。
2、为达到上述目的,本发明的技术方案如下:
3、一方面,本发明公开了一种面向空对地轻量级人体目标姿态估计模型的构建方法,包括以下步骤:
4、s1:构建人体姿态估计的数据集;
5、s2:基于hrnet网络结构,设计深度卷积变换模块取代高分辨率网络中的残差卷积模块,得到多分支特征融合模块;
6、s3:设计多尺度特征融合模块,结合步骤s2中多分支特征融合模块,得到轻量级人体姿态估计模型;
7、s4:设计轻量级模型优化算法并利用其优化步骤s3中的轻量级人体姿态估计模型的训练过程,将步骤1的数据集中的数据输入优化后的轻量级人体姿态估计模型进行重新训练。
8、进一步地,上述步骤s1中的原始数据集为选取无人机离地面5-10m拍摄的远景、小目标数据,从而更好的适配空对地任务,然后对获取的原始数据集进行预处理,得到输入样本。
9、进一步地,上述步骤s2中设计深度卷积变换模块包括构建模块特征提取层和构建模块通道映射层。
10、基于上述方案,进一步地,构建模块特征提取层的具体步骤为:
11、采用层归一化消除输入样本的差异性,利用3×3的深度可分离卷积提取输入样本的像素点局部区域的上下文信息,引入级联通道注意力,对不同输入样本的各通道特征进行学习;
12、特征提取层的计算表达式如下:
13、f'=cca(dwconv3×3(layernorm(x)))+x
14、其中:x表示输入特征,layernorm表示层归一化操作,dwconv3×3表示3×3深度可分离卷积,cca表示级联通道注意力,f'表示经过特征提取层的输出特征。
15、基于上述方案,进一步地,构建模块通道映射层包括层归一化和两个1×1卷积操作,其构建步骤为:
16、将经过特征提取层的输出特征作为新的输入特征进行层归一化处理,利用第一个1×1卷积将特征通道扩充2倍,充分学习新的输入特征中的信息,利用第二个1×1卷积将特征通道数压缩至原通道数,保留重要的特征信息;
17、通道映射层的计算表达式如下:
18、
19、其中:分别表示第一个和第二个1×1卷积,f”表示深度卷积变换模块最终输出特征。
20、进一步地,上述步骤s3中设计多尺度特征融合模块包括:
21、(1)构建特征尺寸重定义层;
22、(2)构建特征信息融合层。
23、基于上述方案,进一步地,构建特征信息融合层由三个关键组件组成:
24、特征信息融合层第一层通过1×1卷积对叠加后的特征进行操作,压缩其通道数;
25、第二层通过3×3深度可分离卷积,融合各分支特征的空间信息;
26、最后,采用级联通道注意力来进一步提升融合的精度,其计算公式如下:
27、fb=cca(dwconv3×3(conv1×1(xb)))
28、其中:fb表示分支b上融合不同尺度特征信息后的输出特征。
29、在特征信息融合的最后一步,需要构建级联通道注意力机制,具体步骤为:
30、首先,构建高分辨特征通道注意力,输入特征会经过两个输出通道数不同的1×1卷积和获得包含多空间信息的特征矩阵和
31、其次,构建eca通道注意力,将和的尺寸分别定义为hw×1×1和hw×c/4,利用softmax函数对特征q进行非线性激活,然后将q转置使其尺寸为1×1×hw,再与v做矩阵乘积运算,使得空间信息压缩到权重参数
32、最后,对mc采用1×1卷积恢复通道数并与输入特征x进行加权得到输出特征计算公式如下所示:
33、
34、其中,fsg和fsm分别表示sigmoid函数和softmax函数,*表示卷积操作,表示矩阵乘积,⊙表示逐位相乘操作。
35、进一步地,在步骤s4中,构建轻量级模型优化算法时,包含标签知识蒸馏和特征知识蒸馏,将步骤s1、步骤s2构建的网络模型作为学生网络,使用已经训练完毕的教师网络对学生网络进行监督学习;具体为:选取教师模型和学生模型在第三阶段每条分支的输出特征进行监督学习,在第四阶段中输出特征仅通过单层的1×1卷积得到最终的关键点热图,第b条分支的注意力激活热图通过将特征在各通道维度上进行压缩获得,其表达式如下:
36、
37、其中,b为不同分辨率分支的索引,为映射之前的中的第i通道特征图中(h,w)位置对应的元素值,为求取平均值后的注意力激活热图;
38、计算教师模型和学生模型每条分支的注意力激活热图后,特征知识蒸馏的损失函数可以定义为公式:
39、
40、其中,n表示第三阶段中的分支数,和分别表示学生模型和教师模型在第b条分支上的注意力激活热图。
41、另一方面,本发明还公开了一种面向空对地轻量级人体目标姿态估计方法,包括以下步骤:
42、获取包含人物身体的图片;
43、将获取的图片输入到上述任一项所述的构建方法所构建的优化后的轻量级人体姿态估计模型中,得到人体姿态估计的输出结果。
44、与现有技术相比,本发明有以下有益效果:
45、(1)构建了基于级联通道注意力的轻量化人体姿态估计模块深度卷积变换模块,能够保持模型轻量化的同时提高姿态估计的精度。
46、(2)设计了一个多尺度特征融合模块,旨在增强不同尺度特征之间的语义融合效果,从而增强模型的特征丰富性,从而有助于模型更好地理解并处理具有不同尺度特征的输入,提升了模型对多样化场景的适应能力。
47、(3)设计一种知识蒸馏技术来重新训练和优化网络模型,即采用较为复杂但检测精度更高的教师模型指导轻量级的学生模型进行学习,使得学生模型能够在不增加计算成本的前提下提高自身的检测精度。
48、(4)所设计的网络相较于同类型方法,对远景目标,小目标的人体姿态估计更为精准,可以有效区分小目标人体关键点靠近导致的估计错误问题,更适配于空对地人体目标姿态估计。
本文地址:https://www.jishuxx.com/zhuanli/20250110/351958.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。