基于改进RepVGG网络的头部姿态检测方法及设备
- 国知局
- 2024-11-06 14:47:28
本技术涉及姿态检测,特别是涉及一种基于改进repvgg网络的头部姿态检测方法及设备。
背景技术:
1、头部姿势估计旨在计算图像或视频中人体头部的三维方向,是计算机视觉领域广泛研究的基础问题,在多个领域有着广泛的实用价值。在驾驶员状态检测领域中,头部姿态估计可以与面部检测结合来监测驾驶员的警觉状态,从而提高驾驶安全。在人机交互领域中,它可以帮助系统理解用户的视线和注意力方向,根据用户的头部姿态调整视角,使得体验更加真实。在监控应用中,头部姿态估计可以帮助识别人群中的异常行为,如通过头部姿态实时识别课堂上的学生行为,使得教师调整教学方法以提高学生参与度。头部姿态估计技术增强了多种技术和设备的功能性和互动性,极大地扩展了现代技术的应用范围和深度。
2、基于面部关键点和无面部关键点是解决头部姿态估计任务的两种主要方法。基于关键点的方法主要通过由面部坐标检测器提取的面部关键点来回归头部姿态角。hhp-net利用二维姿态估计算法自动计算关键点,并输出由偏航、俯仰和滚动表示的头部姿态。barra等首先预测68个面部关键点的位置,再将每个标志点分配给一个特定的扇区,并使用获得的整体信息构建一个特征向量来推断头部姿态。gupta等在五个面部关键点上使用二维软定位热图形式的不确定性图,并通过卷积神经网络对头部姿态进行回归。eva-gcn构建了一个关键点连接图,并利用图卷积网络来学习真实头部姿态和面部关键点分布之间的非线性相关性。h-cnn迭代地细化面部关键点,而头部姿态估计是总任务的一个支线任务。然而基于面部关键点方法严重依赖关键点检测的质量,轻微不准确的关键点定位就可能对头部姿态估计产生不利影响,而且学习真实头部姿态与面部关键点的几何分布之间的关系也是一项非常琐碎的任务。此外,基于面部关键点的方式还需要面部关键点的相关数据集,这增加了模型训练前的工作量。
3、非关键点的方法直接从面部图像估计头部姿势,无需检测关键点,减少了执行时间。rafa通过在网络结构中引入自我注意机制来自动捕捉人脸细节。kuhnke等提出了一种基于相对姿态一致性正则化的半监督学习策略来进行头部姿态估计。trinet提出了一个预测具有正交性约束的三个向量的深度网络模型,并使用平均绝对误差(maev)来评估性能。mfdnet提出了一个具有三元模块和矩阵fisher分布模块的三分支头部姿态模型。它是一种可以鲁棒性地学习的头部姿态嵌入方法。arhpe通过引入洛伦兹分布,对偏航方向和俯仰方向赋予不同的权重。与传统的端到端框架相比,所提出的方法可以通过输入图像利用不对称关系线索来预测标签不正确情况下的头部姿态角。近年来,无面部关键点的头部姿态估计方法已成为一个有前景的研究领域,其具有更好的泛化能力和简单的处理流程,因此本实施例通过无面部关键点方法进行面部姿态估计任务。
4、由于表情、种族和性别等头部外观,以及遮挡、噪声和照明等环境因素的巨大变化,头部姿势估计的任务具有挑战性。随着深度学习的发展,头部姿态检测技术也随之发展,检测的效果也得到了较大提升。但现有检测方案中存在采集的特征鲁棒性较差,关键特征的捕捉能力不足,模型的稳定性和准确率不平衡等问题。
技术实现思路
1、本技术的目的是提供一种基于改进repvgg网络的头部姿态检测方法及设备,基于改进repvgg和无面部关键点完成头部姿态检测,提高头部姿态检测的检测精度。
2、为实现上述目的,本技术提供了如下方案:
3、第一方面,本技术提供了一种基于改进repvgg网络的头部姿态检测方法,包括:
4、获取待测头部图像;
5、将所述待测头部图像输入到头部姿态检测模型中,得到待测头部图像的头部姿态;所述头部姿态检测模型是利用不同姿态的面部图像对改进repvgg网络进行训练后得到的;所述改进repvgg网络是在repvgg网络中添加特征去噪模块和注意力信息融合模块后得到的。
6、可选地,所述改进repvgg网络包括:依次连接的特征去噪模块、第一特征提取模块、第二特征提取模块、第三特征提取模块、第四特征提取模块、注意力信息融合模块、第五特征提取模块、全连接结构和schmidt正交函数。
7、可选地,所述特征去噪模块包括:依次连接的第一卷积操作层、批量归一化层、relu激活函数层和第一残差运算层;
8、所述卷积操作层的输入端输入待测头部图像或训练的不同姿态的面部图像;
9、所述第一残差运算层的第二输入端用于输入待测头部图像或训练的不同姿态的面部图像;
10、所述第一残差运算层还与所述第一特征提取模块的输入端连接。
11、可选地,所述第一特征提取模块包括第一残差结构;
12、所述第二特征提取模块包括依次连接的第二残差结构和n1个第三残差结构;
13、所述第三特征提取模块包括依次连接的第四残差结构和n2个第五残差结构;
14、所述第四特征提取模块包括依次连接的第六残差结构和n3个第七残差结构;
15、所述第五特征提取模块包括第八残差结构;
16、所述第一残差结构、所述第二残差结构、所述第四残差结构、所述第六残差结构和所述第八残差结构均为包含1×1卷积矩阵的残差结构;
17、所述第三残差结构、所述第五残差结构和所述第七残差结构均为包含1×1卷积和恒等映射的残差结构。
18、可选地,所述注意力信息融合模块包括改进注意力模块、第二残差运算层、relu激活函数层、第二卷积操作层、第一sigmoid函数层、第一乘运算层、第二乘运算层和第三残差运算层;
19、所述改进注意力模块的输入端、所述第二残差运算层的第一输入端和所述第一乘运算层的第一输入端均与所述第四特征提取模块的输出端连接;
20、所述改进注意力模块的第一输出端与所述第二残差运算层的第二输入端连接;
21、所述改进注意力模块的第二输出端与所述第二乘运算层的第一输入端连接;
22、所述第二残差运算层的输出端与所述relu激活函数层的输入端连接;
23、所述relu激活函数层的输出端与所述第二卷积操作层的输入端连接;
24、所述第二卷积操作层的输出端与所述第一sigmoid函数层的输入端连接;
25、所述第一sigmoid函数层的第一输出端与所述第一乘运算层的第二输入端连接
26、所述第一sigmoid函数层的第二输出端与所述第二乘运算层的第二输入端连接
27、所述第二乘运算层的输出端与所述第三残差运算层的第一输入端连接;
28、所述第一乘运算层的输出端与所述第三残差运算层的第二输入端连接;
29、所述第三残差运算层的输出端与所述第五特征提取模块的输入端连接。
30、可选地,所述改进注意力模块包括:第一分支、第二分支、第三分支和第四残差运算层;
31、所述第一分支的输出端、所述第二分支的输出端和所述第二分支的输出端均与所述第四残差运算层的输入端连接;
32、所述第四残差运算层的输出端分别与所述第二残差运算层的第二输入端和所述第二乘运算层的第一输入端连接。
33、可选地,所述第一分支包括第三卷积操作层;
34、所述第三分支包括第四卷积操作层;
35、所述第二分支包括平均池化层、第五卷积操作层、第二sigmoid函数层和第三乘运算层;
36、所述平均池化层的输入端和所述第三乘运算层的第一输入端均与所述第四特征提取模块的输出端连接;
37、所述平均池化层的输出端与所述第五卷积操作层的输入端连接;
38、所述第五卷积操作层的输出端与所述第二sigmoid函数层的输入端连接;
39、所述第二sigmoid函数层的输出端与所述第三乘运算层的第二输入端连接。
40、可选地,在获取待测头部图像之前,还包括:
41、构建改进repvgg网络;
42、确定多张训练头部图像对应的旋转矩阵为真实旋转矩阵;所述训练头部图像为不同姿态的面部图像;
43、将多张训练头部图像输入到改进repvgg网络中,得到多张训练头部图像对应的预测旋转矩阵;
44、根据多个真实旋转矩阵和多个预测旋转矩阵,基于混合损失函数确定混合损失函数值;所述混合损失函数对测地线距离与缩放后的frobenius范数进行加权求和确定的;
45、调整所述改进repvgg网络的参数,并返回步骤“将多张训练头部图像输入到改进repvgg网络中,得到多张训练头部图像对应的预测旋转矩阵”,直至迭代次数等于预设迭代次数,确定最后一次迭代时的改进repvgg网络为头部姿态检测模型。
46、可选地,所述混合损失函数为:
47、
48、其中,lhg(rtrue,rpred)为混合损失函数,rtrue为真实旋转矩阵,rpred为预测旋转矩阵,lgeodesic(rtrue,rpred)为测地线距离,α为测地线距离权重,lfrobenius(rtrue,rpred)为frobenius范数,γ为缩放因子,β为缩放后frobenius范数权重。
49、第二方面,本技术提供了一种计算机设备,包括:存储器、处理器以存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序以实现上述基于改进repvgg网络的头部姿态检测方法。
50、根据本技术提供的具体实施例,本技术公开了以下技术效果:
51、本技术提供了一种基于改进repvgg网络的头部姿态检测方法及设备,在repvgg网络中添加特征去噪模块和注意力信息融合模块后得到改进repvgg网络(即repvgg-dp框架);特征去噪模块(imd),仅通过卷积层、批量归一化和relu激活函数的组合与原始特征的残差连接处理得到鲁棒特征,有效地促进上下文交互,从而增强了模型的学习能力;特征去噪模块设计简单,可以毫不费力地集成到各种cnn架构中,其轻量级特性允许与标准cnn进行无缝的端到端训练,而产生的额外成本可以忽略不计。注意力信息融合模块通过动态调整原始特征和加工特征的融合比重,以自适应地根据特征图本身的内容调整特征的重要性,增强了模型对关键特征的捕捉能力,相比于传统的注意力机制,提供了更为细粒度的调整方式,从而提升了模型在复杂视觉任务中的性能。
52、此外,本技术还提出了一种混合损失函数,该函数融合了测地线距离和frobenius范数各自的优点,并调整了frobenius尺度使其更好地与测地线距离配合,相比于单一损失函数,这种混合损失函数在更敏感地适应姿态变化的同时保持了姿态评估的精度,显著提升头部姿态估计任务的性能。
本文地址:https://www.jishuxx.com/zhuanli/20241106/324141.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。