技术新讯 > 计算推算,计数设备的制造及其应用技术 > 一种基于注意力机制的视频人体姿态传播方法  >  正文

一种基于注意力机制的视频人体姿态传播方法

  • 国知局
  • 2024-07-31 23:09:12

本发明属于姿态估计,具体涉及一种基于注意力机制的视频人体姿态传播方法。

背景技术:

1、人体姿态估计的目标是定位给定图像中人物身体的关键点,以准确识别人体姿势;这项技术是计算机视觉领域里一项具有挑战性的前沿技术,也是许多其他视觉任务的重要基础和前提,如医疗康复和动作捕捉。人体姿态估计的最终效果是把一张图像中各个人物的骨骼关节点按一定规则连接起来,从而在视觉上呈现这个人的姿势。

2、基于视频的人体姿态估计技术依赖于大量密集标注的视频帧,这些方法认为视频帧之间丰富的关联信息只能用于训练,而忽视了视频样本标注的有序性和相关性,即邻近帧之间的时间连续性和空间相似性。在视频中,由于人的运动是连续的,邻近帧之间的人体姿态变化往往是平滑和渐进的,这意味着如果能够有效地利用这种时间和空间上的连续性,就可以摆脱对每一帧都进行标注的需求。通过分析连续帧之间的变化可以推断出中间帧的姿态信息,而无需对每一帧都进行标注;传统的密集标注不仅耗时耗力,而且成本高昂。

3、视频姿态传播为稀疏标注提供了可能,稀疏标注相关方法作为一种减少标注需求的技术,受到了广泛的关注;稀疏标注指选择一部分数据进行标注,即并非所有的数据都会被标注,这样做的好处是可以显著减少标注工作量和成本,并且充分利用所有可用数据资源。基于图像的姿态估计方法无法直接用于姿态传播任务,主要是因为这些方法只能处理单个视频帧而忽略了时序运动线索;而基于视频的一些姿态估计方法如文献[gedasbertasius,christoph feichtenhofer,du tran,jianbo shi,and lorenzotorresani.learning temporal pose estimation from sparsely-labeled videos.inadvances in neural information processing systems,pages 3027–3038,2019.2,3,6],会在面对遮挡和运动模糊等场景时造成性能衰退,并且当时序间隔较大时它们无法有效利用长程时序信息;又如文献[runyang feng,yixing gao,xueqing ma,tze ho eldentse,and hyung jin chang.mutual information-based temporal difference learningfor human pose estimation in video.in proceedings of the ieee/cvf conferenceon computer vision and pattern recognition,pages 17131~17141,june 2023.1]提出的是目前针对视频的最优方法,但其无法在推理时融合标注帧的标签热图,导致无法在稀疏标注视频数据集上进行姿态传播。

4、由此可见,现有的姿态估计方法无法直接用于姿态传播任务,主要是因为这些方法大多是为单张图像的姿态估计而设计的,对于时序信息尤其是间隔较大的时序信息无法有效利用,并且在姿态传播任务中,模型被要求能够融合标注帧的标签热图,目前的针对视频的多数方法都无法实现,无法很好地在稀疏标注视频数据集上进行姿态传播任务。

技术实现思路

1、鉴于上述,本发明提供了一种基于注意力机制的视频人体姿态传播方法,能够解决单帧图像方法面临的时序信息缺失问题,实现对粗糙热图中的姿态更精细化的调整,提升姿态传播的精确度,解决标注更稀疏情况下的姿态传播的退化问题,探寻出半自动化视频姿态标注的可行性。

2、一种基于注意力机制的视频人体姿态传播方法,包括如下步骤:

3、(1)获取以人物为中心的视频数据集并进行处理;

4、(2)构建基于纯注意力机制的端到端编-解码模型架构,包括编码器和解码器,编码器包括骨干网络和时空全局融合模块,其中:

5、所述骨干网络用于提取视频图像中的人体姿态特征,输出特征令牌和姿态热图;

6、所述时空全局融合模块用于融合时序特征,对特征令牌在空间上进行全局融合;

7、所述解码器用于局部空间姿态校正,将掩码热图和姿态热图拼接后与编码器输出的特征进行姿态融合和精细化的姿态校正,从而生成关键点热图;

8、(3)利用视频数据集对上述模型架构进行训练,得到视频人体姿态传播模型;

9、(4)将未标注的视频帧及其标注的支持帧输入至视频人体姿态传播模型,即可预测输出该视频帧中人物各关键点的位置坐标。

10、进一步地,所述步骤(1)中对于视频数据集中任一段视频,在视频中以间隔m均匀选定n个视频帧作为标注帧,为每个非标注帧匹配前向和后向最近的标注帧作为其支持帧,为每个标注帧匹配前向和后向距离为m/2的两个非标注帧作为其支持帧,m为大于0的自然数,n为大于1的自然数。

11、进一步地,所述骨干网络基于vision transformer,其包括补丁嵌入层、级联的transformer block层以及上采样检测头,输入为视频帧及其对应匹配的两个支持帧,首先将这三帧在批次维度连接送入补丁嵌入层进行嵌入压缩并添加位置信息,再送入级联的transformer block层提取特征得到特征令牌,最后将特征令牌变换形状后送入上采样检测头得到姿态热图。

12、进一步地,所述时空全局融合模块包括预处理层、级联自注意力层以及线性融合层,该模块的输入为特征令牌和姿态热图,先通过预处理层对特征令牌进行权重筛选,再通过级联自注意力层进行空间上的全局融合,最后利用线性融合层把特征令牌的数量缩减三倍以实现输入输出对应,最终输出融合特征。

13、进一步地,所述预处理层的具体实现方式为:首先将特征令牌和姿态热图在批次维度分开,得到三个时刻的特征令牌和姿态热图,然后利用1×1的卷积块将三张姿态热图降维至单通道并分成与特征令牌尺度大小相等的块,进而将块沿最后一个维度复制成和对应特征令牌相同大小形状后,再与对应的特征令牌进行逐点相乘实现权重筛选,最后把筛选后的三个特征令牌在通道维度拼接起来作为输出。

14、进一步地,所述级联自注意力层用于对预处理层输出的特征进行全局空间计算,该层由多个transformer块级联而成,每个transformer块包含两个归一化层、一个多头自注意力层和一个多层感知机,多层感知机包含一个维度扩大两倍的线性层、一个silu激活函数、一个维度缩小两倍的线性层,具体操作表达式如下:

15、y=x+mhsa(layernorm(x))

16、z=y+mlp(layernorm(y))

17、out1=z+x

18、其中:x为transformer块的输入,y和z为中间变量,out1为transformer块的输出,layernorm()表示层归一化处理,mhsa()表示多头注意力计算,mlp()表示多层感知机。

19、进一步地,所述线性融合层用于压缩级联自注意力层输出的特征,其先调换特征的后两个维度,使用全连接层将最后一个维度降为1/3,应用layernorm进行归一化后,再将后两个维度调换回来后输出融合特征。

20、进一步地,所述解码器包含掩码生成模块、补丁匹配校正模块以及姿态检测头,其中掩码生成模块先计算骨干网络输出的姿态热图之间的残差并进行压缩激活处理得到姿态掩码,然后合并对应通道的姿态热图并与姿态掩码进行计算得到掩码热图,随后将掩码热图与姿态热图拼接后送入补丁匹配校正模块进行姿态融合和精细化的姿态校正,最后通过姿态检测头将分辨率恢复至热图大小并输出。

21、进一步地,所述掩码生成模块具体实现方式为:首先将骨干网络输出的姿态热图沿批次维度分为前向姿态热图、当前姿态热图和后向姿态热图,将三张姿态热图在通道维度拼接起来得到合并热图;然后将当前姿态热图分别减去前向和后向姿态热图得到两个热图残差,并将两个热图残差分别沿通道维度进行压缩(相加合并)为单通道热图残差,进而对两组单通道热图残差做变种sigmoid函数运算得到两张掩码;接下来将两张掩码相加得到合并掩码,将合并掩码扩展至与合并热图同样形状后再与合并热图进行逐点相乘得到掩码热图,最后将掩码热图与合并热图在通道维度拼接后送入补丁匹配校正模块,具体操作表达式如下:

22、diff_a=htm_curr-htm_back

23、diff_b=htm_curr-htm_forw

24、

25、diff_a_sing_dim,diff_b_sing_dim=compress(diff_a,diff_b)

26、mask1=varsigmoid(diff_a_sing_dim)

27、mask2=varsigmoid(diff_b_sing_dim)

28、htm_masked=dup(mask1+mask2)⊙htm_merg

29、

30、其中:htm_curr、htm_back、htm_forw分别为当前姿态热图、后向姿态热图和前向姿态热图,diff_a和diff_b分别为后向热图残差和前向热图残差,htm_merg表示合并热图,diff_a_sing_dim和dim,diff_b为两组单通道热图残差,compress()表示通道压缩操作,varsigmoid()表示变种sigmoid函数,mask1和mask2为两张掩码,dup()表示将掩码复制扩展到多通道操作,⊙表示点乘运算,htm_masked表示掩码热图,表示拼接操作,out2为掩码生成模块的输出。

31、进一步地,所述补丁匹配校正模块由多个用于校正的计算块级联组成,每个计算块包含三个layernorm层、一个多头自注意力层、一个交叉注意力层以及一个前馈网络层,补丁匹配校正模块先将掩码生成模块的输出进行补丁嵌入后再送入计算块中,计算块的具体计算表达式如下:

32、y=x+mhsa(layernorm(x))

33、z=y+ca(layernorm(y)wq,fwk,fwv)

34、out3=ffn(layernorm(z))+silu(x)

35、其中:x为计算块的输入,y和z为中间变量,out3为计算块的输出,wq、wk、wv为三个可学习的参数矩阵,f为时空全局融合模块输出的融合特征,mhsa()表示多头注意力计算,layernorm()表示层归一化处理,ca()表示交叉注意力计算,ffn()表示前馈网络层,silu()表示silu激活函数。

36、进一步地,所述步骤(3)中先利用视频数据集对骨干网络进行训练,保存其网络参数,然后再训练时空全局融合模块和解码器,导入骨干网络的参数文件并将骨干网络冻结住,利用mse函数计算解码器输出的热图与对应标签热图之间的损失,迭代更新模型参数,保存最佳的模型参数。

37、进一步地,所述步骤(4)中将未标注的视频帧及其标注的支持帧输入至视频人体姿态传播模型,将骨干网络输出的姿态热图替换为支持帧的标签热图以实现姿态标签传播,最终通过模型预测输出该视频帧中人物各关键点的位置坐标。

38、基于上述技术方案,本发明具有以下有益技术效果:

39、1.本发明通过采用自注意力机制和端到端的编码器-解码器架构,有效地捕捉和融合了视频中的时空信息,解决了传统单帧图像方法无法充分利用时序信息的问题,从而提高了姿态估计的准确性和鲁棒性。

40、2.本发明模型中的时空全局融合模块利用自注意力机制对多个视频帧的特征进行全局空间融合,不仅增强了模型对视频中动态变化的适应能力,还提升了对复杂动作和遮挡情况的处理能力。

41、3.本发明模型中的补丁匹配校正模块通过合并多帧姿态热图,并根据编码器输出的特征进行补丁匹配局部空间校正,实现了对初步姿态估计的精细化调整,显著提高了姿态传播的精确度,尤其是在标注稀疏或质量不高的情况下,有效避免了姿态估计的退化问题。

42、4.本发明通过引入半自动化的视频姿态标注方法,减少了对大量手动标注的依赖,降低了标注成本,同时提高了标注过程的效率和可行性,为大规模视频姿态数据集的构建提供了新的途径。

本文地址:https://www.jishuxx.com/zhuanli/20240730/196107.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。