技术新讯 > 计算推算,计数设备的制造及其应用技术 > 基于超分辨率增强的单阶段低分辨率动作识别方法及系统 > 正文

基于超分辨率增强的单阶段低分辨率动作识别方法及系统

国知局
2024-07-31 22:37:40

本发明涉及计算机视觉人体动作识别，更具体的说是涉及一种基于超分辨率增强的单阶段低分辨率动作识别方法、系统、设备及介质。

背景技术：

1、随着移动互联网和智能手机的发展，视频相机正变得越来越无处不在。数以百万计的摄像头记录着人们的日常行为，这造成了严重的隐私保护问题。我们希望视频技术的发展和数据爆炸能够有助于理解和帮助人类开展生产和生活活动，但同时做好个人隐私保护也至关重要。以极低分辨率进行视频的采集、传输和存储被视为一种简单和有效的解决方案。低分辨率(lr)视频广泛存在于现实世界中，并且可以通过各种移动设备非常便捷地获取，大大降低了视频的录制成本和存储负担。

2、这给计算机视觉带来了一个新挑战——如何在低分辨率视频中识别人类的活动。尽管现有的视频动作识别技术已经取得了卓越的进展，但是这些方法都建立在采集到的数据具有足够丰富的语义和深度信息的基础上。在基于低分辨率数据的任务上，动作识别方法的有效性会被严重削弱。综上，探索一种在低分辨率视频中效果良好的有效动作识别方法是一项意义非凡的任务。

3、针对这一任务，已经产生了许多基于深度学习的方法。目前流行的基于卷积神经网络的动作识别方法，如双流网络，并不直接适用于低空间分辨率的视频。得益于超分辨率(sr)技术的发展，学习提取超分辨率视频特征的想法被广泛应用到各种研究上，比如人脸识别、医疗影像、目标检测、卫星成像、高清显示成像等等，并且取得了非常好的效果。在行为识别领域，许多学者也探索了基于超分辨率的研究，主要有以下两种：

4、(1)直接面向低分辨率原始数据的动作识别方法。该类方法不从数据的角度对视频本身进行分辨率增强，因而对模型特征提取与融合的能力提出了更高要求。由于低分辨率数据高级语义特征提取难度大，许多研究通过借助配对的高分辨率数据训练网络。

5、(2)基于超分辨率增强的低分辨率动作识别方法。该类方法往往分两个阶段执行低分辨率动作识别，即首先对低分辨率视频进行超分辨率增强，然后使用超分辨率的结果来执行动作识别。这种两阶段的框架将超分辨率增强模块和动作分类模块割裂起来，分别在不同数据集上训练，使得这个框架近似于增加了数据预处理步骤的动作识别模型。

6、低分辨率特性限制了空间域信息的有效获取，导致直接面向原始数据的动作识别方法往往难以提取到鲁棒的低分辨率特征。且超分辨率增强的研究是为了动作识别任务，而不是为了视觉质量。视觉质量是否决定了视觉分析结果的质量，例如动作识别的准确性，是一个悬而未决的问题。由于视频分析是由计算机而不是人类执行的，针对视觉质量进行优化的sr方法可能并不适合动作识别任务。有研究发现超分辨率增强方法通常会用图像细节增强插值帧，图像细节对动作识别可能是有益的，也可能是有害的，这取决于添加细节的区域。因此，在两阶段模型中分开超分辨率和动作识别可能会导致次优的识别性能。此外对于一个新的现实应用场景中，往往仅有低分辨率原始数据可用，大大限制了这类模型的实际应用能力。

7、在超分辨率研究中，非局部相似性先验假设，即小块倾向于在同一图像中重复出现，已被证明是自然图像的强先验。非局部注意力模块通过探索非局部自相似性特征并将非局部模块嵌入到深度网络中，极大地提升了超分辨率的性能。然而，全局非局部注意力需要计算所有像素位置之间特征的相互相似性，导致计算量很大，为图像尺寸的二次型。因此，如何使超分辨率网络具有非局部建模能力，同时将计算开销保持在可接受的范围内，是另一个重要问题。

8、综上所述，开发一种以端到端的方式学习下游低分辨率人体行为特征的动作识别模型具有十分重要的研究意义与应用价值。

技术实现思路

1、为了解决上述现有技术中存在的不足，本发明针对计算机视觉人体动作识别点现有技术实际应用能力弱、计算复杂度高、高精度动作识别三大难点问题，提供了一种基于超分辨率增强的单阶段低分辨率动作识别方案。

2、为了实现上述目的，本发明提出一种基于超分辨率增强的单阶段低分辨率动作识别方法，建立一个端到端的统一单阶段低分辨率视频动作识别框架，用于实现动作识别；该框架集成超分辨率模块和动作识别模块，在单阶段内以动作识别为导向，仅需低分辨率数据而不依赖于高分辨率数据，联合训练超分辨率和动作分类；从无参考图像质量评价的角度，通过评估超分辨率模块输入和输出两种特征在自一致性和邻域一致性上的变化幅度保持空间一致性；设置由自一致性损失、邻域一致性损失和交叉熵损失线性组合成的综合损失函数，通过在整个框架中反向传播来实现端到端优化。

3、而且，所述超分辨率模块中，设置轻量残差块用于特征提取，将结合稀疏性的非局部注意力模块嵌入到超分辨率模块主体。

4、而且，所述轻量残差块中设置有两个shuffle块，第一个shuffle块和第二个shuffle块间设置relu激活层，在第二个shuffle块之后与轻量残差块的输入进行逐元素相加实现残差结构。

5、而且，所述将结合稀疏性的非局部注意力模块嵌入到超分辨率模块主体，实现方式为在轻量残差块之间插入非局部稀疏注意块，由此引入稀疏注意力防止网络集中在嘈杂和信息较少的位置。

6、而且，在每8个轻量残差块之间插入1个非局部稀疏注意力块。

7、而且，基于所述端到端的统一单阶段低分辨率视频动作识别框架实现动作识别时，以低分辨率动作视频数据作为输入，首先经过超分辨率模块得到超分辨率特征，其次输入到动作分类器中输出动作类别，随后计算综合损失函数用于联合优化整个框架。

8、另一方面，本发明提供一种计算机装置/设备/系统，包括存储器、处理器及存储在存储器上的计算机程序，所述处理器执行所述计算机程序以实现如上所述基于超分辨率增强的单阶段低分辨率动作识别方法的步骤。

9、另一方面，本发明提供一种计算机可读存储介质，其上存储有计算机程序/指令，该计算机程序/指令被处理器执行时实现如上所述基于超分辨率增强的单阶段低分辨率动作识别方法的步骤。

10、另一方面，本发明提供一种计算机程序产品，包括计算机程序/指令，该计算机程序/指令被处理器执行时实现如上所述基于超分辨率增强的单阶段低分辨率动作识别方法的步骤。

11、本发明设计了一个端到端的统一单阶段低分辨率视频动作识别框架，在单阶段中联合优化视频超分辨率和动作分类，以学习更鲁棒和全面的动作特征。所探索的模型将超分辨率增强和动作分类级联起来形成一个单一的流框架，低分辨率视频帧得到了很好的增强，以促进动作分类。为了更好地集成超分辨率和动作识别模块，构建了一个综合损失函数来保持网络结构的平滑性。在该损失的帮助下，网络直接从低分辨率视频中学习并捕获优化的特征用于动作识别。该框架非常灵活，任何超分辨率模块和动作识别网络都可以灵活地与之集成。此外，基于mdsr模型改进了一个轻量高效的超分辨率模块，通过非局部稀疏注意模块增强了非局部操作的稀疏性。稀疏性约束使得模块在保持全局建模能力的同时，只关注相关度较高、信息更丰富的局部区域，从而提高了超分辨率模块的鲁棒性和效率。

12、本发明方案实施简单方便，实用性强，解决了相关技术存在的实用性低及实际应用不便的问题，能够提高用户体验，具有重要的市场价值。在人体行为分析，安防监控等方面具有重要科学研究价值和实际工程意义。