技术新讯 > 计算推算,计数设备的制造及其应用技术 > 一种基于迁移学习和改进ResNet-18的红外图像人体行为识别方法 > 正文

一种基于迁移学习和改进ResNet-18的红外图像人体行为识别方法

国知局
2024-07-31 23:15:59

本发明涉及计算机视觉领域，具体是一种基于改进resnet-18网络的人体行为识别方法。

背景技术：

1、随着视频监控的普及与广泛使用，人体行为识别(human acfivity recognition，har)在公共安全监控，人机交互，医疗看护，交通监管等领域都有良好表现。检测场景中通常存在遮挡、模糊、多物体等干扰因素，设计一种准确率高的人体行为识别方法是该领域亟需解决的问题。

2、目前红外系统当中的人体行为识别仍有较大发展空白等待填充，红外图像以其受光照影响小、保护隐私等特点，在人体行为识别中有着独特的优势传统的resnet-18网络性能较为优异，在可见光图像识别上一直表现良好，但在红外图像识别中效果欠佳。因此，本论文运用卷积神经网络和迁移学习的知识，以resnet-18网络为基础，对其结构和训练进行优化，构建基于红外传感器的人体行为识别方法，具体内容主要为以下四个方面：

3、(1)运用mixup是一种数据增强技术，它通过在训练过程中随机地将两个样本及其标签以线性插值的方式混合，从而生成新的训练样本和标签。这种方法可以增加模型对于输入变化的鲁棒性，提高模型的泛化能力。

4、(2)使用dropout正则化技术，减少神经元之间的协同作用，使得网络的每个神经元都能够独立地学习有用的特征，增加了网络的容量，并通过减少模型对特定特征的过度依赖，间接地简化了模型的复杂性。

5、(3)在resnet-18网络中的残差块当中引入注意力机制，提高对不同特征的关注能力。

6、(4)在模型训练时引入基于模型的迁移学习方法，解决红外图像数据集较少的问题，加快模型训练的收敛速度。

7、mixup是一种数据增强技术，它通过在训练过程中随机地将两个样本及其标签以线性插值的方式混合，从而生成新的训练样本和标签。这种方法可以增加模型对于输入变化的鲁棒性，提高模型的泛化能力。

8、dropout是一种有效的正则化技术，它的主要优点包括：

9、①减少过拟合。通过在训练过程中随机将网络中的一部分神经元置为零，dropout减少了网络对特定神经元的依赖，从而降低了过拟合的风险。

10、②提高泛化能力。由于每次训练时网络都在学习不同的特征子集，这迫使网络对输入的微小变化具有鲁棒性，从而提高了模型的泛化能力。防止协同作用。dropout可以减少神经元之间的协同作用，使得网络的每个神经元都能够独立地学习有用的特征。

11、③增加网络容量。通过随机丢弃部分神经元的输出，dropout实际上增加了网络的容量，因为它允许网络学习更复杂的模式和特征。

12、④简化模型复杂性。dropout通过减少模型对特定特征的过度依赖，间接地简化了模型的复杂性。

技术实现思路

1、发明目的：

2、本文主要研究内容为基于红外图像进行人体行为识别，构建一种基于卷积神经网络cnn算法的人体行为识别方法，通过深度学习处理红外传感器采集到的红外图像进行人体行为的识别。并在保持运行效率较高的基础上，通过对网络结构的改进提高检测精度等性能，实现一定程度上的性能优化。

3、技术方案：本发明的具体步骤如下；

4、s1：寻找到来自csdn网站的红外人体行为数据集，网址为https://download.csdn.net/download/woniuhuihui/12106985？utm_medium＝distribute.pc_relevant.none-task-download-2～default～baidujs_utm_term～default-8-12106985-blog-103102877.235^v36^pc_relevant_default_base3&spm＝1001.2101.3001.4242.5&utm_relevant_index＝11。在此数据集中数据分为了训练集和测试集两部分，内含的红外人体行为类别包括sitting、running、standing、looking-back、walking以及lying-down六类，训练集中每个行为类别下存有200张不同的数据，测试集中每个行为类别下存有80张不同的数据。

5、s2：修改了resnet-18的池化层，将单一的最大池化替换为最大池化与平均池化相结合，在resnet-18网络的残差块中增加se块并添加正则化处理，同时引入mixup数据增强技术。

6、s3：将基于可见光大规模数据集训练好的分类模型参数作为改进后的resnet-18网络的初始参数，利用s1中的数据集训练改进后的模型resnet-18，训练轮次为100轮。

7、步骤s1中，本实验的数据集为红外人体行为数据集，在此数据集中数据分为了训练集和测试集两部分，内含的红外人体行为类别包括sitting、running、standing、looking-back、walking以及lying-down六类，训练集中每个行为类别下存有200张不同的数据，测试集中每个行为类别下存有80张不同的数据。

8、步骤s2中，本实验对resnet-18卷积神经网络模型进行了四点改进。首先，由于在传统的残差网络中通常使用的是单一的最大池化或者平均池化，导致会不可避免地丢失部分有用的信息。本文选择将最大池化所提取的特征与平均池化的相结合，增强了网络的表达能力，使得得到的特征更加多元。其次，在resnet-18中的每个残差块引入了se(squeeze-and-excitation)块，增强卷积神经网络性能的注意力机制模块，其目的是提高卷积神经网络的表征能力，使其能够更好地适应不同的特征通道，让网络能够将注意力放在更有价值的区域信息上，将更多的注意力放在人体形态特征的信息上，而不受无价值的信息的干扰。再者对残差块进行dropout正则化处理，减少了网络对特定神经元的依赖，从而降低了过拟合的风险，同时增加了网络的容量，允许网络学习更复杂的模式和特征。其中涉及残差交叉熵公式：

9、

10、其中yi是真实标签(通常是一个ome-hot同量)，是预测的概率分布。以及优化器sgd，其基本更新规则是：

11、

12、其中是θ模型参数，α是学习率，是损失函数关于参数θ的梯度

13、最后，引入mixup数据增强技术，在训练过程中随机地将两个样本及其标签以线性插值的方式混合，从而生成新的训练样本和标签，这种方法可以增加模型对于输入变化的鲁棒性，提高模型的泛化能力。

14、步骤s3中，人体行为识别相关的数据集也大部分是基于可见光系统的，红外数据集的数量较少，这就导致红外人体行为识别方法在进行模型训练的时候，会受到数据集较为稀缺的限制，使得训练出来得到的模型泛化能力不够强、容易出现过拟合等问题。

15、由于基于可见光图像的人体行为识别作为源任务，基于红外图像的人体行为识别作为目标任务，满足基于模型的迁移学习的前提：源任务是与目标任务相似的问题，或者是在相同领域但不同任务上的问题，因此，本文引入基于模型的迁移学习，将基于可见光的分类任务训练得到的模型参数应用于基于红外图像的人体行为识别任务当中，作为模型训练的初始化参数，从而在红外图像数据有限的情况下提高模型的性能和泛化能力，加快训练速度，并解决目标任务数据不足的问题。最终得到精确的基于红外图像人体行为识别模型。

16、实验效果：

17、通过改进的resnet-18模型结合mixup和dropout，实现了人体行为识别的优化。本文还修改了resnet-18的池化层，将单一的最大池化替换为最大池化与平均池化相结合，在resnet-18网络的残差块中增加se块并添加正则化处理。最后实验结果表明：改进后的算法比原始resnet-18算法精度提高1.87％。这证明了本文所提方法的有效性；改进后的resnet-18网络的识别率明显优于原本的文献中resnet-18网络。

18、附图表说明

19、图1改进前和三种改进后的识别率

20、图2三次改进的前后loss对比

21、图3三次改进对应的混淆矩阵