一种基于通道级特征选择与融合网络的可见与红外行人重识别方法
- 国知局
- 2024-10-21 14:38:41
本发明方法涉及人工智能计算机视觉技术、图像识别相关领域,具体来说涉及一种用于可见与红外行人重识别的通道级特征选择与融合网络。
背景技术:
1、目前我国城市化进程日益加快,各地旅游业等娱乐产业快速发展,大大增加了城市人员活动数量与流动性,给城市管理与安全监控带来全新挑战。视频监控技术被广泛应用于室内与室外等监控场景,是城市安全监控中的一种重要方法,有助于警方与安全监管人员对城市进行实时监控,从而更好地维护社会稳定和人民生命财产安全。
2、行人重新识别(reid)是利用计算机视觉技术判断图像或者视频序列中是否存在特定行人的技术,旨在通过多个不重叠的摄像头搜索待检索的人员,实现跨监控图像、设备视频中的行人检索及轨迹跟踪。
3、行人重新识别技术弥补了监控设备的视觉局限性,具有巨大的实用价值和应用前景,其中具有代表性的有智能安防领域的嫌犯追踪、大型公共场所的智能寻人、智慧商业的无人超市、智能机器人领域等。但是在实际应用中因为异时异地的相同行人图像数据在姿势、背景、光线视角以及成像分辨率等方面存在差异较大,使得行人重新识别目前的研究仍然具有挑战性。
4、随着深度学习被成功应用于行人重识别,大大地促进了该领域的发展。传统的行人重识别主要工作集中在同一模态下的识别上,大部分应用于光源充足的场景。而为了克服用于可见光摄像头无法全天候进行使用的缺点,具有红外模式的摄像头正在普及,导致在可见光模式和红外模式下,分别采集到的是rgb图像和红外图像,由此跨模态的可见与红外行人重识别问题被提出。它所面临的挑战主要有:不同的相机视角和人体姿势导致的巨大的模态内的差异;不同结构数据间差异较大的问题,rgb图像三通道的信息和infrared图像的单通道信息本身的信息容量和表示形式有所不同,不同的清晰度和光照条件在两类图像上所能产生的效果也会大相径庭。
5、目前大多数模型注重学习跨模态图像中的共享特征,ye等人提出了一种经典的双流卷积神经网络结构,通过在网络的深层共享学习参数以学习跨模态共享空间,并应用特征对齐方法来弥合两个高度异构模态图像间的差异。然而由于可见光图像与红外图像的巨大差异,仅通过共享特征提取器来提取跨模态信息可能会限制可见光和红外图像在各自的特征空间中的表达能力,最终导致重要的特定特征信息被忽略,例如颜色、红外热度等具有高辨别度的特征属性。
技术实现思路
1、发明目的:根据前面所提到的,目前主流的可见与红外行人重识别方法注重共享特征学习,但由于可见光图像与红外图像的巨大差异,仅关注模态共享表示的共享特征将导致部分具有判别性的特定信息被忽略。为解决这一问题,本发明提出了一种基于通道级特征选择与融合网络的可见与红外行人重识别方法。该方法使用基于resnet-50的双流特征提取器构建主干网络,利用imagenet预训练模型初始化主干网络,利用fsm和cffm构建通道级特征选择与融合网络,fsm模块根据不同模态特征归一化所得通道特征的重要性自适应选择特定特征与共享特征,然后利用cffm实现双通道均值加权融合,获得同时包含共享特征和特定特征信息的融合特征,实现在不影响原有特征的表达能力的同时提升模型特征多样性,进一步提高模型识别准确率。
2、本发明的目的可以通过以下技术方案来实现:
3、一种基于通道级特征选择与融合网络的可见与红外行人重识别方法,包括以下步骤:
4、(1)选取了sysu-mm01与regbd数据集作为实验数据集,并将数据集分为三个部分:训练集、测试集和查询集。采用随机水平翻转、随机擦除以及随机裁剪等技术进行数据预处理;
5、(2)模型构建,使用基于resnet-50的双流特征提取器构建主干网络,利用imagenet预训练模型初始化主干网络,利用fsm和cffm构建通道级特征选择与融合网络,利用何凯明方法来初始化分支网络;
6、(3)模型训练,将数据批量输入到网络模型中,从可见光和红外模态的行人图片中提取出行人特征向量。通过通道级特征选择与融合网络获得最终分类特征,将特征向量输入到联合损失函数中计算损失并在神经网络中进行反向传播,更新模型参数。通过最小化损失函数值,不断训练模型预测能力;
7、(4)模型验证,用训练好的模型初始化自定义的神经网络,提取可见与红外模态下行人特征向量,将可见或红外模态下行人作为待查询行人,计算其与对应模态查询库中行人特征向量之间的欧式距离,并按相似度进行排序,以找到在可见与红外模态下的相似行人。
8、其中,步骤(1)中所选取的数据集sysu-mm01具体划分如下:
9、
10、其中,步骤(1)中所选取的数据集regbd具体划分如下:
11、
12、其中,步骤(1)中的数据预处理中:
13、(1-1)数据预处理的第一步是将输入图像大小重新调整为144×288;
14、(1-2)进行数据批归一化,数据归一化是一种常用的数据预处理技术,旨在将数据转换为一定范围内的标准分布,以便更好地满足模型的训练要求。数据归一化通常包括将数据进行缩放、平移和调整,使得数据具有特定的统计性质,以提高模型训练的稳定性和效果。
15、(1-3)进行随机水平翻转操作,以一定的概率将图像左右翻转,以生成新的图像,增加训练数据的多样性;
16、(1-4)进行随机擦除操作,这是一种数据增强技术,通常用于图像数据的处理。它的主要思想是在训练过程中随机选择图像中的一部分像素,并将其值替换为随机的像素值或者直接用零填充。这样做的目的是引入一些噪声和随机性,以增强模型对于遮挡或噪声的鲁棒性,从而提高模型的泛化能力;
17、(1-5)进行随机裁剪操作,这是一种数据增强技术,通常用于图像数据的处理。它的主要目的是通过在训练过程中对图像进行随机裁剪,引入一些空间变化,以提高模型对不同尺寸、姿态和位置的物体的识别能力。这有助于模型更好地泛化到不同的图像条件;
18、其中,步骤(2)中的主干网络的构建及其初始化:
19、(2-1)模型的主干网络采用了部分共享的双流resnet-50网络结构,可见光图片与红外图片一起输入到网络的layer1层结构之前,在此结构之前网络参数不共享,而在主干网络中的layer2到layer4层是参数共享的。网络中每个block基本单元由卷积滤波器、批量归一化层(bn)和线性整流器(relu)组成,卷积核大小分为1×1与3×3两种。我们将resnet-50最后一步步长设置为1,我们可以获得具有更高空间大小的特征图,这样能获得更高的空间分辨率,此操作只会增加非常轻的计算成本,并且不涉及额外的训练参数。此外resnet50最后的fc层将被移除以便于在最后加入bnneck,该操作可以将id loss与triplet loss约束的特征分布在不同子空间,bnneck降低了id loss对特征的约束也使得triplet loss更容易同时收敛。fsm模块根据不同模态特征归一化所得通道特征的重要性自适应选择特定特征与共享特征,然后利用cffm实现双通道均值加权融合,获得同时包含共享特征和特定特征信息的融合特征。
20、(2-2)主干网络初始化的预训练模型来自imagenet数据集。resnet在imagenet上进行了预训练,利用在大规模数据集上预先训练好的模型作为初始参数,然后在特定任务上进行微调或者进一步训练,从而提取出适用于各种任务的通用特征,然后在特定任务上微调这些特征,以提高模型的性能。神经网络采用何凯明方法进行初始化,以保证信息在前向传播和反向传播过程中能够有效传播,使不同层的输入信号的方差大致相等。
21、其中,步骤(3)中:
22、(3-1)主干网络从可见光和红外模态的行人图片中提取出行人共享特征与特定特征,通过通道级特征选择与融合网络实现特征融合获得最终分类特征;
23、(3-2)训练过程中使用了交叉熵损失函数,难样本采样三元组损失函数优化模型参数。
24、其中,交叉熵损失如下式所示:
25、
26、其中,n是样本数量,yi身份为i的行人的one-hot编码。是模型提取的特征向量g中某个行人i的概率得分。
27、难样本采样三元组损失函数公式如下:
28、
29、其中,表示正样本对之间的距离,表示负样本对之间的距离。[·]+是max(·,0)函数,p是样本空间中的行人id数量,k是每个行人的图片数量,是锚点样本,是正样本,是负样本。m是阈值,用来设置正负样本对之间的松弛边距;
30、(3-3)综上所述,其他研究工作一样我们使用了交叉熵损失和三元组损失使行人特征更加具有身份可区分性,最后通过最小化损失总和来联合优化模型整体损失如下:
31、lall=λ1lid+λ2ltri
32、其中,λ1,λ2是可调节参数,用于平衡各个损失项的贡献。
33、本发明的有益效果是:本发明构建了一种基于通道级特征选择与融合网络的可见与红外行人重识别方法,该通道级特征选择与融合网络通过特征选择性融合方法在保留高重要性共享特征的前提下融入特定特征,实现在不影响原有特征的表达能力的同时提升模型特征多样性,能够更加准确地对行人进行匹配和识别。
本文地址:https://www.jishuxx.com/zhuanli/20241021/318820.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。