一种基于中间模态学习的跨模态行人重识别方法及系统
- 国知局
- 2024-09-11 14:36:16
本发明涉及计算机视觉图像检索,具体涉及一种基于中间模态学习的跨模态行人重识别方法及系统。
背景技术:
1、行人重识别是计算机视觉领域的一项行人图像检索任务,旨在实现不同场景下跨摄像头的准确识别和关联。传统的行人重识别任务只涉及可见光模态,即所有人物图像都是在白天由可见光摄像机拍摄。虽然可见光相机拍摄的图片能够直观地呈现场景和物体的颜色、形状和细节,更符合人类的视觉感知,但是它在光照条件较差的环境中会效果很差,难以捕获有效的行人外观信息。
2、与可见光相机不同,红外相机可以在低光照甚至完全黑暗的环境下工作。可见光摄像机图像传感器将光线信息转换为数字图像,通常在400至700纳米的可见光波段工作。红外摄像机使用红外传感器或热成像传感器将红外辐射信息转换为可视化的图像,通常在8至14微米的热红外波段或700至1100纳米近红外波段工作。因此,将两者结合的可见-红外行人重识别成为主流研究,受到越来越多的关注。可见光图像成像时依赖光源和反射光,形成的图像包含丰富的颜色信息,以及形状纹理等细节,而红外图像依赖于物体自身的热辐射成像,生成的图像不包含颜色、亮度、温度等信息。由于二者成像原理不同,它们拍摄的图片不可避免的存在模态差异。因此,传统行人重识别中具有超高性能的模型不能直接应用于可见-红外行人重识别。
3、早期的方法通过生成对抗网络为可见光/红外图像生成红外/可见光对应物,以减少模态之间的差异。然而,生成对抗网络本身存在限制,无法确保生成图像的质量和多样性,这影响了可见-红外行人重识别的性能。鉴于生成对抗网络的局限性,最近的一些方法通过设计额外的轻量级网络,生成第三方模态来桥接可见光和红外模态,以减轻模态之间的差异。然而,这些方法在图像生成过程中没有充分关注细粒度空间细节,导致最终提取目标精度很差,不能进行实际应用。
技术实现思路
1、发明目的:本发明目的是提供一种还原度高、检测精度高的基于中间模态学习的跨模态行人重识别方法及系统。
2、技术方案:本发明所述的基于中间模态学习的跨模态行人重识别方法,包括如下步骤:获取成对的可见光原始图像和红外原始图像;提取可见光原始图像、红外原始图像的中间模态,得到可见光中间模态、红外中间模态;通过空间注意力和通道注意力优化所述可见光原始图像、红外原始图像、可见光中间模态、红外中间模态,输出优化结果;建立损失约束限制所述优化结果,输出识别结果。
3、进一步的,提取所述中间模态时,依次经过编码过程、解码过程后输出中间模态;在所述编码过程中采用双分支结构,所述双分支结构包括并行的主分支和副分支,在所述主分支中通过密集连接的方式进行卷积,在所述副分支中,通过梯度运算的方式计算梯度大小;最后融合主分支与副分支的输出。
4、进一步的,所述解码过程不包括下采样操作。
5、进一步的,建立中间模态图片生成器以提取中间模态;所述中间模态图片生成器包括解码器、并行且相互独立的可见光编码器与红外编码器;其中,所述可见光编码器与红外编码器结构相同,主分支依次包括多个带有relu的卷积层以及普通卷积层,副分支依次包括梯度运算层以及普通卷积层,将主分支与副分支融合后输出;所述解码器包括带有relu的卷积层,将可见光编码器输出结果处理后输出为可见光中间模态,将红外编码器输出结果处理后输出为红外中间模态。
6、进一步的,具体的,所述中间模态图片生成器根据如下公式实现编码过程:
7、;
8、式中,表示主分支,表示主要;表示副分支,表示次级;表示原始图像,表示中间模态,且,vis表示红外、ir表示可见光;表示对原始图像进行卷积操作;表示对原始图像进行梯度运算操作;表示密集连接;表示经过编码器处理的图片信息。
9、所述中间模态图片生成器根据如下公式实现解码过程:
10、;
11、式中,表示经过可见光解码器生成的可见光中间模态;表示经过红外解码器生成的红外中间模态特征;表示进行relu操作;表示经过可见光编码器处理的图片信息;表示经过红外编码器处理的图片信息。
12、进一步的,通过建立注意力组合块融合空间注意力和通道注意力,且顺次设置多个注意力组合块;所述注意力组合块依次包括通道注意力层、空间注意力层,最终输出优化结果,所述优化结果包括多种目标类别。
13、进一步的,其中,所述损失约束包括以特征距离建立的特征损失约束,特征损失约束具体内容为:
14、减小所述红外原始图像与可见光中间模态之间的特征距离、减小可见光原始图像与红外中间模态之间的特征距离;
15、增大可见光原始图像与可见光中间模态之间的特征距离、增大红外原始图像与红外中间模态之间的特征距离;
16、使同一目标类别的特征距离小于不同目标类别的特征距离。
17、进一步的,建立特征损失约束包括如下过程:计算优化后的可见光原始图像、可见光中间模态、红外原始图像、红外中间模态、各种目标类别中特征之间的欧几里得距离;根据欧几里得距离大小建立总的特征损失约束,公式如下:
18、;
19、式中,表示可见光原始图像;表示红外原始图像;是可见光中间模态;表示红外中间模态;表示对可见光中间模态的特征损失约束;表示红外中间模态的特征损失约束;表示总特征损失约束。
20、进一步的,所述损失约束还包括身份损失、三元组损失、分布一致性损失。
21、本发明所述的基于中间模态学习的跨模态行人重识别系统,包括:数据获取与预处理模块,用以获取成对的可见光原始图像和红外原始图像;中间模态提取模块,用以提取可见光原始图像、红外原始图像的中间模态,得到可见光中间模态、红外中间模态;中间模态特征优化模块,用以通过空间注意力和通道注意力优化所述可见光原始图像、红外原始图像、可见光中间模态、红外中间模态,输出优化结果;结果输出模块,用以建立损失约束限制所述优化结果,输出识别结果。
22、有益效果:本发明具有如下显著效果:1、本发明还原度高:本发明从可见光与红外两个角度并行的方式进行图像、特征的处理,对现有的可见-红外光行人再识别算法进行改进优化,提出了一个主要由中间模态图片生成器、双重注意力组合块以及特征损失约束组成的中间模态学习网络,其中,与普通的生成中间模态的机制不同,本技术并未堆叠卷积和通道注意力对特征进行增强,将模态之间相互补偿,本发明采用的中间模态图片生成器通过密集连接和梯度运算,提高了图片生成过程对细节信息的关注度,并且在解码过程中并未采用下采样操作,提取的中间模态充分全面地考虑了红外原始图像、可见光原始图像的特点,更接近于原始图像,对于特征的提取更加全面与准确,还原度很高;2、检测精度高:本发明提出了注意力组合块通过建模特征的通道相关性和空间相关性,进一步完善中间模态的信息,提高了模态共享特征的判别力和多样性;另外,独创性地设置了特征损失约束对原始图片和生成图片基于特征距离进行约束,提高了生成图片的质量,并减轻了模态间和模态内的差异,总的来说在轻量化的基础上实现了高精度的效果。
本文地址:https://www.jishuxx.com/zhuanli/20240911/291545.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表