技术新讯 > 计算推算,计数设备的制造及其应用技术 > 一种低秩多尺度多模态行人重识别方法、电子设备及存储介质 > 正文

一种低秩多尺度多模态行人重识别方法、电子设备及存储介质

国知局
2024-11-21 12:22:55

本发明属于深度学习，尤其涉及一种低秩多尺度多模态行人重识别方法、电子设备及存储介质。

背景技术：

1、随着全球能源需求的增长和环境问题的日益严峻，清洁、可再生能源的开发利用已成为全球共识。风能作为一种重要的可再生能源，凭借其清洁、可持续的特点，得到了广泛的重视。风电场作为风能利用的主要形式，在全球范围内迅速发展。然而，随着风电装机容量的增加，风电场在设计、施工、运营和维护方面面临着一系列挑战，如风机的可靠性、风能资源的高效利用、电网的稳定性以及智能化管理等问题。在此背景下，移动机器人技术，特别是行人识别技术的引入，为风电场的智能化运维带来了新的可能性。结合移动机器人行人识别的元素，不仅能促进技术创新，还能提升风电场的运行效率和安全性。

2、同时为了保障全天候识别，因此如何将白天拍摄的rgb图像与夜间的近红外（nir）图像相结合，成为了一项挑战。红外摄像机的普及使得rgb和近红外跨模态行人重识别成为一个新趋势，它缓解了传统rgb在低照度下的限制。然而，这种方法也暴露出了模态之间的异构问题，即无法同时处理三种模态的信息。为了克服复杂视觉环境的成像限制，尝试了rgb-ni-ti多模态行人重识别，为每个行人提供其自身的三种模态信息，分别为rgb、近红外和热红外（ti）图像。

3、现有的行人重识别任务大多是基于单一模态，例如rgb单一模态，或者是rgb和近红外双模态。虽然近红外模态的引入显著提高了在低照下的能力，但却忽略了模态相关信息的重要性。

技术实现思路

1、本发明的目的为了引入更多的补充信息来辅助传统的行人重识别任务，因此提出了一种基于rgb-ni-ti多模态的行人重识别方法、电子设备及存储介质。

2、本发明提供了一种低秩多尺度多模态行人重识别方法，包括以下步骤：

3、步骤一、获取含有rgb、近红外和热红外的三种模态的行人图像，并将三种模态的行人图像输入三分支特征提取网络中，分别得到从rgb相机中提取的rgb模态特征、从近红外中提取的ni模态特征以及从热红外中提取的ti模态特征；

4、步骤二、采用低秩多尺度多模态网络模型对rgb模态特征、ni模态特征和ti模态特征进行计算，得到多模态特征，包括以下步骤：

5、所述低秩多尺度多模态网络模型包括多尺度多模态交互模块、特征嵌入模块和低秩多尺度多模态融合模块；

6、rgb模态特征、ni模态特征和ti模态特征分别经多尺度多模态交互模块进行特征交互，分别得到rgb多尺度交互特征、ni多尺度交互特征和ti多尺度交互特征；

7、rgb多尺度交互特征、ni多尺度交互特征和ti多尺度交互特征经特征嵌入模块分别将rgb多尺度交互特征、ni多尺度交互特征和ti多尺度交互特征的全局特征上下文信息嵌入至对应的各个局部特征中，分别得到ti模态嵌入增强特征、rgb模态嵌入增强特征以及ni模态嵌入增强特征；

8、ti模态嵌入增强特征、rgb模态嵌入增强特征以及ni模态嵌入增强特征经低秩多尺度多模态融合模块相互融合，得到多模态特征；

9、步骤三、将多模态特征对行人进行行人重识别，得到所述行人的行人重识别结果。

10、进一步的，获得多模态特征的具体过程如下：

11、s2.1、基于多尺度多模态交互模块分别对rgb模态特征、ni模态特征和ti模态特征依次进行求和、增强和交互处理，得到rgb多尺度交互特征、ni多尺度交互特征和ti多尺度交互特征；

12、s2.2、分别对rgb多尺度交互特征、ni多尺度交互特征和ti多尺度交互特征进行自适应平均池化，分别得到rgb多尺度交互特征的全局特征及其个局部特征、ni多尺度交互特征的全局特征及其个局部特征以及ti多尺度交互特征的全局特征及其个局部特征；基于关系的嵌入模块分别将rgb多尺度交互特征的全局特征上下文信息嵌入到其各个局部特征中、将ni多尺度交互特征的全局特征上下文信息嵌入到其各个局部特征中以及将ti多尺度交互特征的全局特征上下文信息嵌入到其各个局部特征中，分别得到ti模态的嵌入增强特征、rgb模态嵌入增强特征以及ni模态嵌入增强特征；

13、s2.3、对ti模态嵌入增强特征、rgb模态嵌入增强特征以及ni模态嵌入增强特征进行融合，得到融合特征。

14、进一步的，ti多尺度交互特征的获得过程具体如下：

15、①、对提取得到的最后一个尺度的rgb模态特征和最后一个尺度的ni模态特征进行像素级求和，以获得相互作用特征；

16、②、在相互作用特征和ti模态特征上均在1×1卷积层中进行卷积，以获得卷积后的相互作用特征和卷积后的ti模态特征；

17、③、引入通道注意作用在相互作用特征中，以获得增强特征；

18、④、将卷积后的ti模态特征添加至增强特征中，以获得最后一个尺度的ti模态交互特征；

19、⑤、采用如步骤①至④相同的方式，依次求得倒数第二尺度的ti模态交互特征以及倒数第三个尺度的ti模态交互特征；

20、⑥、将最后一个尺度的ti模态交互特征、倒数第二尺度的ti模态交互特征以及倒数第三个尺度的ti模态交互特征通过二次线性插值直接下采样到相同大小进行串联，以获得ti模态的多尺度交互特征；

21、⑦、在ti模态的多尺度交互特征上实现1×1卷积层，以获得卷积后的多尺度交互特征，即ti多尺度交互特征。

22、进一步的，rgb多尺度交互特征、ni多尺度交互特征的获取过程具体与ti多尺度交互特征的获取过程相同。

23、进一步的，ti模态嵌入增强特征的获得过程具体如下：

24、①、在全局特征和第个局部特征上实现三个1×1卷积层，以获得卷积后的全局特征和第个局部特征；

25、②、对卷积后的全局特征和第个局部特征进行点积运算，再进行归一化指数函数操作，以获得它们的相似度作为衡量卷积后的全局特征和第个局部特征之间关系的权重；

26、③、通过对卷积后的全局特征赋予权重，再与第个全局特征进行求和，得到求和特征；

27、④、对求和特征和局部特征进行求和运算，得到局部增强特征；

28、⑤、分别用全局特征对每个局部特征进行增强，得到全部的局部增强特征，将全部的局部增强特征进行拼接，得到嵌入了全局信息的ti模态嵌入增强特征；

29、其中，。

30、进一步的，rgb模态嵌入增强特征以及ni模态嵌入增强特征的获得方法与ti模态嵌入增强特征的获得方法相同。

31、进一步的，在低秩多尺度多模态网络模型中还设有多模态混合损失函数模块，所述多模态混合损失函数模块用于对预测分类结果进行验证。

32、进一步的，采用多模态混合损失函数模块对低秩多尺度多模态网络模型在训练阶段的总损失进行计算的过程如下：

33、采用交叉熵损失对行人图像的身份信息进行分类，设每个行人图像的交叉熵损失计算为：

34、；

35、其中，为局部特征的数量，为模态的总数，为第个模态中第个局部特征的真实值标签，为第个模态中第个局部特征的预测身份标签；

36、采用多模态原型损失来限制每个人不同模态特征分布之间的距离，取其中任意两个模态特征分布的中心，设其惩罚中心距离为：

37、；

38、；

39、其中，为第一组第个人任意两个模态特征分布的中心，为第二组第个人任意两个模态特征分布的中心，为行人的类别总数，为第一组第个人中任意两个模态图像的数量，为第二组第个人中任意两个模态图像的数量，为第一组第个人中第张模态图像特征，为第二组第个人中第张模态图像特征，为第个人中图像的顺序符号；

40、则低秩多尺度多模态网络模型在训练阶段的总损失为：

41、；

42、；

43、其中，为超参数，用来平衡两个损失函数的贡献,且在整个训练阶段，设置。

44、本发明还提供了一种电子设备，包括：

45、存储器，用于存储程序；

46、处理器，用于通过执行所述存储器存储的程序以实现如上述所述的低秩多尺度多模态行人重识别方法。

47、本发明还提供了一种计算机可读存储介质，包括程序，所述程序能够被处理器执行以实现如上述所述的低秩多尺度多模态行人重识别方法。

48、与现有技术相比，本发明具有以下有益效果：

49、本发明提出了一种基于rgb-ni-ti多模态的行人重识别方法，通过多尺度多模态交互模块吸收其他模态中的有用信息；随后，通过低秩多模态融合模块融合来自其他两种模态的信息，使得模型更高效的融合多种模态特征，同时保持模型低复杂性。具体来说，该方法包括：通过设置多尺度多模态交互模块，首先使用卷积神经网络提取多尺度特征图，然后将它们拼接成多通道特征向量；再通过设置低秩多模态融合模块，通过该模块负责对来自其他模态的信息进行整合；

50、进一步的，由于每种模态都有其特定的优势，所以提出了多模态原型损失来增强各模态的差异性，并在交叉熵损失上引入了该损失，使得模型能够通过扩大类间差异和提高类内跨模态相似性来学习每种模态的特定信息，以提高模型对跨模态信息的理解能力。在rgbnt201和其他行人重识别数据集上的实验结果验证了此方法的有效性。

51、除了上面所描述的目的、特征和优点之外，本发明还有其它的目的、特征和优点。下面将参照图，对本发明作进一步详细的说明。