技术新讯 > 计算推算,计数设备的制造及其应用技术 > 一种复杂条件下多光谱特征级融合行人检测方法与装置 > 正文

一种复杂条件下多光谱特征级融合行人检测方法与装置

国知局
2024-08-30 14:43:20

本发明属于多光谱目标检测的，具体是一种融合可见光和红外光谱的交叉模态图像的目标检测方法与装置，主要是在恶劣天气及弱光条件下能够高效融合多光谱信息，以更高的检测精度和更先进的模型架构扩展了目标检测领域的特殊应用场景。

背景技术：

1、随着目标检测技术的发展，对于恶劣天气和暗弱光照环境下的检测要求日益提高。尤其在多光谱目标检测领域，深度学习技术虽取得显著进步，但现有融合算法在图像级别上未充分利用多光谱特征，导致性能受限，经常受到复杂场景的挑战。对于融合可见光和红外光谱的交叉模态图像来说，尽管红外图像在恶劣天气下能够提供一定的补充信息，但它们并不能完全弥补可见光图像在外观失真或信息丢失方面的不足。因此，传统的多光谱目标检测方法往往会遇到严重的性能下降问题，现有的方法难以很好地应对这种挑战。在恶劣的天气状况下，图像中可能存在大量的噪声和干扰，目标边界还会变得模糊难辨，增加了提取目标形状和轮廓的难度；而在夜间或光线不足的情况下，视觉数据的能见度会被严重影响，图像亮度和对比度大幅下降，影响目标的检测效果。

2、特别是在行人检测方面，由于行人兼具刚性和柔性物体的特性，其外观易受穿着、尺度、遮挡、姿态和视角等因素影响，检测极具挑战性。而图像采集使用传统的监控摄像头受限于边端嵌入式处理器的性能，只能进行简单的数据存储，无法直接运行复杂的算法。在恶劣天气条件下，数据获取的质量不高，给基于深度学习的目标检测算法带来了挑战。同时，将大量视频数据传输至服务器处理会占用大量网络带宽，并可能导致处理延迟和服务器负载过重的问题。

3、在行人检测和安防监控系统中，采用ai芯片加强边端节点的计算能力是一个重要趋势。通过在摄像头中部署ai芯片，摄像头能够实时处理捕获的视频，只将关键帧、重要视频片段及语义信息以结构化形式发送给服务器。这有效减轻了网络带宽负担，降低了延迟，并提高了实时响应能力。由于采用了结构化的数据存储和传输方式，以及高效的ai芯片处理能力，数据传输的效率和安全性都会显著提升。

4、为了应对这些挑战，需要深入研究图像去雨雾雪等预处理技术，同时还需要在融合算法设计上进行优化和创新，以确保目标检测的准确性和稳定性。而恶劣天气条件下的数据获取通常面临资源有限和质量不高的问题，还需要探索如何利用有限的数据进行有效的模型训练和优化，以应对恶劣天气条件下的目标检测需求。同时需要通过采用ai芯片加强边端节点的计算能力，实现行人检测和安防监控系统的高效性能。

5、综上所述，本发明提出一种复杂条件下多光谱特征级融合行人检测方法与计算装置对于目标检测与实时跟踪的发展具有重要意义。

技术实现思路

1、为了克服复杂天气情况下目标检测领域现有方法的不足，本方法提供一种复杂条件下多光谱特征级融合行人检测方法与装置。本发明使用生成式人工智能的扩散模型和较新的深度学习技术mamba用于多光谱的模态融合，提出一个新的多光谱特征级融合的网络框架，并构建一个在恶劣天气情况下的可见光-红外的数据集，能够很好地提升复杂场景中目标检测的效果，

2、本发明的第一个方面涉及一种复杂条件下多光谱特征级融合行人检测方法，包括如下步骤：

3、s1.基于可见光相机进行数据采集，获得可见光图像；基于热红外相机进行数据采集获得热红外图像。可见光图像和热红外图像各自捕捉目标的不同信息：可见光图像用于捕捉目标的形态、颜色等细节，而热红外图像则显示目标的热量分布、轮廓等特征。配对使用可见光-红外两种图像来训练多光谱特征级融合的模型，充分利用不同波段的信息，增强系统的环境适应性，提高目标检测的准确性和鲁棒性。

4、s2.基于扩散模型、yolov7目标检测模型以及mamba模型进行模型构建，获得端到端的目标检测模型。建立两阶段的特征级融合目标检测模型，所述步骤s2中的模型结构如下：

5、s2.1.建立第一阶段训练模型图像恢复功能的天气去除的扩散模型；

6、s2.2.建立第二阶段训练多光谱融合和目标检测功能的多光谱融合mamba模型；

7、s2.3.设计两阶段预训练模型的训练损失函数；

8、所述的步骤s2.1中，原有的去噪扩散概率模型的前向过程是一个固定的马尔可夫链，它在t个时间步长上影响数据x0～q(x0)，根据方差调度β1～βt注入高斯噪声，可以表达如下：

9、

10、

11、由联合分布pθ(x0:t)定义的反向过程也是一个马尔可夫链，它具有从标准正态先验p(xt)＝n(xt；o；i)开始的学习高斯去噪过渡，可以表达如下：

12、

13、

14、原有的去噪扩散概率模型，扩散过程(数据到噪声)和生成过程(噪声到数据)都是基于马尔可夫链过程，步骤多，耗时大。建立优化的扩散模型通过一类非马尔可夫扩散过程来定义生成过程，其可以产生确定性生成过程，从而加快样本生成。其中，隐式抽样是从模型的潜在空间以确定性的方式生成样本，使用噪声估计器网络的隐式采样可以表达如下：

15、

16、其中，xt和xt-1表示不同扩散时间步长的数据x0～q(x0)，αt＝1-βt、和∈θ(xt,t)可以优化为：

17、该条件扩散模型，在采样过程中加入清晰图像作为参考图像，引导重构图像与参考图像保持相似。同时引入了表示天气退化观测结果的参数将马尔可夫链定义为一个扩散过程，并逐渐加入高斯噪声来模拟数据样本的逐渐退化，直到到达时间点t。对于输入图像的条件反射，我们连接xt和以获得六维输入图像通道。在上对反向过程进行条件反射，可以保持其与隐式采样的兼容性，噪声估计器网络的隐式采样可以扩展如下：

18、

19、所述的步骤s2.2中，多光谱融合mamba模型是将状态空间模型(ssm)或mamba引入到多光谱目标检测中。s4和mamba受到连续系统的启发，通过隐藏状态映射到一维序列将作为演化参数，并将和作为投影参数，这样y(t)可以演化为：

20、h′(t)＝ah(t)+bx(t) (7)

21、y(t)＝ch′(t) (8)

22、s4和mamba是连续系统的离散版本，其中包括一个时间尺度参数△，将连续参数a和b分别变换为离散参数和将如下所示：

23、

24、

25、因此结果公式可以重写为：

26、

27、yt＝cht (12)

28、最后模型通过全局卷积计算输出如下所示：

29、

30、

31、其中m是输入序列x的长度，是一个结构化的卷积核。

32、为了促进可见光和热红外模态之间的特征交互，使用通道交换mamba块，其包含了来自不同通道的信息，增强了多光谱的相关性。给定可见光特征热红外特征将的前半部分通道与经过mamba块处理的的后半部分通道连接起来进行特征提取。将得到的特征添加到创建为一个新的特征同时，将的前半部分与经过mamba块处理的的后半部分串联在一起。将得到的特征添加到创建为一个新的特征

33、随后，将特征和进行投影。在特征融合过程中，利用门控机制鼓励互补特征学习，同时抑制冗余特征。对每个序列进行归一化处理，提高模型的收敛速度和性能。然后将输入序列通过线性层进行投影，并应用silu作为激活函数。最后，得到融合后的二维特征fi。

34、

35、yr′＝yr⊙silu(z) (16)

36、yt′＝yt⊙silu(z) (17)

37、fi＝reshape(lineart(yr′+yt′)+fi′) (18)

38、所述的步骤s2.3中，设计了两阶段的预训练模型的训练损失函数。产生具有最小模糊度和最接近于真实图像的增强结果，并提取可见光和热红外模态之间的差异。对于训练第一阶段扩散模型的损失函数的目标是最大化数据的对数似然并使用变分推理来近似目标。通过引入一个变分分布q(x1:t|x0)来近似真实的后验分布pθ(x0:t)，然后最小化这两个分布之间的差异。定义可以得到：

39、

40、其中，第二项是q(xt-1|xt)和pθ(xt-1|xt)之间的kullback-leibler散度的期望值。整体损失函数是边界框回归损失分类损失和置信度损失的总和：

41、

42、

43、

44、

45、

46、

47、其中，采用giou预测回归损失，a、b表示两个预测框，c表示能够包住它们的最小方框。s2和n表示预测过程中图像网格的个数和预测框的个数，p(c)和表示实际样本和网络预测样本为c类的概率，表示第i个网格的第i个预测框是否为正样本，表示第i个网格的第j个预测框是否为负样本。

48、s3.使用红外相机收集数据并利用大规模开源数据集，基于天气扩散方程构建数据集。按照7：2：1的比例划分为训练集、测试集和验证集，准备对应的目标检测标签。通过数学公式形式化各种天气现象对图像的影响来涵盖各种恶劣天气情况，其中雨雾雪三种天气条件的影响表达如下：

49、drain(j(x))＝j(x)(1-mr(x))+r(x)mr(x) (26)

50、dsnow(j(x))＝j(x)(1-ms(x))+s(x)ms(x) (27)

51、

52、其中，x表示图像的空间位置，drain(j(x))、dsnow(j(x))和dfoggy(j(x))表示清晰图像映射到加有雨、雪、雾粒子效果的函数，j(x)表示没有外加天气效果的清晰图像，mr(x)和ms(x)表示雨、雪的等价物，r(x)表示雨粒子的映射，s(x)表示雪粒子的映射。考虑到散射效应，d(x)表示在像素位置x上与观测者的距离，β表示大气衰减系数，l∞表示光的辐射率。

53、建立的数据集中包括了2万个对齐的可见光-红外图像对，跨越了雨雾雪三种天气条件和昼夜两种场景，每种条件和场景的图像数据分布均匀，数据集通过不同场景的组合来模拟真实环境。同时为每幅受恶劣天气条件影响的可见光图像提供相应的真实图像，用于图像融合和图像恢复网络训练。最后按照7：2：1的比例划分为训练集、测试集和验证集，都包含三部分：成对的可见光-红外图像和对应的受天气影响的可见光图像。完成相应目标检测标签的准备工作。

54、s4.使用配对好的可见光-热红外数据集对模型进行训练，第一阶段训练模型图像恢复功能，第二阶段训练多光谱融合和目标检测功能，获得特征级融合检测模型。训练期间，在第一阶段使用图像对(受天气影响图像和真值图像)来训练模型，然后在第二阶段使用具有相应标签的图像对(真值图像和红外图像)来训练模型。在验证和测试阶段，使用图像对(受天气影响图像和红外图像)来验证和测试真实条件下的模型性能。

55、采用传统的峰值信噪比psnr和结构相似性ssim来定量评价真实图像与恢复图像之间的关系。psnr主要用于评价失真程度：

56、

57、

58、其中，h和w分别表示图像的高度和宽度，n为每像素的位数(一般取8)，x(i,j)和y(i,j)分别表示对应坐标处的像素值。ssim更注重图像的结构信息和视觉质量：

59、ssim＝[l(x,y)]α·[c(x,y)]β·[s(x,y)]γ (31)

60、

61、

62、

63、其中，l(x,y)表示亮度，c(x,y)表示对比度，s(x,y)表示结构，μ和σ表示均值和标准差。同时引入了均值平均精度指标map来评估目标检测模型的准确性：

64、

65、

66、s5.获取待检测的可见光及热红外图像，将这些图像输入到特征级融合检测模型中，模型将对数据信息进行融合，并输出融合检测结果。这种融合检测能够充分利用不同光谱数据的互补性，提高目标检测的效果和性能。图像数据通常是以图像帧序列的形式捕获的，每一帧都包含了一段时间内的图像信息。因此融合检测结果是一个包含目标位置、大小、类型等信息的结构化数据，采用min-max标准化方法，数据序列分别进行归一化可以表达如下：

67、

68、

69、

70、其中，xt表示t时刻目标位置坐标，xt*表示目标位置坐标序列拟合函数；bt表示t时刻大小变化，bt*表示目标大小变化序列拟合函数；yt表示t时刻目标类型，yt*表示目标类型序列拟合函数。

71、s6.将融合检测结果输入到行人目标跟踪算法中，算法将基于这些结果对行人进行持续的跟踪，并输出行人跟踪检测结果。根据这些跟踪检测结果，进行可视化处理，生成跟踪视频序列。跟踪模块的设计为实时监测提供了重要支持。通过实时跟踪目标，可以更好地监测城市中的人流情况，并将数据提供给城市规划和管理部门，提高城市的运行效率和管理水平。同时，通过实时跟踪和监测，能够及时发现异常情况，如行人异常行为、交通拥堵等。从而可以及时采取相应措施，确保城市的安全和秩序，这也为安防保障提供了强有力的支持。

72、本发明的第二个方面涉及一种复杂条件下多光谱特征级融合行人检测装置，包括存储器和一个或多个处理器，所述存储器中存储有可执行代码，所述一个或多个处理器执行所述可执行代码时，用于实现本发明的一种复杂条件下多光谱特征级融合行人检测方法。

73、本发明的第三个方面涉及一种计算机可读存储介质，其上存储有程序，该程序被处理器执行时，实现本发明的一种复杂条件下多光谱特征级融合行人检测方法。

74、在行人检测和安防监控系统中，需要采用ai芯片加强边端节点的计算能力。通过在摄像头中部署ai芯片，摄像头能够实时处理捕获的视频，仅将关键帧、重要视频片段及语义信息以结构化形式发送给服务器。这有效减轻了网络带宽负担，降低了延迟，并提高了实时响应能力。使用硬件ai芯片，如华为昇腾310ai处理器内置了2个ai核心，支持高效的lpddr4x内存，并通过asic硬件电路实现矩阵运算的加速，拥有22tops int8的强大计算能力，特别适用于智能监控等需要边端推理的场景。由于采用了结构化的数据存储和传输方式，以及高效的ai芯片处理能力，数据传输的效率和安全性都会显著提升。

75、与现有技术相比，本发明有以下优点：

76、1.本发明在目标检测与跟踪中引入多光谱数据，通过特征级融合的方式，有效整合了不同光谱信息，提高了系统对目标的识别和追踪能力。同时巧妙结合扩散模型、yolov7目标检测模型以及mamba模型，构建了端到端的目标检测模型，并设计了行人目标跟踪算法，实现了目标检测与跟踪的一体化处理，提高了系统的整体性能和效率。

77、2.本发明采用先进的模型部署平台，实现了模型在不同硬件设备上的高效部署和运行，提高了系统的灵活性和可扩展性。设计合理的计算单元参数(如处理速度、功耗等)，确保了系统的高效稳定运行。

78、3.本发明针对不同的计算任务选择了适配的npu和cpu组合，实现了计算资源的优化配置和高效利用，从而在保证性能的同时降低了功耗。

79、4.本发明通过对模型参数进行精细优化和压缩，同时采用高效的双光视频流存储方案，实现了对存储空间的有效管理和利用，降低了系统的成本和资源消耗。此外，通过优化视频处理流程，引入缓冲序列，维护较短的视频队列以减少缓存压力，进一步提升了系统的实时性和响应速度。

80、5.本发明具有目标检测与跟踪精度高、实时性强、适应性广等优势，广泛应用于智能城市管理、安防监控领域等多个领域，具有良好的市场前景和应用推广价值。