技术新讯 > 计算推算,计数设备的制造及其应用技术 > 一种基于目标检测和查询网络的密集人群统计方法与流程 > 正文

一种基于目标检测和查询网络的密集人群统计方法与流程

国知局
2024-11-06 14:47:26

本发明涉及计算机视觉，尤其涉及一种基于目标检测和查询网络的密集人群统计方法。

背景技术：

1、在当前蓬勃发展的人工智能时代，各行各业都深受ai技术驱动的深远影响，尤其是近年来，随着人工智能与机器学习的飞速演进，这些前沿技术为各个领域带来了革命性的变革，在视觉处理和密集人群统计领域，技术不断推动着传统方法的革新和优化；

2、密集人群统计已成为一个备受关注的关键领域，它牵涉到人群密度估计、人数统计以及行为分析等多方面内容，随着城市化进程加速推进和各类场所(如交通枢纽、公共场馆等)人流密度不断增加，对精准统计和监测人群的需求也愈发迫切，传统的人数统计方法通常依赖于手动计数或者使用简单的计数方法，然而，随着大规模图像和视频数据的涌现，传统的方法在处理这些数据时面临密集人群统计领域误差较大，以及低质量图片统计难度大的问题，为解决上述问题，提出一种基于目标检测和查询网络的密集人群统计方法。

技术实现思路

1、本发明的目的是解决当前密集人群统计领域误差较大的问题，以及低质量图片统计难度大的挑战，提出了一种基于目标检测和查询网络的先进密集人群统计方法，可应对图像中成百上千人的人数统计挑战，该方法结合了目标检测和查询网络技术，能够精准而高效地处理密集人群场景下的人数统计任务，此方法的独特之处使得模型能够更准确地识别和计算大规模人群的数量，为密集场景下的人流统计提供了可靠而高效的解决方案，训练部分方法包括以下步骤：

2、s100：对于密集人群的图像，进行目标框标注和热图标注，目标框标注涉及对图像中每个个体的边界框进行标记，而热图标注则针对每个区域或像素点生成密集人群密度的热力图，这个过程有助于为图像提供准确的人群定位信息，并在图像中绘制出对应的热力图以表示人群密度变化，为后续模型训练和分析提供关键数据；

3、s200：将数据集送入本模型进行训练的过程分为两个关键阶段，首先，针对目标检测框进行粗粒度的训练，模型通过梯度下降等优化算法根据损失函数逐渐调整参数，迭代更新模型权重，逐步学习图像中人群的大致位置和数量信息，此阶段旨在让模型快速收敛并获得初步的目标检测能力，用以下公式表示模型参数更新：

4、

5、在这个公式中，θ表示模型参数，α表示学习率，j(θ)表示损失函数，

6、目标检测中常用的iou(intersection over union)公式用于衡量预测边界框与真实边界框之间的重叠程度，计算方法如下：

7、

8、对于分类损失函数，常用的是交叉熵损失函数(cross-entropy loss)，在目标检测中常用于多类别分类任务，对于单个样本的交叉熵损失函数计算公式如下：

9、

10、其中，l表示损失函数，y是实际标签的独热编码，是模型预测的概率分布，c表示类别数；

11、随后，模型经过查询模型的热图训练，通过类似的优化过程和参数更新，模型逐渐学习和优化图像中密集人群的热度分布，通过逐步提升模型对人群密度的理解和准确性，训练目标是得到更精确的热图，展现图像中人群密度的细致变化情况，

12、热图回归的损失函数通常用于密集人群统计等任务，旨在衡量模型生成的热图与真实密度图之间的差异，常用的密集人群统计任务中的热图回归损失函数是均方误差(mean squared error，mse)，其计算方法如下：

13、假设模型输出的热图为h，真实的密度图为d，图像中各位置i处的像素值分别为hi和di，那么均方误差损失函数可表示为：

14、

15、其中，n表示图像中所有位置的像素总数，均方误差损失函数衡量了模型生成的热图与真实密度图之间每个像素值的差异程度，目标是尽量减小预测热图与真实密度图之间的误差，整个训练过程旨在让模型逐步完善对人群分布和密度的识别，以更准确地完成密集人群统计任务；

16、s300：先进行目标检测分析，得出图像中所有可能的目标，然后按照knn最近邻算法得出若干区域内的最大估计值，再进行相似度计算，得出置信度最高的估计值，通常，置信度由预测边界框中包含目标的概率值来表示，在单阶段目标检测器中，每个边界框会预测出多个类别的分数以及包含目标的置信度，如果该置信度值高于设定的阈值，则认为该边界框检测到了目标；

17、具体来说，置信度公式通常可以表示为：

18、置信度＝预测框存在目标的概率×各类别的得分，

19、这里的“预测框存在目标的概率”代表了模型对于该边界框中是否包含目标的估计概率，“各类别的得分”表示模型对每个类别的预测得分，一般情况下，目标存在的概率值由模型的激活函数(通常是sigmoid或softmax函数)输出，并与其他类别的得分一同用于预测目标类别和确定边界框的置信度，得出图像内所有高于置信阈值的目标后，按区域划分，进行最近邻算法分区，k最近邻(k-nearest neighbors，knn)算法是一种简单直观的监督学习算法；

20、对于分类问题，knn算法的基本步骤如下：

21、1.计算测试样本与训练集中各个样本的距离；

22、2.选取与测试样本距离最近的k个训练样本；

23、3.统计这k个样本中各个类别出现的频次；

24、4.将测试样本划分为出现频次最高的类别；

25、knn算法中常用的距离度量方式是欧氏距离(euclidean distance)，其公式为：

26、

27、其中，xi(1)和xi(2)表示两个样本在第i个特征上的取值，得到多干个k值中心后，通过相似度计算，找出一个与其他k值平均相似度最大的中心值，在本发明中，采用余弦相似度，在向量空间中，用于衡量两个非零向量方向的相似度，计算公式为：

28、

29、其中，a和b是两个向量，·表示向量的点积，||a||和||b||表示向量的范数；

30、s400：将查询图与原图输入查询神经网络模型，经过编码模块的多个卷积块对图像进行逐层特征提取，这些卷积块的设计旨在捕获图像中的关键特征，在二维图像处理中，卷积操作通常表示为以下公式：假设有一个输入图像i，卷积核(滤波器)为k，则卷积操作可以表示为：

31、s(i,j)＝(i*k)(i,j)＝∑m∑ni(m,n)·k(i-m,j-n)，

32、其中，s(i,j)表示输出图像的像素值，i(m,n)表示输入图像的像素值，k(i-m,j-n)表示卷积核的权重值，这个公式描述了卷积操作的基本过程，通过卷积核在输入图像上滑动，将卷积核与输入图像的局部区域做点乘并求和，得到输出图像的对应位置的像素值，在深度学习中，卷积操作通过不断调整卷积核的权重来提取输入数据的特征信息，帮助网络学习到更高级的特征表示；

33、并随后对这些特征进行高斯编码，以有效地表征提取到的关键信息，高斯分布(正态分布)其概率密度函数(probability density function，pdf)公式如下：

34、

35、其中，x是随机变量，μ是分布的均值，σ是标准差，π是圆周率，e是自然对数的底；

36、在此之后，将原图和查询图进行融合，通过空间池化操作处理这些融合后的特征，以获取具有高维度的特征表示，假设我们有一个输入特征图x经过最大池化操作后得到输出特征图y在最大池化中，我们将输入特征图按照池化窗口大小(通常是2x2或3x3)进行划分，然后在每个窗口中选取最大值作为输出；

37、y(i,j,k)＝maxm,nx(i×stride+m,j×stride+n,k)，

38、其中，表示输出特征图的第i行、第j列、第k个通道的值，x是输入特征图，m和n是池化窗口内的坐标索引，stride是池化窗口的步幅；

39、这一阶段的目标在于完全融合原始图像与查询图的信息，通过编码模块产生具备高维度的特征表达，为后续的处理步骤提供更加丰富和抽象的特征表示，这种方法的设计目的在于通过神经网络模型更为有效地捕捉图像和查询信息的结合特征，从而实现更出色的图像处理和特征学习能力，通过充分整合两者的信息，这一策略旨在让模型更加全面地理解图像内容与查询信息的关联，进而提高模型对复杂场景的认知和处理能力，为进一步的应用提供更有价值的特征表示；

40、s400:高维特征图被传送至解码模块，在该模块中，利用马尔科夫链进行降噪处理，旨在减少特征图中的噪声信息并还原图像，尔科夫链d的基本公式为：

41、p(xt+1xt,xt-1,...,x1)＝p(xt+1xt)，

42、在马尔可夫链中，当前状态的条件概率分布只依赖于其前一个状态，与其更早之前的状态无关，本方法中使用的马尔可夫随机场降噪的模型是ising模型，ising模型通常采用最大后验概率(maximum a posteriori，map)估计进行图像降噪；

43、ising模型的能量函数可以描述为：

44、e(x)＝-∑i,jwijxixj-∑ibixi，

45、其中，x是二值化的图像，xi表示图像的像素值(一般为黑或白，或者是0和1)，wij是邻近像素间的权重，bi是偏置项，降噪的过程通常是通过最小化这个能量函数来恢复原始图像，使用优化算法(如马尔可夫链蒙特卡洛法等)找到能量函数的全局最小值对应的图像状态，在图像处理中，这种方法有助于消除图像中的噪声并恢复图像的清晰度和质量；

46、接着，通过采用u型网络的解码部分，实施上采样操作，以还原经过编码和降噪后的特征图，u型网络通过转置卷积实现，转置卷积的计算公式可以表示为：转置卷积的计算公式可以表示为：x转置卷积核为k，步幅(stride)为s，填充(padding)为p，则转置卷积操作可以表示为：

47、y＝convtranspo se(x,k,s,p)，

48、转置卷积操作的数学公式可以表达为：

49、y(i,j)＝∑m,nx(i×s+m-p,j×s+n-p)·k(m,n)，

50、其中，y(i,j)是输出特征图y的像素值；

51、x(i×s+m-p,j×s+n-p)是输入特征图x的对应像素值，k(m,n)是转置卷积核的权重，转置卷积操作通过对输入图像进行补零和权重矩阵的卷积操作来扩大特征图的尺寸。

52、本发明的有益效果：

53、本发明的目标是通过解码模块，运用马尔可夫链降噪和u型网络解码操作，获得最终的热图结果，这个热图结果涵盖了对原始图像中密集人群分布情况的估计，通过马尔可夫链的降噪操作和u型网络的解码处理，最终产生的热图能够更准确地反映出图像中人群密集程度和分布情况，为密集人群统计提供了重要的估计和信息，这个过程的关键在于利用模型的解码能力，对降噪后的特征进行逆向操作，从而重建出对密集人群分布的可视化估计，最终统计出高于阈值的目标点，得出人群总数。