技术新讯 > 计算推算,计数设备的制造及其应用技术 > 基于注意力特征融合与多列特征增强的人群计数方法 > 正文

基于注意力特征融合与多列特征增强的人群计数方法

国知局
2024-09-19 14:24:39

本技术涉及图像处理，特别是涉及一种基于注意力特征融合与多列特征增强的人群计数方法。

背景技术：

1、在人群计数任务中，计数准确性直接影响计数结果的可信度和应用效果。虽然人群计数技术已经取得了一定的进展，但在面对复杂的人群密集场景尤其是遮挡目标较多的场景时，仍然存在一定的误差和局限性。随着人口流动性的加强，密集人群场景会更加普遍，过于密集的人群目标的检测是人群计数任务不可忽视的挑战。

2、当前人群计数领域的研究大多基于单阶段网络进行密度图的回归，但仅使用单阶段的网络模型，难以从根本上缓解人群目标重叠和遮挡的问题。在过去的研究中，为了缓解的尺度变化的问题，一些研究提出了像mcnn、decidednet等多列架构，尽管多列模型一定程度上能够缓解尺度变化的问题，但其计数性能受到列数的限制，此外多列模型也由于并行训练的多个分支而大大增加了计算成本。为了处理背景复杂和非均匀分布的问题，部分研究使用注意力机制来检测图像中人群密度的变化，如adcrowdnet、attend to count等工作，但将注意力机制直接应用于特征融合结构时，很难统一不同层次特征图的语义信息，因而在后续的特征融合及生成密度图的过程中难以结合上下文信息，从而使得人群计数准确率较低。

技术实现思路

1、基于此，有必要针对上述技术问题，提供一种能够提高人群计数准确率的基于注意力特征融合与多列特征增强的人群计数方法。

2、一种基于注意力特征融合与多列特征增强的人群计数方法，所述方法包括：

3、获取待识别人群图像；

4、将所述待识别人群图像输入训练好的人群计数网络模型的概率图生成网络模块中进行处理，输出概率图；

5、将所述待识别人群图像和所述概率图输入所述训练好的人群计数网络模型的密度图回归网络模块中进行处理，输出密度图，所述密度图回归网络模块包括多列特征增强网络和双注意力特征融合网络；

6、对所述密度图进行积分运算，获得所述待识别人群图像中的人群计数。

7、在其中一个实施例中，所述概率图生成网络模块包括使用vgg-16网络的前13个卷积层和前4个最大池化层构成的编码器、第一上采样、第一拼接操作、第二拼接操作、第三拼接操作、第四拼接操作、第一特征调整单元、第二特征调整单元、第三特征调整单元、第四特征调整单元；

8、所述将所述待识别人群图像输入训练好的人群计数网络模型的概率图生成网络模块中进行处理，输出概率图，包括：

9、所述待识别人群图像输入所述编码器进行特征提取，获得不同尺度的五张特征图，按照尺度从大到小依次为：第一特征图、第二特征图、第三特征图、第四特征图和第五特征图；

10、所述第五特征图输入所述第一上采样进行双线性插值上采样后，采用所述第一拼接操作与所述第四特征图进行拼接，获得第一拼接特征；

11、所述第一拼接特征输入所述第一特征调整单元进行特征调整后，采用所述第二拼接操作与所述第三特征图进行拼接，获得第二拼接特征；

12、所述第二拼接特征输入所述第二特征调整单元进行特征调整后，采用所述第三拼接操作与所述第二特征图进行拼接，获得第三拼接特征；

13、所述第三拼接特征输入所述第三特征调整单元进行特征调整后，采用所述第四拼接操作与所述第一特征图进行拼接，获得第四拼接特征；

14、所述第四拼接特征输入所述第四特征调整单元进行特征调整，获得概率图。

15、在其中一个实施例中，所述密度图回归网络模块包括：使用vgg-16网络的前13个卷积层和前5个最大池化层构成的特征提取单元、第一多列特征增强单元、第二多列特征增强单元、第一双注意力特征融合单元、第二双注意力特征融合单元和密度图生成单元；

16、所述将所述待识别人群图像和所述概率图输入所述训练好的人群计数网络模型的密度图回归网络模块中进行处理，输出密度图，包括：

17、将所述待识别人群图像和所述概率图输入所述特征提取单元进行特征提取，获得所述特征提取单元的第10个卷积层输出的第六特征图、所述特征提取单元的第13个卷积层输出的第七特征图和所述特征提取单元的第5个最大池化层输出的第八特征图；

18、所述第八特征图输入第一多列特征增强单元进行特征增强，获得第一增强特征图；

19、将所述第一增强特征图和所述第七特征图输入所述第一双注意力特征融合单元进行特征融合，获得第一融合特征图；

20、将所述第一融合特征图输入第二多列特征增强单元进行特征增强，获得第二增强特征图；

21、将所述第二增强特征图和所述第六特征图输入所述第二双注意力特征融合单元进行特征融合，获得第二融合特征图；

22、将所述第二融合特征图输入所述密度图生成单元进行密度图生成，获得密度图。

23、在其中一个实施例中，所述第一多列特征增强单元和所述第二多列特征增强单元为结构相同的多列特征增强网络，所述多列特征增强网络包括多列增强结构和注意力结构；

24、输入所述多列特征增强网络的特征图分别输入多列增强结构和注意力结构中，经过注意力结构获得注意力权重，以及经过多列增强结构获得增强特征，再将注意力权重和增强特征进行点乘，输出增强特征图。

25、在其中一个实施例中，所述多列增强结构包括第一卷积、第二卷积、第三卷积、第四卷积、第五卷积、第六卷积、第七卷积和第八卷积；

26、输入多列增强结构的特征图分别输入第一卷积、第二卷积、第三卷积和第四卷积处理通道数，对应获得第一处理后特征、第二处理后特征、第三处理后特征和第四处理后特征；

27、所述第二处理后特征输入第五卷积进行处理，获得第五处理后特征；

28、所述第三处理后特征与所述第五处理后特征相加后再经过第六卷积处理，获得第六处理后特征；

29、所述第四处理后特征与所述第六处理后特征相加后再经过第七卷积处理，获得第七处理后特征；

30、将所述第一处理后特征、所述第五处理后特征、所述第六处理后特征和所述第七处理后特征进行拼接后再经过第八卷积处理，输出增强特征。

31、在其中一个实施例中，所述注意力结构包括：第九卷积、第一relu激活函数、第十卷积、第一全局平均池化、第十一卷积、第二relu激活函数、第十二卷积和第一sigmoid函数；

32、输入注意力结构的特征图分别依次经过第一支路的第九卷积、第一relu激活函数和第十卷积，以及依次经过第二支路的第一全局平均池化、第十一卷积、第二relu激活函数和第十二卷积处理后，将第一支路和第二支路的输出相加后通过第一sigmoid函数进行激活，得到注意力权重。

33、在其中一个实施例中，所述第一双注意力特征融合单元和所述第二双注意力特征融合单元为结构相同的双注意力特征融合网络，所述双注意力特征融合网络包括：第十三卷积、第十四卷积、第三relu激活函数、第十五卷积、第二全局平均池化、第十六卷积、第四relu激活函数、第十七卷积、第二sigmoid函数、平均池化、最大池化、第十八卷积和第三sigmoid函数；

34、输入到双注意力特征融合网络的深层增强特征图进行上采样后，再与输入到双注意力特征融合网络的浅层特征图拼接后输入所述第十三卷积进行处理，获得第一特征；

35、对所述第一特征依次通过所述第十四卷积、所述第三relu激活函数和所述第十五卷积进行操作，输出第一操作结果；

36、对所述第一特征依次通过所述第二全局平均池化、所述第十六卷积、所述第四relu激活函数和所述第十七卷积进行操作，输出第二操作结果；

37、将所述第一操作结果和所述第二操作结果相加后使用所述第二sigmoid函数激活，获得一个0到1之间的权值 w；

38、将所述权值 w与所述深层增强特征图相乘，获得处理后的深层特征图；

39、将权值(1- w)与所述浅层特征图相乘，获得处理后的浅层特征图；

40、将处理后的深层特征图与处理后的浅层特征图相加，获得初步融合特征图；

41、将所述浅层特征图分别采用所述平均池化、所述最大池化进行操作的结果进行拼接后，输入到所述第十八卷积处理后通过所述第三sigmoid函数激活，激活后的输出作为权重与所述初步融合特征图相乘，获得融合特征图。

42、在其中一个实施例中，所述密度图生成单元包括：2个3×3卷积和1个1×1卷积；

43、所述第二融合特征图经过2个3×3卷积减少融合特征图的通道后，再通过1×1卷积生成密度图输出。

44、在其中一个实施例中，所述人群计数网络模型的训练方式为：

45、获取人群图像数据样本集，所述人群图像数据样本集中的人群图像数据样本包括人群图像数据以及对应真实人群概率图、真实人群密度图；

46、将所述人群图像数据样本集划分为第一训练集、验证集和测试集；

47、分析所述第一训练集中的每个人群图像数据中每个32×32块的局部计数值，基于局部计数值超过预设值的块，生成密集区域的人工合成图以及对应的真实人群概率图、真实人群密度图作为人工合成密集数据样本；

48、将所述人工合成密集数据样本加入所述第一训练集中，获得第二训练集；

49、采用所述第一训练集和所述验证集对所述人群计数网络模型的概率图生成网络模块进行训练，并采用所述第二训练集和所述验证集对所述人群计数网络模型的密度图回归网络模块进行训练，在训练过程中使用三重计数损失函数计算梯度，使用adam优化器来更新优化所述人群计数网络模型的概率图生成网络模块和所述密度图回归网络模块的网络参数，直至满足训练终止条件，获得最优的人群计数网络模型；

50、采用所述测试集输入所述最优的人群计数网络模型进行测试，若测试结果满足精度要求，获得训练好的人群计数网络模型。

51、在其中一个实施例中，所述三重计数损失函数 l为：

52、，

53、其中，

54、，

55、其中， l pmg为概率图生成网络模块的损失，是第一训练集中的人群图像数据样本数量，是输入的人群图像数据，是网络权重，表示对的预测概率图，表示真实人群概率图；

56、，

57、其中， l dmr为密度图回归网络模块的损失， m是第二训练集中的人群图像数据样本数量，是与所述概率图生成网络模块不共享的网络权重，表示对的预测密度图，是真实人群密度图；

58、，

59、，

60、其中， l c为最终的计数结果与真实计数之间的损失，表示的预测密度图和真实人群密度图的人群数量之差。

61、上述基于注意力特征融合与多列特征增强的人群计数方法，通过获取待识别人群图像，将所述待识别人群图像输入训练好的人群计数网络模型的概率图生成网络模块中进行处理，输出概率图，再将所述待识别人群图像和所述概率图输入所述训练好的人群计数网络模型的密度图回归网络模块中进行处理，输出密度图，所述密度图回归网络模块包括多列特征增强网络和双注意力特征融合网络；进而对所述密度图进行积分运算，获得所述待识别人群图像中的人群计数。由此，在概率图生成网络模块中，通过生成概率图来逐像素地计算每个点作为计数目标的概率；在密度图回归网络模块中，多列特征增强网络结合不同大小感受野的信息，并使用双注意力特征融合网络进行注意力指导特征增强，自适应地结合通道和空间两种注意力来完成多尺度特征的融合，从而提高人群图像的计数准确性。