技术新讯 > 计算推算,计数设备的制造及其应用技术 > 一种通用类别物体计数方法、装置、设备及存储介质 > 正文

一种通用类别物体计数方法、装置、设备及存储介质

国知局
2024-07-31 23:20:28

本发明涉及图片识别，尤其涉及一种通用类别物体计数方法、装置、设备及存储介质。

背景技术：

1、随着人工智能与深度学习的飞速发展，计算机视觉技术在各个领域得到了广泛的应用，如视频监控、零售业、交通监测等。物体计数作为计算机视觉的一个重要应用，其目的是统计图像或视频中特定物体的数量，如人、动物、细胞和商品等，在工业生产、现代农业、新零售与智慧旅游等行业应用广泛。在工业生产线上，物体计数算法可以用来实时监控生产的数量和速度，帮助管理者实时了解生产进度，及时发现并解决可能出现的问题。此外，也可以用来监测生产过程中的异常情况，如产品缺失或堆积，以确保生产的顺利进行。在养殖业中，物体计数算法可以用来监测动物的数量。例如，在羊群或鸡舍中，通过算法可以实时了解动物的数量，避免动物数量的异常波动造成经济损失。在公共场所，如商场、车站、学校等，物体计数算法可以用来统计人群的数量。这对于安全管理和资源调配非常重要。例如，在一个大型活动中，通过实时统计人数，可以预防超载，及时调整人流，确保人员的安全。

2、传统的物体计数方法通常依赖于传感器或手工计数。然而，传感器技术受限于设备成本、安装位置和精度等因素，而手工计数效率低下且容易出现误差，难以满足实际应用中对实时性、准确性和通用性的要求。目前大多数物体计数算法都是针对特定类别物体的计数算法，例如yang等人在文献(reverse perspective network for perspective-awareobject counting[c]//proceedings of the ieee/cvf conference on computer visionand pattern recognition.2020:4374-4383.)中提出的一种新颖的逆透视网络(reverseperspective network,rpn)用于解决物体计数中的视角变化与尺度变化问题。该网络通过评估输入图像的透视失真，并以一种统一的方式对图像进行扭曲，从而实现将不同尺度的对象转换为相似尺度，简化了后续的回归网络训练过程。经过多年的研究，该领域取得了很大的改进。当人群密度较高和发生视角变化时，当前的研究工作都能取得令人满意的效果。但是，在实际应用中，这种特定类别计数算法由于受到物体类别限制，其应用场景相对较为单一，缺乏通用性和灵活性，无法适应多样化的实际场景需求。随着应用场景的扩展，例如对超市中不同水果与商品的分别计数，针对每一类物体分别设计一个计数模型的代价是高昂的，同时也是不可能实现的。因此需要一种更加通用的物体计数算法来应对多样化的计数场景。

3、对于现有的相关技术中存在的计数物体类别受限、应用场景较为单一的问题，目前还没有较好的解决方案。

技术实现思路

1、本发明提供一种通用类别物体计数方法、装置、设备及存储介质，用以解决现有技术中计数物体类别受限、应用场景较为单一的缺陷，实现对任意指定类别物体实现准确计数的效果。

2、第一个方面，本发明提供一种通用类别物体计数方法，包括：

3、获取待计数图片以及指示所述待计数图片中待计数物体的文本描述；

4、通过预训练后的视觉特征提取模型获取所述待计数图片的视觉特征编码，以及通过文本特征提取模型获取所述文本描述的文本特征编码；

5、调用预训练后的计数模型，基于所述待计数图片的视觉特征编码和所述文本描述的文本特征编码确定所述待计数图片的目标密度图；

6、根据所述待计数图片的目标密度图确定所述待计数图片中待计数物体的计数结果。

7、根据本发明提供的一种通用类别物体计数方法，通过预训练后的视觉特征提取模型获取所述待计数图片的视觉特征编码之前，包括：

8、对所述待计数图片进行尺寸裁剪和图像增强处理；

9、和/或，对所述待计数图片进行像素调整以及归一化处理。

10、根据本发明提供的一种通用类别物体计数方法，对所述视觉特征提取模型进行训练的步骤包括：

11、获取已知待计数样本物体数量的样本图片集，并确定所述样本图片集的真值点注释图；

12、对所述样本图片集的真值点注释图进行最大池化，得到所述样本图片集的计数特征掩码；

13、通过所述视觉特征提取模型获取所述样本图片集的样本视觉特征编码，并通过所述计数特征掩码对所述样本视觉特征编码进行处理，得到正补丁样本特征和负补丁样本特征；

14、基于所述正补丁样本特征和所述负补丁样本特征，采用对比损失函数对所述视觉特征提取模型进行参数调整，得到训练后的视觉特征提取模型。

15、根据本发明提供的一种通用类别物体计数方法，对所述计数模型进行训练的步骤包括：

16、获取已知待计数样本物体数量的样本图片集和对应的样本文本描述，并确定所述样本图片集的真值点注释图；

17、将所述样本图片集的真值点注释图转换为真值密度图；

18、通过预训练后的视觉特征提取模型获取所述样本图片集的样本视觉特征编码，以及通过文本特征提取模型获取所述样本文本描述的样本文本特征编码；

19、调用所述计数模型，基于所述样本视觉特征编码和所述样本文本特征编码确定所述样本图片集的样本密度图；

20、以最大程度减小所述样本密度图与所述真值密度图之间的差异为目标，对所述计数模型进行参数调整，得到训练后的计数模型。

21、根据本发明提供的一种通用类别物体计数方法，基于所述待计数图片的视觉特征编码和所述文本描述的文本特征编码确定所述待计数图片的目标密度图，包括：

22、对所述待计数图片的视觉特征编码和所述文本描述的文本特征编码进行双向交叉注意的特征增强，得到所述待计数图片的视觉特征和所述文本描述的文本特征；

23、对所述待计数图片的视觉特征和所述文本描述的文本特征进行跨模态解码，得到融合特征图；

24、将所述融合特征图输入训练后的计数模型，得到所述待计数图片的目标密度图。

25、根据本发明提供的一种通用类别物体计数方法，对所述待计数图片的视觉特征编码和所述文本描述的文本特征编码进行双向交叉注意的特征增强，包括：

26、对所述待计数图片的视觉特征编码使用变形自注意力，得到注意力视觉特征；

27、对所述文本描述的文本特征编码使用自注意力，得到注意力文本特征；

28、对所述注意力视觉特征和所述注意力文本特征进行图片到文本交叉注意和文本到图片交叉注意，确定所述待计数图片的视觉特征和所述文本描述的文本特征。

29、根据本发明提供的一种通用类别物体计数方法，根据所述待计数图片的目标密度图确定所述待计数图片中待计数物体的计数结果，包括：

30、对所述待计数图片的目标密度图进行像素值求和，得到求和结果；

31、将所述求和结果作为所述待计数图片中待计数物体的计数结果。

32、第二个方面，本发明还提供一种通用类别物体计数装置，包括：

33、获取模块，用于获取待计数图片以及指示所述待计数图片中待计数物体的文本描述；

34、提取模块，用于通过预训练后的视觉特征提取模型获取所述待计数图片的视觉特征编码，以及通过文本特征提取模型获取所述文本描述的文本特征编码；

35、处理模块，用于调用预训练后的计数模型，基于所述待计数图片的视觉特征编码和所述文本描述的文本特征编码确定所述待计数图片的目标密度图；

36、确定模块，用于根据所述待计数图片的目标密度图确定所述待计数图片中待计数物体的计数结果。

37、第三个方面，本发明还提供一种电子设备，包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述程序时实现如上述第一个方面所述的通用类别物体计数方法。

38、第四个方面，本发明还提供一种非暂态计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如上述第一个方面所述的通用类别物体计数方法。

39、第五个方面，本发明还提供一种计算机程序产品，包括计算机程序，所述计算机程序被处理器执行时实现如上述第一个方面所述的通用类别物体计数方法。

40、本发明提供的通用类别物体计数方法，通过根据待计数物体的类别获取对应的文本描述，并且在进行计数统计时将文本描述与待计数图片相结合，所以上述方法能够使用文本描述作为提示，指导计数模型对任意指定类别的待计数物体进行准确计数，解决了现有的相关技术中存在的计数物体类别受限、应用场景较为单一的问题。

标签：物体装置类别技术资料下载

本文地址：https://www.jishuxx.com/zhuanli/20240730/197079.html

上一篇
用于电磁窗口吸波体设计的机器学习方法、设备及介质

下一篇
返回列表

一种通用类别物体计数方法、装置、设备及存储介质

相关技术

最新技术

技术分类