技术新讯 > 计算推算,计数设备的制造及其应用技术 > 一种结合SSD网络和卡尔曼滤波的人员检测方法  >  正文

一种结合SSD网络和卡尔曼滤波的人员检测方法

  • 国知局
  • 2024-08-08 16:55:59

本发明涉及目标检测领域,特别是一种结合ssd网络和卡尔曼滤波的人员检测方法。

背景技术:

1、室内人员检测在公共场所人员安全防控,家庭服务机器人等方面有着重要的作用。现有室内人员检测方法大都采用摄像头实时采集室内场景数据,并通过计算机视觉技术分析采集的数据,实现室内人员检测。目前,典型的室内人员检测方法可分为:基于运动模型的人员检测方法、基于机器学习的人员检测方法以及基于深度学习的人员检测方法。

2、基于运动模型的人员检测方法是利用前景和背景差异得到人员位置信息。该类方法在较完整的运动区域可实时检测人员,但在光照变化明显,或前背景相似时容易失效。基于机器学习的人员检测方法是利用人工设计的图像特征,如梯度特征(histogram oforiented gradient,hog)等实现人员检测。通过对人工设计的图像特征进行区间归一化的处理,在光照变化和遮挡等情况下都具有很好的稳健性,可较好地表征出人员的轮廓信息。尽管如此,hog特征仍然属于浅层特征,无法描述行人独有的特征信息,限制了人员检测性能的提升。且该类方法中人员检测过程通过耗时的迭代算法实现,难以满足实时人员检测的需求。

3、近年来,深度神经网络(deep neural network,dnn)借助其多隐层架构和强大的学习能力,研究人员构建的卷积神经网络(regions with convolutional neuralnetwork,rcnn),yolo(you only look once,yolo)网络和单步检测器(single shotdetector,ssd)网络等在行人检测任务中取得了瞩目的表现。ssd利用单个卷积网络前向传递,可直接得到人员的位置和置信度信息。综合多尺度特征图,可进一步提升对不同尺寸人员的检测精度。结合残差连接,ssd可获得更准确的网络参数,获得更高的行人检测的平均精度。尽管ssd算法在目标检测中的运行速度和检测精度较其他算法都具有优越性,但由于室内环境变化影响因素大、室内背景复杂、人员流动快、人员姿态柔性大和人员轨迹多变等,因此将ssd算法直接运用于室内复杂场景下人员检测时,对人员的检测效果并不理想。ssd网络只是单纯的从当前帧估计出人员的位置,而并未考虑相邻帧人员位置之间的联系。

技术实现思路

1、本发明所要解决的技术问题是克服现有技术的不足而提供一种结合ssd网络和卡尔曼滤波的人员检测方法,本发明得到的人员检测方法性能更优,检测精度和检测效率更高。

2、本发明为解决上述技术问题采用以下技术方案:

3、根据本发明提出的一种结合ssd网络和卡尔曼滤波的人员检测方法,包括以下步骤:

4、步骤s1、构造训练结合卡尔曼滤波的单步检测器ssd-kf网络的实验环境和用于验证ssd-kf网络性能的实测视频数据集,实测视频数据集是在光照亮和光照暗两种场景下分别采集的;

5、步骤s2、构造ssd-kf网络,将卡尔曼滤波kf引入单步检测器ssd网络架构,利用卡尔曼滤波kf预测单步检测器ssd网络层;将卡尔曼滤波kf代替在非最大值抑制层nms前被使用的1×1卷积层,通过引入kf实现对人员预测进行轨迹修正和目标跟踪;

6、步骤s3、利用ssd-kf网络实现对人员的检测。

7、作为本发明所述的一种结合ssd网络和卡尔曼滤波的人员检测方法进一步优化方案,光照亮场景是指场景照度区间在50~300勒克斯,光照暗场景是指场景照度区间在5~50勒克斯。

8、作为本发明所述的一种结合ssd网络和卡尔曼滤波的人员检测方法进一步优化方案,每种场景下分别包括人员无遮挡居中、物体半遮挡、人员半遮挡和人员坐姿四种人体姿态。

9、作为本发明所述的一种结合ssd网络和卡尔曼滤波的人员检测方法进一步优化方案,步骤s1中构造ssd-kf网络的实验数据集的方法如下:利用redmi note 8视频数据采集器进行实测视频采集,视频的像素规格为1280×720,帧率为每秒30帧,采集的视频数据分为光照亮和暗两种场景,每种场景下分别包括人员无遮挡居中、物体半遮挡、人员半遮挡和人员坐姿四种人体姿态的数据;训练ssd-kf网络的实验平台为windows10系统,cpu处理器amd r5-3500u,显卡radeon vega mobile,编程语言为python3.6,采用深度学习框架tensorflow-1.15.0。

10、作为本发明所述的一种结合ssd网络和卡尔曼滤波的人员检测方法进一步优化方案,步骤s2中构造ssd-kf网络,是将kf引入ssd网络架构,利用kf来预测ssd网络层输出的下一帧检测框,将kf代替ssd网络中用于对fc全连接层进行降维的分类器、在非最大值抑制层前面被使用的1×1卷积层,生成检测框。

11、作为本发明所述的一种结合ssd网络和卡尔曼滤波的人员检测方法进一步优化方案,利用实测视频数据集验证ssd-kf网络的性能,具体如下:是采用平均精度ap、均值平均精度map和每秒检测帧数fps对ssd-kf网络检测结果进行定量评价与分析。

12、作为本发明所述的一种结合ssd网络和卡尔曼滤波的人员检测方法进一步优化方案,ssd-kf网络对输入图像、经过多层卷积和池化操作提取图像的初步特征信息,进行图像中目标不同尺度特征信息的提取;使用单个kf对每一种尺度特征信息进行特征平滑处理,用于消除所提取特征信息中无关的背景噪声,放大其真实特征信息;

13、根据特征信息得到默认检测框的特征图后,利用kf层生成数量更少、效果更优的检测框,之后再对每个检测框进行非最大值抑制nms处理,以此消除重叠的检测框;最后将所有检测层的输出进行合并,通过阈值判断输出最终检测结果。

14、作为本发明所述的一种结合ssd网络和卡尔曼滤波的人员检测方法进一步优化方案,ssd-kf网络包括30个隐含层,具体如下:

15、第一层为第一卷积层conv1_1,conv1_1中有64个3×3的滤波器进行步长为1的卷积操作,边缘填充值为1,然后利用relu函数进行非线性激活;

16、第二层为第二卷积层conv1_2,conv1_2中有64个3×3的滤波器进行步长为1的卷积操作,边缘填充值为1,然后利用relu函数进行非线性激活;

17、第三层为第一池化层maxpooling1,在池化的过程中使用最大池化操作,第一池化层的运算核为2×2,步长为2;

18、第四层为第三卷积层conv2_1,conv2_1中有128个3×3的滤波器进行步长为1的卷积操作,边缘填充值为1,然后利用relu函数进行非线性激活;

19、第五层为第四卷积层conv2_2,conv2_2中有128个3×3的滤波器进行步长为1的卷积操作,边缘填充值为1,然后利用relu函数进行非线性激活;

20、第六层为第二池化层maxpooling2,在池化的过程中使用最大池化操作,第二池化层的运算核为2×2,步长为2;

21、第七层为第五卷积层conv3_1,conv3_1中有256个3×3的滤波器进行步长为1的卷积操作,边缘填充值为1,然后利用relu函数进行非线性激活;

22、第八层为第六卷积层conv3_2,conv3_2中有256个3×3的滤波器进行步长为1的卷积操作,边缘填充值为1,然后利用relu函数进行非线性激活;

23、第九层为第七卷积层conv3_3,conv3_3中有256个3×3的滤波器进行步长为1的卷积操作,边缘填充值为1,然后利用relu函数进行非线性激活;

24、第十层为第三池化层maxpooling3,在池化的过程中使用最大池化操作,第三池化层的运算核为2×2,步长为2;

25、第十一层为第八卷积层conv4_1,conv4_1中有512个3×3的滤波器进行步长为1的卷积操作,边缘填充值为1,然后利用relu函数进行非线性激活;

26、第十二层为第九卷积层conv4_2,conv4_2中有512个3×3的滤波器进行步长为1的卷积操作,边缘填充值为1,然后利用relu函数进行非线性激活;

27、第十三层为第十卷积层conv4_3,conv4_3中有512个3×3的滤波器进行步长为1的卷积操作,边缘填充值为1,然后利用relu函数进行非线性激活,有4×38×38个检测框传递到kf层;

28、第十四层为第四池化层maxpooling4,在池化的过程中使用最大池化操作,第四池化层的运算核为2×2,步长为1,同时进行边缘填充,填充值为1;

29、第十五层为第十一卷积层conv5_1,conv5_1中有1024个3×3的滤波器进行步长为1的卷积操作,边缘填充值为1,然后利用relu函数进行非线性激活;

30、第十六层为第十二卷积层conv5_2,conv5_2中有1024个3×3的滤波器进行步长为1的卷积操作,边缘填充值为1,然后利用relu函数进行非线性激活;

31、第十七层为第十三卷积层conv5_3,conv5_3中有1024个3×3的滤波器进行步长为1的卷积操作,边缘填充值为1,然后利用relu函数进行非线性激活;

32、第十八层为第五池化层maxpooling5,第五池化层的运算核为3×3,步长为1;

33、其中前十八层共同构成ssd网络层;

34、第十九层为第一空洞卷积层conv6,conv6中有1024个3×3的滤波器进行步长为1的卷积操作,膨胀系数为2,然后利用relu函数进行非线性激活;

35、第二十层为第二空洞卷积层conv7,conv7中有1024个1×1的滤波器进行步长为1的卷积操作,膨胀系数为2,然后利用relu函数进行非线性激活,有4×19×19个检测框传递到kf层;

36、第二十一层为第十四卷积层conv8_1,conv8_1中有256个1×1的滤波器进行卷积操作,然后利用relu函数进行非线性激活;

37、第二十二层为第十五卷积层conv8_2,conv8_2中有512个3×3的滤波器进行步长为2的卷积操作,边缘填充值为1,然后利用relu函数进行非线性激活,有6×10×10个检测框传递到kf层;

38、第二十三层为第十六卷积层conv9_1,conv9_1中有128个1×1的滤波器进行卷积操作,然后利用relu函数进行非线性激活;

39、第二十四层为第十七卷积层conv9_2,conv9_2中有256个3×3的滤波器进行步长为2的卷积操作,边缘填充值为1,然后利用relu函数进行非线性激活,有4×5×5个检测框传递到kf层;

40、第二十五层为第十八卷积层conv10_1,conv10_1中有128个1×1的滤波器进行卷积操作,然后利用relu函数进行非线性激活;

41、第二十六层为第十九卷积层conv10_2,conv10_2中有256个3×3的滤波器进行步长为1的卷积操作,然后利用relu函数进行非线性激活,有4×3×3个检测框传递到kf层;

42、第二十七层为第二十卷积层conv11_1,conv11_1中有128个1×1的滤波器进行卷积操作,然后利用relu函数进行非线性激活;

43、第二十八层为第二十一卷积层conv11_2,conv11_2中有256个3×3的滤波器进行步长为1的卷积操作,然后利用relu函数进行非线性激活,有4×1×1个检测框传递到kf层;

44、其中第十九层到二十八层共同构成卷积层;

45、第二十九层为卡尔曼滤波kf层,kf层对分别来自于conv4_3、conv7、conv8_2、conv9_2、conv10_2和conv11_2的38×38×4、19×19×6、10×10×6、5×5×6、3×3×4和1×1×4共8732个默认检测框图像进行特征平滑处理,筛选出数量更少、质量更优的检测框;

46、第三十层为非最大值抑制层nms,nms对经过kf处理后的检测框进行筛选,滤除小概率目标,选择出最佳的检测框。

47、本发明采用以上技术方案与现有技术相比,具有以下技术效果:

48、本发明最终动态实现精度更高的人员轨迹预测,能够提高人员轨迹检测的精度和准确性。

本文地址:https://www.jishuxx.com/zhuanli/20240808/271293.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。