技术新讯 > 计算推算,计数设备的制造及其应用技术 > 基于知识蒸馏和投票细化的室内三维目标检测方法及系统  >  正文

基于知识蒸馏和投票细化的室内三维目标检测方法及系统

  • 国知局
  • 2024-07-31 23:15:29

本发明涉及一种基于知识蒸馏和投票细化的室内三维目标检测方法,同时也涉及相应的室内三维目标检测系统,还涉及采用该检测方法的电子设备,属于计算机视觉。

背景技术:

1、目标检测是计算机视觉技术领域中的一个基本任务,涉及到检测和分类多个语义物体。三维目标检测作为目标检测的一个子集,专注于从三维点云中识别和定位物体,其广泛应用于自动驾驶、机器人辅助等实际应用场景中。

2、在现有技术中,votenet是一种高效且具有代表性的三维目标检测模型,其基于点云数据通过霍夫投票的方法实现了端到端的三维目标检测。但是,更强性能的检测方法通常也会带来更重的计算负担和检测成本,因此,将性能良好的votenet模型部署到实际应用终端时,就会遇到终端设备有限的计算和存储资源的限制而很难实现。另一方面,知识蒸馏是一种有效的压缩模型的方法,其采用预训练的重量级教师模型来帮助训练轻量级的学生模型以提高模型性能,在各种二维任务开发高效模型中得到广泛应用。但是,知识蒸馏方法在三维室内目标检测方面的研究和应用却很少受到关注,并且,若将知识蒸馏方法直接应用于votenet模型时,由于votenet在室内三维目标检测时出现的负投票以及前景和背景类别不平衡等问题,将影响对学生模型的监督过程,导致目标检测上的知识蒸馏的退化和低效。因此,如何避免上述问题,提供一种在低计算复杂度和低成本的情况下,又能提高目标检测准确率的方法,来满足实际终端应用的要求,始终是本领域非常重要的一个技术研究课题。

3、在专利号为zl 202210602131.1的中国发明专利中,公开了一种三维目标检测模型的训练和使用方法。该方法包括如下步骤:获取三维目标检测模型和训练集;利用三维目标检测模型中的学生网络对单目图像进行检测,得到第一检测结果、深度损失函数和真值损失函数;利用教师网络对点云数据进行检测,得到第二检测结果;根据第一检测结果和第二检测结果计算bev特征蒸馏损失函数、三维关系蒸馏损失函数和响应蒸馏损失函数;根据上述五个损失函数计算三维目标检测模型的整体损失函数;根据整体损失函数训练三维目标检测模型。

技术实现思路

1、本发明所要解决的首要技术问题在于提供一种基于知识蒸馏和投票细化的室内三维目标检测方法。

2、本发明所要解决的另一技术问题在于提供一种基于知识蒸馏和投票细化的室内三维目标检测系统。

3、本发明所要解决的又一技术问题在于提供一种采用该方法的电子设备。

4、为了实现上述目的,本发明采用以下的技术方案:

5、根据本发明实施例的第一方面,提供一种基于知识蒸馏和投票细化的室内三维目标检测方法,包括如下步骤:

6、(1)采用votenet作为教师模型,采用投票3d检测网络作为学生模型,其中,所述学生模型中每层的特征通道数根据应用终端的硬件资源配置进行轻量化选择;

7、(2)将训练数据集中三维物体的原始点云数据分别输入所述教师模型和所述学生模型,生成教师投票和学生投票;

8、(3)将所述教师投票输入细化模块生成细化后的教师投票;

9、(4)将所述细化后的教师投票输入前景掩码模块生成细化投票的前景掩码;

10、(5)将所述学生投票输入特征对齐模块生成对齐后的学生投票;

11、(6)计算训练所述学生模型的总损失、投票一致性蒸馏损失和细化损失,分别用于更新所述学生网络、所述前景掩码模块和所述细化模块的训练;

12、(7)将训练好的所述学生模型部署到应用终端,并利用所述学生模型对室内三维目标进行高效检测。

13、其中较优地,步骤(3)中,所述细化模块由多个细化层构成,用于对所述教师投票进行细化处理,以纠正不准确的所述教师投票在知识蒸馏过程中对所述学生模型的监督;其中,每个所述细化层的细化处理包括如下子步骤:

14、(31)根据上一层输出的所述教师投票的坐标计算计算内部位置信息;

15、(32)根据上一层输出的所述教师投票的特征和所述内部位置信息计算掩码多头自注意力;

16、(33)计算掩码多头交叉注意力;

17、(34)根据所述掩码多头自注意力和所述掩码多头交叉注意力计算本层输出的所述教师投票的坐标和特征。

18、其中较优地,步骤(31)和步骤(32)中,第i个细化层的所述内部位置信息bi的计算满足如下公式:

19、

20、其中,xi-1为上一层输出的教师投票的坐标;表示xi-1中任意两点之间的距离;表示掩码操作;

21、所述掩码多头自注意力的计算满足如下公式:

22、

23、其中,fi-1为上一层输出的教师投票的特征;是来自不同注意力头的h个注意力特征的连接,h代表注意力头的数量;表示逐行进行softmax操作;c是查询、键和值中的通道数;代表掩码多头注意力结尾处的线性投影操作;和分别代表查询、键和值的第h个头的线性投影;(fi-1)t为特征fi-1的转置矩阵。

24、其中较优地,步骤(34)中,第i个细化层输出的所述教师投票的坐标xi和特征fi的计算分别满足如下公式:

25、

26、

27、其中,为掩码多头自注意力,ψ(·)为对应于的多层感知机;xi-1为上一层输出的教师投票的坐标;为掩码多头交叉注意力。

28、其中较优地,步骤(4)中,所述前景掩码maski的计算满足如下公式:

29、

30、

31、其中,为细化后的教师投票坐标中第i个细化投票的坐标;gj为第j个物体中心的真实坐标,第j个物体是与第i细化投票最接近的真实物体;sj∈r3是第j个真实边界框沿x、y、z轴的长度;σ为非0的正数值,用于避免该项计算式的分母为零;表示弗罗贝尼乌斯范数;arg min为arg min函数;m为投票数。

32、其中较优地,步骤(5)中,所述特征对齐模块由一系列多层感知机层实现,用于所述教师投票和所述学生投票之间的维度对齐;所述齐后的学生投票rs的计算满足如下公式:

33、rs=align(vs)

34、其中,vs为学生投票;align(·)是一种投影函数。

35、其中较优地,步骤(6)中,所述投票一致性蒸馏损失ldis的计算满足如下公式:

36、

37、

38、其中,为第i个细化教师投票的特征;为第i个细化教师投票的坐标;maski为第i个细化教师投票的前景掩码;为第j个物体输入学生网络得到的对齐后特征;为第j个物体输入学生网络得到的对齐后坐标;第j个物体是与第i个细化投票最接近的真实物体;表示弗罗贝尼乌斯范数;m为投票数;

39、训练所述学生模型的所述总损失l的计算满足如下公式:

40、l=ldis+λlreg+ηlcls

41、其中,lreg为votenet中的回归损失,lcls为votenet中的分类损失,λ和η是两个超参数,用于平衡不同的损失项。

42、其中较优地,步骤(6)中,所述细化损失lref的计算满足如下公式:

43、

44、其中,为第i个细化教师投票的坐标;gi为第i个投票所属对象的地面真实中心;si是生成细化投票所对应的种子;表示指示函数,用于指示种子si是否在对象上;m为投票数。

45、根据本发明实施例的第二方面,提供一种基于知识蒸馏和投票细化的室内三维目标检测系统,包括教师模型、学生模型、细化模块、前景掩码模块和特征对齐模块;其中,

46、所述教师模型采用的votenet模型,所述学生模型采用投票类3d检测网络,并且,所述学生模型中每层的特征通道数根据应用终端的硬件资源配置进行轻量化设置;

47、所述细化模块用于对教师投票进行细化处理,以纠正不准确的教师投票在知识蒸馏过程中对学生模型的监督;所述细化模块由多个细化层组成,每个细化层均包括掩码的多头自注意力层、掩码的多头交叉注意力层、自距离计算模块和交叉距离计算模块;

48、所述前景掩码模块用于对细化后的教师投票进行掩码操作,以在蒸馏过程利用背景信息更加关注在目标边界框内的投票;

49、所述特征对齐模块用于对学生投票进行对齐操作,实现学生投票与教师投票之间的维度对齐;所述特征对齐模块由一系列多层感知机层实现;

50、所述教师模型协同所述细化模块、所述前景掩码模块和所述特征对齐模块采用知识蒸馏和投票细化的方法,帮助训练所述学生模型以提高室内三维物体检测性能。

51、根据本发明实施例的第三方面,提供一种电子设备,该电子设备中包括处理器和存储器,所述处理器和所述存储器耦接;其中,

52、所述存储器用于存储计算机程序;

53、所述处理器用于运行存储在所述存储器中的计算机程序,执行上述基于知识蒸馏和投票细化的室内三维目标检测方法。

54、与现有技术相比较,本发明所提供的基于知识蒸馏和投票细化的室内三维目标检测方法,votenet教师模型通过采用知识蒸馏和投票细化相结合的技术方案对投票类学生模型进行训练,得到轻量化的用于室内三维目标检测的网络模型,该网络模型具有计算复杂度相对较低、存储数据量相对较少,同时检测性能较高的特点,能够方便的将其部署到硬件资源受限的应用终端,实现对室内三维目标的高效检测。因此,本发明所提供的基于知识蒸馏和投票细化的室内三维目标检测方法具有占用硬件资源较少、检测成本较低以及检测性能高等有益效果。

本文地址:https://www.jishuxx.com/zhuanli/20240730/196659.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。