技术新讯 > 计算推算,计数设备的制造及其应用技术 > 一种障碍物的检测方法、装置、电子设备及存储介质与流程 > 正文

一种障碍物的检测方法、装置、电子设备及存储介质与流程

国知局
2024-11-21 11:36:12

本技术涉及目标检测，尤其是涉及一种障碍物的检测方法、装置、电子设备及存储介质。

背景技术：

1、随着现代农业向智能化、自动化的发展趋势，无人驾驶技术已经被广泛研究并应用于农业机械中，以提高作业效率和减少人力成本。特别是在复杂的农田环境中，对于障碍物的感知能力成为确保农作物安全和农机自动化运行的关键技术。目前，在农业机械的无人驾驶领域，主要通过以下几种方式进行障碍物识别，方式一：使用视觉系统；方式二使用雷达传感器；方式三使用深度学习算法例如目标检测、全景分割算法进行障碍物识别。

2、但是，方式一对光照条件非常敏感，在强光或弱光环境下图像质量会显著下降，并且当障碍物与作物在颜色或形状上相似时，视觉系统很难准确区分，导致识别准确率降低；方式二激光雷达对于表面材质或颜色的识别能力有限，所以在农田环境中，许多障碍物(如石块、土堆)与周围环境的材质相似，仅依靠激光雷达难以准确区分；方式三使用的算法通常需要预先定义和训练特定的目标类别，在训练数据中没有出现或标注的物体，模型很难正确识别，其次，在农业场景中，由于环境的多变性和障碍物的多样性，获取大量高质量的标注数据非常困难，这限制了模型的泛化能力。因此，如何进行障碍物的检测，成为了亟待解决的问题。

技术实现思路

1、有鉴于此，本技术的目的在于提供一种障碍物的检测方法、装置、电子设备及存储介质，能够通过将拍摄图像和深度图像输入至由主干网络、深度图编码器、视觉融合注意力网络以及检测头构成的障碍物检测模型中，得到监测区域中是否具有障碍物的检测结果，可以检测多种未知的障碍物，不受预定义类别的限制，并通过障碍物检测模型的结构利用拍摄图像和深度图像的数据互补特性，自适应的将拍摄图像和深度图像的特征进行融合，显著提升了检测障碍物的准确性和鲁棒性。

2、本技术主要包括以下几个方面：

3、第一方面，本技术实施例提供了一种障碍物的检测方法，所述检测方法包括：

4、获取监测区域中的拍摄图像和深度图像；

5、将所述拍摄图像和所述深度图像输入至预先训练好的障碍物检测模型中，得到所述障碍物检测模型输出的所述监测区域中是否具有障碍物的检测结果；其中，所述障碍物检测模型包括主干网络、深度图编码器、视觉融合注意力网络以及检测头。

6、进一步的，所述将所述拍摄图像和所述深度图像输入至障碍物检测模型中，得到所述障碍物检测模型输出的所述监测区域中是否具有障碍物的检测结果的步骤，包括：

7、将所述拍摄图像输入至所述主干网络中，得到所述拍摄图像的多尺度的特征图像；

8、将所述深度图像输入至所述深度图编码器中，得到所述深度图像的特征图像；

9、将所述深度图像的特征图像以及所述拍摄图像的多尺度的特征图像输入至所述视觉融合注意力网络中进行特征融合，得到每个尺度对应的目标特征图像；

10、将每个尺度对应的目标特征图像输入至所述检测头中进行障碍物检测，得到所述检测头输出的所述监测区域中是否具有障碍物的检测结果。

11、进一步的，所述深度图编码器包括卷积层、池化层以及残差块；所述将所述深度图像输入至所述深度图编码器中，得到所述深度图像的特征图像的步骤，包括：

12、将所述深度图像输入至所述卷积层中进行特征提取，得到第一特征图像；

13、将所述第一特征图像输入至所述池化层中进行下采样，得到第二特征图像；

14、将第二特征图像输入至所述残差块中进行特征提取，得到所述深度图像的特征图像。

15、进一步的，所述视觉融合注意力网络包括深度信息增强注意力层、门控机制、门控机制、第一融合注意力层以及第二融合注意力层；所述将所述深度图像的特征图像以及所述拍摄图像的多尺度的特征图像输入至所述视觉融合注意力网络中进行特征融合，得到每个尺度对应的目标特征图像的步骤，包括：

16、将所述深度图像的特征图像输入至门控机制中，得到第四特征图像；

17、将所述第四特征图像与拍摄图像对应尺度的特征图像输入至对应的深度信息增强注意力层中，得到第五特征图像；

18、将所述第五特征图像以及拍摄图像对应尺度的特征图像输入至第一融合注意力层中，得到第一融合图像以及每个尺度对应的融合图像；

19、将所述第一融合图像经过门控机制后与所述深度图像的特征图像进行融合，得到第二融合图像；

20、将所述第二融合图像输入至门控机制中，得到第六特征图像；

21、将所述第六特征图像以及对应的融合图像经过门控机制输入至对应的深度信息增强注意力层中，得到第七特征图像；

22、将所述第七特征图像以及预设尺度对应的融合图像输入至第二融合注意力层中，得到每个尺度对应的目标特征图像。

23、进一步的，通过以下步骤训练障碍物检测模型：

24、获取训练样本图像；其中，所述训练样本图像为连续视频按照预设时间间隔抽帧得到的多张视频帧，每张视频帧具有标签，所述标签指示所述视频帧是否具有障碍物；

25、对所述训练样本图像进行数据增强处理，更新所述训练样本图像；其中，所述数据增强处理包括裁剪、旋转、平移、缩小以及放大；

26、将更新后的训练样本图像以及所述训练样本图像对应的深度图像输入至构建好的障碍物检测模型中进行预训练，得到预训练权重；

27、将所述预训练权重作为模型参数训练所述障碍物检测模型，得到所述障碍物检测模型输出的所述训练样本图像的预测结果；

28、基于所述预测结果以及所述标签，得到损失函数；

29、确定所述损失函数是否收敛；

30、若未收敛，则调整所述模型参数以继续训练所述障碍物检测模型；

31、若收敛，则得到训练好的障碍物检测模型。

32、进一步的，所述基于所述预测结果以及所述标签，得到损失函数的步骤，包括：

33、基于所述标签，若所述标签指示所述训练样本图像中具有障碍物，则所述标签包含有对所述障碍物进行标记的真实边界框；

34、基于所述预测结果中障碍物的预测边界框，确定所述预测边界框与所述真实边界框之间的位置损失值；

35、基于所述预测结果中障碍物的预测存在概率，确定所述预测存在概率与对应的训练样本图像的标签之前的置信度损失值；

36、获取预设权重，将所述预设权重与所述置信度损失值的乘积确定为第一参数；

37、将所述第一参数与所述位置损失值的加和，确定为损失函数。

38、进一步的，所述深度图编码器还包括inception结构以及注意力机制；所述将第二特征图像输入至所述残差块中进行特征提取，得到所述深度图像的特征图像的步骤，包括：

39、将第二特征图像输入至所述残差块中进行特征提取，得到所述残差块输出的特征图像；

40、将所述残差块输出的特征图像输入至inception结构进行特征提取，得到所述inception结构输出的特征图像；

41、将所述inception结构输出的特征图像输入至注意力机制进行特征提取，得到所述注意力机制输出的所述深度图像的特征图像。

42、第二方面，本技术实施例还提供了一种障碍物的检测装置，所述检测装置包括：

43、获取模块，用于获取监测区域中的拍摄图像和深度图像；

44、检测模块，用于将所述拍摄图像和所述深度图像输入至预先训练好的障碍物检测模型中，得到所述障碍物检测模型输出的所述监测区域中是否具有障碍物的检测结果；其中，所述障碍物检测模型包括主干网络、深度图编码器、视觉融合注意力网络以及检测头。

45、第三方面，本技术实施例还提供一种电子设备，包括：处理器、存储器和总线，所述存储器存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储器之间通过总线通信，所述机器可读指令被所述处理器执行时执行如上述的障碍物的检测方法的步骤。

46、第四方面，本技术实施例还提供一种计算机可读存储介质，该计算机可读存储介质上存储有计算机程序，该计算机程序被处理器运行时执行如上述的障碍物的检测方法的步骤。

47、本技术实施例提供的一种障碍物的检测方法、装置、电子设备及存储介质，所述检测方法包括：获取监测区域中的拍摄图像和深度图像；将所述拍摄图像和所述深度图像输入至预先训练好的障碍物检测模型中，得到所述障碍物检测模型输出的所述监测区域中是否具有障碍物的检测结果；其中，所述障碍物检测模型包括主干网络、深度图编码器、视觉融合注意力网络以及检测头。

48、这样，采用本技术提供的技术方案能够通过将拍摄图像和深度图像输入至由主干网络、深度图编码器、视觉融合注意力网络以及检测头构成的障碍物检测模型中，得到监测区域中是否具有障碍物的检测结果，可以检测多种未知的障碍物，不受预定义类别的限制，并通过障碍物检测模型的结构利用拍摄图像和深度图像的数据互补特性，自适应的将拍摄图像和深度图像的特征进行融合，显著提升了检测障碍物的准确性和鲁棒性。

49、为使本技术的上述目的、特征和优点能更明显易懂，下文特举较佳实施例，并配合所附附图，作详细说明如下。