技术新讯 > 计算推算,计数设备的制造及其应用技术 > 煤矿单轨吊无人驾驶中自监督单目深度估计方法及系统  >  正文

煤矿单轨吊无人驾驶中自监督单目深度估计方法及系统

  • 国知局
  • 2024-07-31 22:46:31

本发明涉及图像深度估计领域,特别是煤矿单轨吊无人驾驶中自监督单目深度估计方法及系统。

背景技术:

1、国家能源局印发《智能化示范煤矿验收管理办法(试行)》,进一步明确和细化了煤矿智能化建设的技术方案和实施细则,其中“无人驾驶辅助运输车辆”已成为煤矿智能化建设的重要内容和智能化煤矿验收的重要标准。由此可见,随着我国矿山智能化建设进程的不断推进,矿井运输系统向智能化乃至无人化发展是必然趋势。然而,目前我国矿山智能化建设水平整体上还处于初级阶段,现有研究成果主要集中在采掘设备的智能化、数字化矿山建设等方面,而矿井运输系统特别是辅助运输系统,整体上仍还处于半机械化、半自动化甚至是严重依赖于人工操作的落后现状,其运输效率、工作可靠性以及安全性已经极大制约了矿井的安全高效生产。因此需要加快推进单轨吊无人驾驶技术的研究,单轨吊无人驾驶的实现能够减少财产损失、人员伤亡率,提高采矿工作效率。单轨吊运输系统具有机动灵活、运距不限等优点,可实现一条龙不转载直达运输是目前煤矿井下使用最为广泛的单轨运输设备。但是单轨吊行驶过程中,障碍物如大块落煤、巨石、巷道内堆放的钢铁建材以及作业人员等都会影响单轨吊的通过性,因此单轨吊无人驾驶需要精准判断与预防碰撞障碍物与作业人员的能力,提高煤矿单轨吊无人驾驶安全通过性,起到降本增效、安全生产的目的。单目深度估计结构简单易实现、开销较小是近年来计算机视觉领域研究热点,在各种三维感知任务如虚拟现实、无人驾驶系统、机器人导航中扮演着不可或缺的角色。该技术旨在利用单幅图像,逐像素地推算出各场景目标至摄像机成像中心的距离,即深度,进而生成深度图像,可以很好地辅助感知立体三维场景的空间信息。目前,单目深度估计按训练时是否需要深度真值标签可划分成有监督和自监督两种方式,有监督方式将rgb图像与其深度真值标签当作输入,经网络训练,学习到rgb图像和深度图像间的特征映射关系,进而预测出新的深度图像。自监督方式原理是图像重建,通过构造重建图像与输入图像间的损失来监督网络,无需使用深度真值标签就能够使网络在隐空间中获得场景3d信息。由于矿井巷道的真实深度标签难以获取、对设备要求高且成本昂贵,在实际应用中,尤其是针对煤矿单轨吊无人驾驶安全识别避障时,运用自监督的单目深度估计方法无疑是最优的深度估计方式。

2、为了解现有技术的发展状况,本发明对已有的专利和论文进行了检索、比较和分析:

3、专利文献cn 113034563 a“基于特征共享的自监督式单目深度估计方法”,该方法将姿态估计单元融入深度估计单元中,实现深度估计和姿态估计两部分操作在一个单一网络中的融合,得到全新的基于特征共享的单目单源深度估计网络来进行深度估计,尽管这种方法简化了网络,提高了推理速度,但该方法仅面向室外场景的无人驾驶,针对室内复杂场景时该网络对提取的特征无法很好地利用,预测深度精度差,对煤矿单轨吊等这类矿井室内场景不适用。

4、专利文献cn 110599533 a“适用于嵌入式平台的快速单目深度估计方法”,该方法在嵌入式平台上部署轻量级深度估计网络,在边缘服务器配置模型训练框架,两者之间通过网络进行交互:嵌入式平台为边缘服务器提供数据与标签,边缘服务器得到数据后进行训练,更新嵌入式平台上的服务器。该方法提供了一种嵌入式平台上进行深度估计网络部署的方法,但是该方法采用了rgb-d相机采集单目图片与深度图,受限于rgb-d相机本身的局限性,深度图感知范围有限并且深度变化较小,位姿旋转量较小的室内场景,一般应用于室内简单的机器人运动场合,对于煤矿单轨吊大型复杂室内场景收效甚微。

5、可见,现有的自监督深度估计方法对煤矿单轨吊无人驾驶场景图像进行深度预测时,精度明显不高,质量明显下降。其主要原因是在煤矿单轨吊无人驾驶时,摄像头所采集的场景结构实时变化,物体交错重叠较多、深度变化较大、视频序列具有较大的旋转分量。

6、综上所述,现有技术存在的问题是:

7、(1)煤矿单轨吊无人驾驶时采集的单目视频序列物体交错重叠较多、深度变化较大,现有的自监督模型难以有效聚合上下文信息,导致单目深度估计在进行深度推理时缺少一些关键的深度线索。

8、(2)煤矿单轨吊无人驾驶时采集的单目视频序列具有比其他简单序列更大的旋转分量,从而导致位姿网络预测旋转分量时存在较大误差。

技术实现思路

1、本发明要解决的技术问题是针对上述现有技术的不足,而提供煤矿单轨吊无人驾驶中自监督单目深度估计方法及系统。

2、为解决上述技术问题,本发明采用的技术方案是:

3、一种煤矿单轨吊无人驾驶中自监督单目深度估计方法,具体而言,首先提出嵌入自适应特征聚合算法的深度估计网络,用于在深度估计中聚合高低尺度特征的同时自适应地保持其上下文一致性,缩小语义差距;然后提出嵌入旋转量优化算法的位姿估计网络,用于在位姿网络中加权融合原始主路径与其他路径的前3维向量来细化旋转分量,提高预测位姿的准确性;最后提出图像边缘相似性损失函数,为深度估计提供形状先验和语义指导,作为额外的自监督信号来约束网络。本发明基于structdepth网络框架,能够有效地提高预测深度的精度,使得煤矿单轨吊对作业人员和障碍物的位置距离远近能够更准确地估计,增强其精准判断与预防碰撞障碍物与作业人员的能力,提高煤矿单轨吊无人驾驶安全通过性。

4、所述方法包括以下步骤:

5、第一步,构建基于自适应特征聚合算法的深度估计网络,利用该网络估计出输入rgb图像的深度图像。

6、第二步,构建基于旋转量优化算法的位姿估计网络,利用该网络预测出相机的相对位姿关系,与第一步得到的深度图像进行重建图像。

7、第三步,构建含有图像边缘相似性损失函数的损失优化模块,利用该模块计算重建图像与输入图像的损失误差,通过前向传播计算损失误差值,然后通过反向传播更新网络中所有权重参数,直到计算的损失获得最小值且收敛。

8、进一步,所述第一步构建基于自适应特征聚合算法的深度估计网络,包括:

9、(1)以resnet50网络作为深度估计网络编码器,将目标图像作为输入,利用resnet50的bottleneck卷积模块对输入图像进行5层卷积以及下采样操作,缩小特征分辨率,提取不同尺度特征即各层级特征图像,最终得到提取输出特征图像。

10、(2)通过嵌入自适应特征聚合算法的解码器网络,将解码器层级通过标准双线性插值上采样以及反卷积操作得到的特征图像与通过跳跃连接得到的上一层级编码器输出按照通道拼接,然后通过两个学习特征偏移映射分支来预测偏移量图,分别用于细化特征图像和特征图像,细化函数通过双线性插值进行细化,即通过下面公式,利用偏移量生成细化特征:

11、

12、两个细化特征可表示为:

13、

14、

15、最后将两个细化特征进行聚合得到f″i+1,公式为:

16、

17、将得到聚合特征f″i+1作为解码器上一层级的输入,依次重复以上4次聚合处理,最后将解码器第一层级输出特征图像用sigmoid函数映射处理得到预测深度图像。

18、进一步,所述第二步中构建基于旋转量优化算法的位姿估计网络,包括:

19、(1)位姿估计网络同样采用u-net结构,位姿估计网络编码器使用resnet18网络,并且在位姿编码器中使用预训练权重模型。将预训练模型中第一个卷积核的维度进行扩展,使网络可以接收六通道作为输入,将扩展后的卷积核中的权重除以2,保证卷积操作结束后与单张图像进入残差网络的数值范围相同,编码器网络中最终输出图像特征,其通道维数为512。

20、(2)通过嵌入旋转量优化算法的解码器网络将编码器中所提取的图像特征进行整合。传统的位姿估计网络首先使用squeeze对图像特征进行降维操作,然后将图像特征按照行并排起来,然后进行多次卷积操作,将矩阵缩放0.01,最后得到一个6维的特征向量即是相邻帧间图像的6自由度位姿变换,其中前面以欧拉角的形式的3维特征代表旋转,后面3维特征代表平移,本发明在传统位姿网络解码器网络中嵌入旋转量优化算法,采取多路径融合细化方式预测6维向量,在位姿解码器第四层中,将原始单层卷积层改成多层卷积层,原始主路径卷积层仍预测6维向量,其他路径卷积层分别预测5维向量、4维向量等,最后将所有的前3维向量进行加权融合细化得到输出,计算公式为:

21、r=λ3r3+λ4r4+λ5r5+r6+λ7r7...

22、最终将超参数设为0.4。根据这深度估计网络和位姿估计网络的输出结果共同构建重投影图像,然后将重投影误差引入至损失函数。

23、进一步,所述第三步中构建含有图像边缘相似性损失函数的损失优化模块,包括:

24、(1)常规损失优化函数的构建。由上述可知第一二步可知,给定目标图像it和另一视角源图像is,利用预测深度图作为桥接变量对图像合成过程进行训练和约束,训练网络既需要预测目标图像的深度图像dt,也需要估计一对目标图像和源图像之间的相对姿态tt→s。因此光度重投影损失可以构造如下:

25、

26、is→t=is<proj(dt,tt→s,k)>

27、其中ρ为光度重建误差,它是l1损失和图像结构化相似度(ssim)损失的加权组合,定义为:

28、

29、proj()是将目标图像像素坐标pt映射到源图像像素坐标ps的变换函数,计算公式为:

30、ps~ktt→sdt(pt)k-1pt

31、假设所有图像的相机内参矩阵k相同,当在矿井室内图像出现低纹理区域时,逐像素平滑损失函数能在光度重投影损失衰弱的情况下对深度值进行约束,具体为:

32、

33、此外,此方法仍采用structdepth中的法向量损失函数lnrom和共平面损失约束lplane,因此这些损失函数可表示为:

34、l=lpe+λ1lsmooth+λ2lnrom+λ3lplane

35、(2)图像边缘相似性损失优化函数的构建。使用canny算子对室内图像进行边缘检测。利用canny算子分别检测出目标图像与预测深度图像的边缘特征信息图像;将二维的边缘信息图像转换拉伸成一维的特征向量块;计算这两个特征向量块的余弦相似度。因此,图像边缘相似性损失函数计算公式为:

36、ledge=1-cos(f(fedge),f(dedge))

37、因此本专利总的损失函数为:

38、lall=lpe+λ1lsmooth+λ2lnrom+λ3lplane+λ4ledge

39、将两组网络得到的重投影误差引入至损失函数,结合其他自监督损失函数来反向传播、更新网络参数,从而迭代优化训练网络输出。

40、煤矿单轨吊无人驾驶中自监督单目深度估计系统,包括基于自适应特征聚合算法的深度估计网络、基于旋转量优化算法的位姿估计网络和含有图像边缘相似性损失函数的损失优化模块;且所述深度估计网络的编码器为resnet50网络结构,位姿估计网络编码器使用resnet18网络结构。

41、本发明具有如下有益效果:

42、提出了面向煤矿单轨吊无人驾驶中自监督单目深度估计的算法及系统,具体而言,首先提出了自适应特征聚合算法,用于在深度估计中聚合高低尺度特征的同时自适应地保持其上下文一致性;然后提出一个旋转量优化算法,用于在位姿网络中加权融合原始主路径与其他路径的前3维向量来细化旋转分量;最后提出图像边缘相似性损失算法,为深度估计提供形状先验,作为额外的自监督信号来约束网络。本发明能够有效提高预测深度的精度,使得煤矿单轨吊对作业人员和障碍物的位置距离远近能够更准确地估计,增强其精准判断与预防碰撞障碍物与作业人员的能力,并具有良好的泛化性能,提高煤矿单轨吊无人驾驶安全通过性。

本文地址:https://www.jishuxx.com/zhuanli/20240730/194530.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。