技术新讯 > 计算推算,计数设备的制造及其应用技术 > 一种多模态神经网络模型及铁路货车图像标注的方法与流程  >  正文

一种多模态神经网络模型及铁路货车图像标注的方法与流程

  • 国知局
  • 2024-10-09 15:54:09

本发明属于数字图像处理,具体涉及一种多模态神经网络模型及铁路货车图像标注的方法。

背景技术:

1、铁路货运是一种极其重要的货物运输方式,具有成本低,运载量大等优点。负责货运的铁路货车往往是全年无间断运行,在高强度和高载荷的运行下,铁路货车经常出现各类零部件故障,这些故障影响行车安全和运营安全,因此需要定期定时对铁路货车进行检测和观察,以便发现和处理这些故障。传统的铁路货车检测依赖于检车员现场人工观察,作业效率低,作业难度高。近年来,随着计算机技术、面阵成像技术、网络传输技术和人工智能技术的发展,tfds(铁路货车运行故障动态图像检测系统)逐渐代替了现场检车员,检测车辆的方式从“看车”变成了“看图”。

2、铁路货车运行故障动态图像检测系统是一套集高速数字图像采集、大容量图像数据实时处理和精确定位模式识别技术于一体的智能系统。在故障检测时,采用神经网络对采集到的铁路货车图像进行识别,识别出铁路货车走行部上是否存在零件松动、零件缺失、零件破损或表面出现裂纹等故障。

3、构建这样的铁路货车智能识别技术往往需要使用有监督的机器学习技术,因此需要预先收集大量的铁路货车的图像样本,并且需要人工对样本进行标注用以支撑神经网络的训练和学习。由于铁路货车的零件繁多,零件状态各异,故障类型也复杂多变,因此对铁路货车图像进行标注是一件极其复杂繁琐耗费人力的工作。

技术实现思路

1、本发明的目的是提供一种多模态神经网络模型及铁路货车图像标注的方法,使用多模态神经网络模型,结合来自标注工具的定位点坐标输入,对铁路货车图像进行半自动标注,提高了铁路货车图像标注的效率。

2、本发明采用以下技术方案:一种铁路货车图像标注的方法,包括如下步骤:

3、获取待处理铁路货车图像和定位点坐标;定位点坐标位于待处理铁路货车图像的目标部件区域中;

4、以待处理铁路货车图像和定位点坐标为输入,基于多模态神经网络模型的输出确定候选轮廓框;定位点坐标位于候选轮廓框内;候选轮廓框为一个或多个;当候选轮廓框为一个时,其为目标部件的轮廓框;当候选轮廓框为多个时,其为目标部件的轮廓框以及目标部件的关联部件的轮廓框;多模态神经网络模型基于transformer架构建立;

5、由候选轮廓框中选择目标轮廓框。

6、进一步地,多模态神经网络模型的输出为n×2m的矩阵形式的数组,其中:n表示候选轮廓框的数量,m表示为确定出候选轮廓框所需的最多的轮廓点的数量,n和m均为大于0的整数。

7、进一步地,该多模态神经网络模型的输入还包括待处理铁路货车图像的名称。

8、进一步地,该多模态神经网络模型由编码器模块和解码器模块组成,且编码器模块和解码器模块通过交叉注意力模块连接;

9、编码器模块由依次相连接的位置编码模块、特征嵌入模块和若干个组合模块组成,若干个组合模块顺次连接;

10、每个组合模块由相连接的第一多头自注意力模块和全连接前馈网络模块组成;第一多头自注意力模块和全连接前馈网络模块间通过残差模块连接;

11、解码器模块由相连接的提示编码器和多个第二多头自注意力模块组成,多个第二多头自注意力模块顺次连接;

12、第一多头自注意力模块和第二多头自注意力模块均由多个平行的自注意力模块组成。

13、进一步地,该多模态神经网络模型的损失函数为:

14、;

15、其中:表示所述候选轮廓框的数量,表示当前所述候选轮廓框中像素点的数量,和均为大于0的整数;表示预测的第个所述候选轮廓框中的第个像素点为真实轮廓点的概率,取值范围为0-1;表示预测出的第个所述候选轮廓框;表示真实的第个轮廓框。

16、进一步地,该定位点坐标由用户端的标注工具标注而得;

17、标注工具标注定位点坐标的具体方法为:标注工具加载待处理铁路货车图像,获取待处理铁路货车图像中用户输入的目标部件上感兴趣的点,得到待处理铁路货车图像的图像坐标系下感兴趣的点的坐标,作为定位点坐标。

18、进一步地,该多模态神经网络模型中的编码器模块提取待处理铁路货车图像的特征编码,并保存特征编码,保存的特征编码的名称与对应的待处理铁路货车图像的名称相一致。

19、进一步地,该多模态神经网络模型部署在gpu服务器端,与标注工具通过网络相连接。

20、本发明还公开了一种多模态神经网络模型,用于实现上述的一种铁路货车图像标注的方法,包括编码器模块和解码器模块,且编码器模块和解码器模块通过交叉注意力模块连接;

21、编码器模块由依次相连接的位置编码模块、特征嵌入模块和若干个组合模块组成,若干个组合模块顺次连接;

22、每个组合模块由相连接的第一多头自注意力模块和全连接前馈网络模块组成;且第一多头自注意力模块和全连接前馈网络模块间通过残差模块连接;

23、解码器模块由相连接的提示编码器和多个第二多头自注意力模块组成,多个第二多头自注意力模块顺次连接;

24、各第一多头自注意力模块和第二多头自注意力模块均由多个平行的自注意力模块组成。

25、本发明的有益效果是:1.多模态神经网络模型基于transformer架构,用以处理铁路货车图像,结合来自标注工具的定位点坐标输入,可以捕获与目标部件形状无关的通用的轮廓框信息。2.标注工具在获取待处理铁路货车图像中目标部件上感兴趣的点时,点位置无任何约束,支持任意的坐标输入,同时输出多层级的轮廓框,即可同时得到部件以及相关联部件的轮廓框,提高了标注效率。3.当用户多次标注同一张图像的不同部件时,可以重复使用来自编码器模块的特征编码,避免了重复运行编码器模块的开销,降低了时间成本。4.标注工具通过网络调用解码器模块,获取部件的潜在的轮廓仅需约80毫秒,实现了实时标注。

技术特征:

1.一种铁路货车图像标注的方法,其特征在于,包括如下步骤:

2.如权利要求1所述的一种铁路货车图像标注的方法,其特征在于,所述多模态神经网络模型的输出为n×2m的矩阵形式的数组,其中:n表示所述候选轮廓框的数量,m表示为确定出所述候选轮廓框所需的最多的轮廓点的数量,n和m均为大于0的整数。

3.如权利要求2所述的一种铁路货车图像标注的方法,其特征在于,所述多模态神经网络模型的输入还包括所述待处理铁路货车图像的名称。

4.如权利要求3所述的一种铁路货车图像标注的方法,其特征在于,所述多模态神经网络模型由编码器模块和解码器模块组成,且所述编码器模块和解码器模块通过交叉注意力模块连接;

5.如权利要求4所述的一种铁路货车图像标注的方法,其特征在于,所述多模态神经网络模型的损失函数为:

6.如权利要求5所述的一种铁路货车图像标注的方法,其特征在于,所述定位点坐标由用户端的标注工具标注而得;

7.如权利要求6所述的一种铁路货车图像标注的方法,其特征在于,所述多模态神经网络模型中的编码器模块提取所述待处理铁路货车图像的特征编码,并保存所述特征编码,保存的所述特征编码的名称与对应的所述待处理铁路货车图像的名称相一致。

8.如权利要求7所述的一种铁路货车图像标注的方法,其特征在于,所述多模态神经网络模型部署在gpu服务器端,与所述标注工具通过网络相连接。

9.一种多模态神经网络模型,其特征在于,用于实现权利要求1-8中任一项所述的一种铁路货车图像标注的方法,包括编码器模块和解码器模块,且所述编码器模块和解码器模块通过交叉注意力模块连接;

技术总结本发明公开了一种多模态神经网络模型及铁路货车图像标注的方法,该方法包括如下步骤:获取待处理铁路货车图像和定位点坐标;定位点坐标位于待处理铁路货车图像的目标部件区域中;以待处理铁路货车图像和定位点坐标为输入,基于多模态神经网络模型的输出确定候选轮廓框;定位点坐标位于候选轮廓框内;候选轮廓框为一个或多个;当候选轮廓框为一个时,其为目标部件的轮廓框;当候选轮廓框为多个时,其为目标部件的轮廓框以及目标部件的关联部件的轮廓框;由候选轮廓框中选择目标轮廓框。该方法使用多模态神经网络模型,结合来自标注工具的定位点坐标输入,对铁路货车图像进行半自动标注,提高了铁路货车图像标注的效率。技术研发人员:贾琪,李越,贾楠受保护的技术使用者:慧铁科技股份有限公司技术研发日:技术公布日:2024/9/26

本文地址:https://www.jishuxx.com/zhuanli/20240929/310702.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。