技术新讯 > 计算推算,计数设备的制造及其应用技术 > 一种基于轻量化Transformer的神经形态视觉目标跟踪方法  >  正文

一种基于轻量化Transformer的神经形态视觉目标跟踪方法

  • 国知局
  • 2024-09-14 15:06:08

本发明涉及视觉目标跟踪的,具体而言,尤其涉及一种基于轻量化transformer的神经形态视觉目标跟踪方法。

背景技术:

1、神经形态视觉相机是受生物启发的传感器,其可检测传感器阵列中每个像素的强度变化。与传统的基于rgb的相机相比,神经形态视觉相机具有高时间分辨率、高动态范围和低功耗等优势。这些独特的优势使得神经形态视觉相机能够克服复杂环境的挑战,在快速运动和光线较差的等场景中依然能稳健工作。因此,神经形态视觉相机在一系列应用中获得了广泛的应用,例如图像重建和增强、光流估计和重定位等任务中。其中,神经形态视觉相机提供丰富的空间和时间信息为推进视觉目标跟踪的进一步发展开辟了新的可能性。

2、为了有效地提取和利用神经形态视觉数据的时空信息,一个典型的方法是将神经形态数据首先转换为帧格式,然后利用卷积神经网络(convolutional neural networks,cnns)来捕获特征。然而,cnns缺乏提取时间线索的能力,从而限制了跟踪器的表现。因此,某些研究工作尝试引入了循环神经网络(recurrent neural networks,rnns)和长短期记忆网络(long short-term memory networks,lstms)来增强跟踪器对时序信息的建模能力。然而,lstms通常需要大量内存来保留跟踪序列中的历史信息,导致实时性较差。相反,尖峰神经网络(spiking neural networks,snns)可以直接处理异步和不规则的神经形态视觉数据,无需进行预处理,且功耗极低。然而,由于在反向传播训练方面存在挑战,snns的性能通常难以与cnns的性能相匹配。

3、鉴于transformer具有较强的全局时空建模能力,其已经被用于一系列基于神经形态传感器的视觉任务中。然而,作为transformer核心的自注意力机制的计算和时间复杂度与输入编码块数量的平方成正比,大大限制了其在资源受限的硬件设备上部署的潜能。此外,现有的轻量化transformer的方法通常都是基于rgb图像进行设计的,因此不能直接适配到基于神经形态视觉数据的任务中。

4、综上所述,针对神经形态数据和目标跟踪任务展现出的特征,通过丢弃无信息的编码块,从而实现轻量化transformer,对研究面向神经形态视觉的目标跟踪方法是十分重要的。

技术实现思路

1、根据上述提出的技术问题,而提供一种基于轻量化transformer的神经形态视觉目标跟踪方法。本发明主要利用两种自适应编码块稀疏化策略,即熵引导的编码块消除方法和内容引导的编码块消除方法,从而在保证跟踪性能的同时减少计算量。

2、本发明采用的技术手段如下:

3、一种基于轻量化transformer的神经形态视觉目标跟踪方法,具体步骤包括:

4、s1、将神经形态视觉数据转换为帧图像;

5、s2、将转换后的帧图像分割为多个子图像块;

6、s3、通过熵引导的编码块消除方法,消除与跟踪目标无关的编码块;

7、s4、将s3中剩余的编码块通过内容引导的编码块消除方法,消除冗杂的编码块;

8、s5、将剩余的编码块输入到预测头中,实现对目标的定位。

9、进一步地,所述步骤s1具体包括:

10、给定神经形态数据包含n个事件,其中(xk,yk)表示第k个事件ek的像素位置,tk表示时间戳,pk表示极性,本发明通过以下方式将神经形态视觉数据转换成帧图像:

11、ec(x,y,t)=δ(x-xk,y-yk)δ(t-tk)

12、其中,δ表示狄拉克函数,ec表示帧图像。

13、进一步地,所述步骤s2具体包括:

14、利用模板帧和搜索帧共用策略,将帧图像分割为多个子图像块,模板帧和搜索帧将被分割成多个子图像块并共同送入到transformer网络中进行特征提取,以实现不同时序数据的交互;

15、通过transformer的多头注意力机制生成的编码块为其中nx和nz分别是模板帧和搜索帧对应的的编码块块数,c表示为通道维度大小。

16、进一步地,所述步骤s3具体包括:

17、熵引导的编码块消除方法,通过计算熵来衡量搜索标记中的信息量,并基于计算的熵自适应地预测稀疏率γ1,消除与跟踪目标无关的编码块:

18、γ1=α+(1-α)σ(κ′)

19、

20、其中,σ表示sigmoid函数;ε表示对通道维度求熵操作;代表三层多层感知器;α是用于防止稀疏率过小的超参数;稀疏率γ1根据模板和搜索特征之间的相似度来选择包含目标的搜索编码块;

21、在获取模板编码块时,信息交互可定义为:

22、

23、其中,表示输入模板编码块与所有搜索编码块之间的相似度;表示softmax函数;qz表示模板特征的查询向量;kx表示搜索特征的键向量;dk表示缩放因子,用于防止softmax函数的输入过大。

24、生成掩模用于去除模板帧中背景区域造成的干扰,提取模板帧中心部分的编码块:

25、

26、其中,表示模板帧中心部分与搜索编码块之间的相似度;wz表示提取特征的宽度;hz表示提取特征的高度。

27、保留得分最高的(1-γ1)nx个搜索编码块,输出的搜索编码块由表示。

28、进一步地,所述步骤s4具体包括:

29、熵引导的编码块消除方法通过评估搜索编码块包含内容的重要性,以自适应地消除冗杂的编码块;

30、评估s3中输出的搜索编码块的重要性得分

31、

32、以自适应方式根据搜索编码块的内容预测稀疏率γ2:

33、

34、其中,β是用于控制γ2大小的参数;φ代表求均值操作;

35、根据搜索编码块的重要性得分按降序排序,保留(1-γ2)(1-γ1)nx个搜索编码块。

36、进一步地,所述步骤s5具体包括:

37、将s5中,经过熵引导的编码块消除方法熵引导的编码块消除方法消除后,仍保留的编码块输入到预测头中进行目标定位。

38、进一步地,一种存储介质,所述存储介质包括存储的程序,其中,所述程序运行时,执行所述基于轻量化transformer的神经形态视觉目标跟踪方法。

39、进一步地,一种电子装置,包括存储器、处理器及存储在所述存储器上并可在所述处理器上运行的极端机程序,所述处理器通过所述计算机程序运行执行所述基于轻量化transformer的神经形态视觉目标跟踪方法。

40、较现有技术相比,本发明具有以下优点:

41、本发明提供的基于轻量化transformer的神经形态视觉目标跟踪方法,能够实时地对快速运动和低光照等复杂场景下的目标进行跟踪。本方明设计的熵值引导的编码块消除技术可以根据场景的信息量评估编码块的消除率,使得场景信息较少时,给予较大的消除率,从而滤除更多的无用信息。而内容引导的编码块消除技术则是进一步优化消除过程,将与跟踪目标更相关的编码块进行保留。通过以上两个技术,可以有效地去除与目标跟踪无关的信息,轻量化模型的同时去除背景噪声的干扰。

42、基于上述理由本发明可在视觉目标跟踪的技术领域广泛推广。

本文地址:https://www.jishuxx.com/zhuanli/20240914/296959.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。