技术新讯 > 计算推算,计数设备的制造及其应用技术 > 基于时序表征增强和轨迹修正的多目标联合检测跟踪方法 > 正文

基于时序表征增强和轨迹修正的多目标联合检测跟踪方法

国知局
2024-09-05 14:48:54

本发明涉及自动驾驶环境感知领域，尤其是涉及基于时序表征增强和轨迹修正的多目标联合检测跟踪方法。

背景技术：

1、近年来，随着新能源汽车的迅猛发展，智能驾驶技术也迅速普及。环境感知技术作为汽车智能驾驶系统三大核心技术之一，用于感知自车状态及周围环境。

2、对于道路场景中的动态目标，不仅需要准确检测出当前位置，还要对其轨迹进行有效跟踪。多目标跟踪的基本流程包括目标定位、特征提取、相似度量和数据关联等四部分，其中目标定位通过目标检测实现，特征提取用于进行相似度量，数据关联旨在基于目标间相似度将检测目标和对应的历史轨迹进行匹配以实现目标身份的保持。多目标跟踪方法主要包括基于检测的跟踪范式和联合检测跟踪范式。传统的基于检测的跟踪方法先进行目标检测，后进行多目标跟踪，计算速度快，但无法进行联合优化。联合检测跟踪方法能够实现联合优化，是一种端到端的感知算法。

3、目标在运动过程中可能会发生外观变化，这对联合检测跟踪模型的鲁棒性是一种较大的挑战。目标被遮挡或其它检测噪声会使目标置信度显著降低，引起目标轨迹id变化，导致联合检测跟踪模型的准确性和鲁棒性下降。

技术实现思路

1、本发明的目的就是为了克服上述现有技术存在的缺陷而提供一种基于时序表征增强和轨迹修正的多目标联合检测跟踪方法，通过时序表征增强使目标表征更有效、识别更准确，通过轨迹修正减少因目标置信度降低导致的轨迹id变化、使轨迹更连贯，进而提高检测和跟踪的准确性和鲁棒性。

2、本发明的目的可以通过以下技术方案来实现：

3、一种基于时序表征增强和轨迹修正的多目标联合检测跟踪方法，包括以下步骤：

4、在目标跟踪过程中，采集环视图像和点云，对环视图像和点云分别进行特征提取，对提取的特征进行融合，得到多模态融合特征；利用历史轨迹查询向量对当前帧初始化的目标查询向量进行时序表征增强，并与多模态融合特征进行空间特征交互，进行目标解码后得到目标检测结果；

5、根据目标检测结果进行数据关联，判断是否进行目标身份继承，得到轨迹id；

6、基于当前帧跟踪到的目标轨迹，更新预先存储的历史查询向量，基于历史查询向量和地图信息进行轨迹预测；

7、根据目标检测结果的目标分类置信度，利用预测的目标轨迹对低置信度轨迹进行修正。

8、进一步地，对环视图像进行特征提取的过程具体为：

9、将环视图像输入预先构建的特征提取网络，得到图像特征通过位置嵌入模块将环视图像对应的3d空间的位置坐标投影到更高维度特征空间得到3d位置特征编码通过融合模块将3d位置特征编码融入到图像特征中，得到3d感知的图像特征。

10、进一步地，对点云进行特征提取的过程具体为：

11、通过预先构建的点云特征提取网络，对当前帧的点云数据进行特征提取，得到点云特征。

12、进一步地，所述时序表征增强的过程具体为：

13、通过运动补偿和运动特征嵌入将历史轨迹查询向量对齐到当前帧，然后与当前帧的查询向量基于时间注意力机制进行特征交互，该特征交互的计算表达式为：

14、

15、式中，为时序表征增强后得到的特征查询向量，ta(·)是时间注意力模块；运动引导通过运动特征嵌入实现；查询向量是基于transformer注意力架构的定义，查询向量q由特征查询向量qc和位置查询向量qp组成；和分别是l层transformer模型第i层进行时序增强前输入的特征查询向量和位置嵌入查询向量，；当i＝0时，为当前帧初始查询向量，是时间注意力模块的初始输入；和分别为历史特征查询向量和历史位置查询向量，对应的计算表达式为：

16、

17、式中，cct(·)是拼接操作，和分别是kh个历史帧的位置嵌入查询向量和特征查询向量。

18、进一步地，所述运动补偿具体为：通过自车姿态将历史位置查询向量变换到当前帧，再进行位置嵌入，对应的计算表达式为：

19、

20、式中，ψ(·)是运动补偿算子；是历史位置查询向量，是历史帧的自车位姿，运动补偿后得到历史帧到当前帧的位姿变换矩阵和历史位置查询向量ε(·)是位置嵌入模块，对齐到当前帧的历史位置查询向量再进行位置嵌入得到历史位置嵌入查询向量历史特征查询向量对齐到当前帧时保持不变；

21、所述运动特征嵌入具体为：

22、将位姿变换矩阵、帧间时差、目标预测速度通过层归一化过程中的仿射变换嵌入到查询向量中，对应的计算表达式为：

23、

24、式中，ln(·)表示不带可学习仿射变换参数的层归一化算子，参数α和β的计算表达式为：

25、

26、式中，m是运动特征，包括帧间时差与目标预测速度的乘积、历史帧到当前帧的变换矩阵；运动特征m先通过相同的线性层l0变换为运动特征向量，再分别通过不同的线性层l1、l2得到带有运动特征的仿射变换系数α和β。

27、进一步地，所述当前帧初始查询向量由对齐到当前帧的前一帧查询向量和初始化的查询向量拼接而成，对应的计算表达式为：

28、

29、式中，cct(·)是拼接操作；由初始化的位置查询向量进行位置嵌入得到，是与位置查询向量同形状的全零的特征查询向量，对应的计算表达式为：

30、

31、式中，ε(·)是位置嵌入模块，zero_like(·)是产生同形状全零向量的算子。

32、进一步地，所述空间特征交互的计算表达式为：

33、

34、式中，为空间特征交互后得到的特征查询向量；sa(·)是空间注意力模块；是时序表征增强模块transformer模型第l层输出的特征查询向量；不同transformer层中的位置嵌入查询向量保持不变，即是当前帧多模态融合特征。

35、进一步地，所述数据关联在模型训练阶段和推理阶段采用不同的关联策略获得目标编号id；

36、所述数据关联在模型训练阶段的关联策略的表达式为：

37、

38、式中，对于当前帧有id的目标，若t-1时刻第i个目标的在当前帧真值id集合中，则当前帧目标继承上一帧的id，并将目标标记为激活态act，若目标id不在当前帧真值id集合中，则判断连续不在真值id集合中的帧数与帧数阈值lx的关系，若小于阈值则继承上一帧目标id即将目标标记为非激活态deact，若大于阈值则视为目标已离开视野，删除对应的轨迹；对于当前帧没有身份信息的目标，根据预测框与前一帧未出现的真值目标边界框的交并比iou，判断是否为真实目标，若交并比大于阈值则将真值id赋给预测框，并将其状态设为激活态act，若交并比小于阈值则认为是误报fp；

39、所述数据关联在模型推理阶段的关联策略的表达式为：

40、

41、式中，若分类置信度s对应的是轨迹查询向量，则解码得到的分类置信度大于阈值∈trk时视为真实目标，继承上一帧的轨迹小于阈值∈trk时视为误报fp；若分类置信度s对应的是初始化的查询向量，则解码得到的分类置信度大于阈值∈init时视为真实目标，分配新id，小于阈值εinit时视为误报fp。

42、进一步地，所述轨迹预测的过程具体为：基于存储的历史查询向量通过预测模块对未来kf帧的轨迹进行预测，对应的计算表达式为：

43、

44、式中，γ(·)是地图信息编码模块，imap是地图信息，首先利用地图信息编码模块对地图信息进行编码得到地图编码信息，然后利用历史特征查询向量和地图编码特征fm，通过时间注意力模块ta(·)预测未来κf帧的查询向量最后利用多层感知模块mlp(·)解码得到未来κf帧的目标运动

45、进一步地，利用预测的目标轨迹对低置信度轨迹进行修正的计算表达式为：

46、

47、式中，根据模型预测的目标分类置信度判断是否需进行轨迹修正，若目标分类置信度大于阈值∈r，则利用预测的轨迹将当前帧查询向量和传递到下一帧得到和利用轨迹延长算子获得第t+κf+1帧的运动，并将目标轨迹连续修正帧数归零；若目标分类置信度小于阈值∈r，则先判断目标轨迹连续修正帧数是否小于阈值∈l，若目标轨迹连续修正帧数小于阈值∈l，则视为目标暂时离开视野，继续保留该轨迹，并利用上一帧延长的轨迹将目标查询向量传递到下一帧，并利用轨迹延长算子获得第t+κf+1帧的运动，若目标轨迹连续修正帧数大于阈值∈l，则视为目标已离开视野，删除对应的轨迹。

48、进一步地，所述方法进行模型训练过程中，先对模型的检测部分进行单帧训练，再对整个模型进行多帧联合训练；所述模型训练过程包括对模型输入进行数据增广；在单帧训练时，所述数据增广包括缩放、裁剪、翻转、旋转、平移，在多帧训练时，所述数据增广包括缩放、裁剪。

49、与现有技术相比，本发明具有以下优点：

50、(1)本发明包括以下步骤，在多目标联合检测跟踪过程中，采集环视图像和点云，对环视图像和点云分别进行特征提取，对提取的特征进行融合，得到多模态融合特征；利用历史轨迹查询向量对当前帧初始化的目标查询向量进行时序表征增强，并与多模态融合特征进行空间特征交互，然后进行目标解码得到目标检测结果；根据目标检测结果进行数据关联，判断是否进行目标身份继承，得到轨迹id；基于当前帧跟踪到的目标轨迹，更新预先存储的历史查询向量，基于历史查询向量和地图信息进行轨迹预测；根据目标检测结果的目标分类置信度，利用预测的目标轨迹对低置信度轨迹进行修正。

51、该方案通过对多模态融合特征进行时序表征增强使目标表征更有效、识别更准确，利用预测的轨迹对低置信度轨迹进行轨迹修正减少轨迹id变化、使轨迹更连贯，进而提高目标检测和跟踪的准确性和鲁棒性。

52、(2)本发明先对模型的检测部分进行单帧训练，再对整个模型进行多帧联合训练，这种训练方式有利于模型收敛，可以加快模型训练速度。

53、(3)本发明训练模型时对输入数据进行多种增广，在单帧训练检测部分时采用缩放、裁剪、翻转、旋转、平移等增广方法，在多帧联合训练时采用缩放、裁剪等增广方法，以增加输入数据的多样性、增强模型的准确性和鲁棒性。