技术新讯 > 计算推算,计数设备的制造及其应用技术 > 一种基于多模态的视觉感知模型处理方法及系统与流程 > 正文

一种基于多模态的视觉感知模型处理方法及系统与流程

国知局
2024-08-22 14:25:43

本发明属于自动驾驶视觉感知领域，具体涉及一种基于多模态的视觉感知模型处理方法。

背景技术：

1、现有的bev纯视觉模型算法对目标物的检测依赖于相机传感器采集数据有充分的泛化性，但实际工程中无法做到完全的泛化，模型无法获取到一些先验信息，导致模型在一些特定的场景表现很差，例如路面颠簸带来的车辆位置预测偏移，气象环境带来的模型预测精度下降。通常的解决办法是在数据层面和模型训练阶段将加入更宽域的数据，或者采取数据增强策略，从而缩小由于外界条件变化带来的预测误差，但依然无法完全解决预测误差，在不同外部条件变化情况下自动驾驶视觉感知的泛化问题未被解决。

技术实现思路

1、鉴于以上所述的现有技术的缺点，本发明的目的是提供一种基于多模态的视觉感知模型处理方法及系统，解决在不同外部条件变化情况下自动驾驶视觉感知的泛化问题，减小预测误差，提高模型输出的一致性。

2、为实现上述目的，本发明第一方面采用如下技术方案：

3、一种基于多模态的视觉感知模型处理方法，包括：获取车辆的惯性导航数据、图像数据，其中所述惯性导航数据包括俯仰角数据；预处理所述惯性导航数据和所述图像数据用于满足视觉感知模型训练，其中至少包括对所述惯性导航数据和所述图像数据进行时间戳匹配；对所述俯仰角数据处理用以获得在bev空间中对应的浮点数据，其中所述bev空间为所述图像数据构建的图像空间数据；基于预处理后的所述惯性导航数据和所述图像数据进行视觉感知模型训练时，将所述浮点数据嵌入预处理后的所述惯性导航数据和所述图像数据中用以获得目标视觉感知模型。

4、作为本发明的一种实施方式，所述预处理所述惯性导航数据和所述图像数据用于满足视觉感知模型训练，其中至少包括对所述惯性导航数据和所述图像数据进行时间戳匹配，包括：对所述图像数据进行抽帧、去畸变处理后进行数据标注，进行数据标注的所述图像数据在进行视觉感知模型训练时做缩放或裁剪处理；将所述图像数据与所述惯性导航数据进行时间戳匹配，其中包括将所述图像数据与所述俯仰角数据进行时间戳匹配；进行时间戳匹配后的所述图像数据、所述惯性导航数据及所述俯仰角数据用于视觉感知模型训练。

5、作为本发明的一种实施方式，所述对所述俯仰角数据处理用以获得在bev空间中对应的浮点数据，包括：对所述俯仰角数据处理进行截断处理以控制所述图像数据的视觉区域保持在预设的区域范围；对进行截断处理后的所述俯仰角数据进行归一化处理，获得用于嵌入所述视觉感知模型的浮点数据，其中所述浮点数据的数值均匀分布在0到1之间。

6、作为本发明的一种实施方式，所述对所述俯仰角数据处理用以获得在bev空间中对应的浮点数据，还包括：将所述浮点数据嵌入所述视觉感知模型；在将所述浮点数据嵌入所述视觉感知模型时，将所述浮点数据根据所述bev空间的高宽尺寸进行扩展获得向量值，且使得在所述bev空间内所有位置的向量值为标量值；将所述向量值转换为张量形成与所述bev空间中特征尺寸一致的向量，并进行通道维度扩展，将所述张量与所述bev空间的特征向量进行通道拼接，以便于作为训练数据训练所述视觉感知模型。

7、作为本发明的一种实施方式，所述浮点数据的浮点值为单精度浮点数。

8、作为本发明的一种实施方式，所述获取车辆的惯性导航数据、图像数据之前，还包括：对采集有图像数据的视觉相机进行标定，所述视觉相机被设置为俯仰角误差不超过所述设定弧度的10%；所述设定弧度包括正向倾斜与负向倾斜。

9、作为本发明的一种实施方式，所述视觉感知模型训练时，将所述图像数据及所述俯仰角数据进行编码后投射至bev空间中，将获得的在bev空间中对应的浮点数据嵌入至所述bev空间中，至少基于bev编码器与bev解码器训练视觉感知模型。

10、本发明的第二方面，提供一种基于多模态的视觉感知模型处理系统，包括输入模块，预处理模块，模态嵌入模块，嵌入模块，其中所述输入模块用于获取车辆的惯性导航数据、图像数据，其中所述惯性导航数据包括俯仰角数据；所述预处理模块用于预处理所述惯性导航数据和所述图像数据用于满足视觉感知模型训练，其中至少包括对所述惯性导航数据和所述图像数据进行时间戳匹配；所述模态嵌入模块用于对所述俯仰角处理用以获得在bev空间中对应的浮点数据，其中所述bev空间为所述图像数据构建的图像空间数据；所述嵌入模块用于基于预处理后的所述惯性导航数据和所述图像数据进行视觉感知模型训练时，将所述浮点数据嵌入预处理后的所述惯性导航数据和所述图像数据中用以获得目标视觉感知模型。

11、本发明的第三方面，提供一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现本发明第一方面所述的基于多模态的视觉感知模型处理方法。

12、本发明的第四方面，提供一种计算机程序产品，包括计算机指令，该计算机指令被处理器执行时实现本发明第一方面所述的基于多模态的视觉感知模型处理方法。

13、一种车辆，包括至少一个处理器，所述至少一个处理器与至少一个存储器耦合，所述至少一个处理器用于执行所述至少一个存储器中存储的计算机程序或指令，以使得所述车辆执行本发明第一方面所述的基于多模态的视觉感知模型处理方法。

14、综上所述，与现有技术相比，本发明包括以下至少一种有益技术效果：通过将俯仰角数据作为模型的先验信息加入视觉感知模型训练，能够有效地解决在不同外部条件变化情况下自动驾驶视觉感知的泛化问题，减小预测误差，提高模型输出的一致性。

技术特征：

1.一种基于多模态的视觉感知模型处理方法，其特征在于，所述方法包括：

2.根据权利要求1所述的基于多模态的视觉感知模型处理方法，其特征在于，所述预处理所述惯性导航数据和所述图像数据用于满足视觉感知模型训练，其中至少包括对所述惯性导航数据和所述图像数据进行时间戳匹配，包括：

3.根据权利要求1所述的基于多模态的视觉感知模型处理方法，其特征在于，所述对所述俯仰角数据处理用以获得在bev空间中对应的浮点数据，包括：

4.根据权利要求3所述的基于多模态的视觉感知模型处理方法，其特征在于，所述对所述俯仰角数据处理用以获得在bev空间中对应的浮点数据，还包括：

5.根据权利要求3所述的基于多模态的视觉感知模型处理方法，其特征在于，所述浮点数据的浮点值为单精度浮点数。

6.根据权利要求1至5任一项所述基于多模态的视觉感知模型处理方法，其特征在于，所述获取车辆的惯性导航数据、图像数据之前，还包括：

7.根据权利要求1至5任一项所述基于多模态的视觉感知模型处理方法，其特征在于，所述视觉感知模型训练时，将所述图像数据及所述俯仰角数据进行编码后投射至bev空间中，将获得的在bev空间中对应的浮点数据嵌入至所述bev空间中，至少基于bev编码器与bev解码器训练视觉感知模型。

8.一种基于多模态的视觉感知模型处理系统，其特征在于，包括输入模块，预处理模块，模态嵌入模块，嵌入模块，其中

9.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该计算机程序被处理器执行时实现权利要求1-7中任意一项所述的基于多模态的视觉感知模型处理方法。

10.一种计算机程序产品，包括计算机指令，其特征在于，该计算机指令被处理器执行时实现权利要求1-7中任意一项所述的基于多模态的视觉感知模型处理方法。

11.一种车辆，其特征在于，包括至少一个处理器，所述至少一个处理器与至少一个存储器耦合，所述至少一个处理器用于执行所述至少一个存储器中存储的计算机程序或指令，以使得所述车辆置执行如权利要求1至7中任一项所述的基于多模态的视觉感知模型处理方法。

技术总结本发明提供一种基于多模态的视觉感知模型处理方法及系统，所述方法包括：获取车辆的惯性导航数据、图像数据，其中所述惯性导航数据包括俯仰角数据；预处理所述惯性导航数据和所述图像数据用于满足视觉感知模型训练，其中至少包括对所述惯性导航数据和所述图像数据进行时间戳匹配；对所述俯仰角数据处理用以获得在BEV空间中对应的浮点数据，其中所述BEV空间为所述图像数据构建的图像空间数据；基于预处理后的所述惯性导航数据和所述图像数据进行视觉感知模型训练时，将所述浮点数据嵌入预处理后的所述惯性导航数据和所述图像数据中用以获得视觉感知模型。本发明有效地解决在不同外部条件变化情况下自动驾驶视觉感知的泛化问题。技术研发人员：王彤,杨紫崴,叶之明,任威平,王普,魏曦受保护的技术使用者：零束科技有限公司技术研发日：技术公布日：2024/8/20