技术新讯 > 计算推算,计数设备的制造及其应用技术 > 无人驾驶感知方法、系统、车辆及计算机可读存储介质与流程  >  正文

无人驾驶感知方法、系统、车辆及计算机可读存储介质与流程

  • 国知局
  • 2024-09-11 14:19:55

本技术涉及无人驾驶,尤其涉及无人驾驶感知方法、系统、车辆及计算机可读存储介质。

背景技术:

1、感知是无人驾驶领域最为关键的环节之一,高准确度、高鲁棒性、高泛化能力的感知结果是后续预测、规划、控制等环节的基础。在无人驾驶汽车所使用的传感器类别中,相机相比于激光雷达、毫米波雷达等传感器,成本更低,且具有色彩纹理等更丰富的语义信息。因此,多视角相机是无人驾驶感知中最常用的输入模态。目前,基于深度学习的无人驾驶感知算法通常将传感器信息作为输入,经过神经网络处理后,得到格式化的感知结果:例如,在3d目标检测任务中,输出被格式化为三维包围框的各项参数、类别与置信度;在鸟瞰视图(bev)语义分割任务中,输出被格式化为鸟瞰视图的像素级地图矩阵;在占据栅格预测任务中,输出被格式化为占据预测的体素矩阵。

2、格式化的输出有着以下优点:首先,格式化的输出往往与空间坐标直接绑定,具有相对准确的定位信息;其次,格式化的输出往往能够直接通过数学计算得到可量化的评价指标;最后,格式化的输出方便计算机程序理解,后续的预测、规划、控制等算法模块通常都需要格式化的感知结果作为输入。如果想要一个神经网络模型能够进行格式化的输出,则必须在训练时给予格式化的标注,例如,在训练3d目标检测模型时,首先需要采集一定规模的数据,然后对数据进行包围框和类别的标注,这往往是一项极为耗费人力与财力的工作。而逐栅格进行标注的bev语义分割标注和占据栅格标注的成本还要更高。目前,仿真技术的真实性还较差,难以从模拟环境迁移到现实环境中,而真实数据的采集与标注又受到成本限制,因此,现有的无人驾驶数据集往往都规模有限。

3、现有研究将大语言模型和视觉语言模型应用在无人驾驶感知领域,然而,难以进行格式化输出成为了大语言模型和视觉语言模型与自动驾驶技术结合的一个关键瓶颈;由于,大语言模型输出是自然语言,只有人类驾驶员才能理解,自动驾驶下游的规划、控制系统目前都不能凭借着用自然语言描述的感知结果进行工作,在缺乏足够规模的结构化标注数据的情况下,这些大语言模型和视觉语言模型无法得到精确的结构化感知结果。

4、因此,现有技术还有待于改进和发展。

技术实现思路

1、本技术的主要目的在于提供无人驾驶感知方法、系统、车辆及计算机可读存储介质,旨在解决现有技术中无人驾驶情景下大模型的结构化感知结果精度低的问题。

2、本技术第一方面实施例提供一种无人驾驶感知方法,包括以下步骤:对输入图像进行图像特征编码,得到第一查询集;获取所述输入图像的局部图像,并分别获取所述输入图像和所述局部图像对应的自然语言提示语句;将获取的自然语言提示语句及对应的图像输入视觉-语言大模型中,得到自然语言输出结果;对所述自然语言输出结果进行特征编码及感知,得到特征向量和位置编码,并根据所述特征向量和所述位置编码得到第二查询集;根据所述第一查询集和所述第二查询集对所述输入图像的图像特征进行查询,并基于transformer的解码器进行感知任务预测,输出感知结果;其中,所述感知任务包括:3d目标检测与追踪、bev视图语义分割以及占据栅格预测中的任意一种。

3、根据上述技术手段,本技术实施例通过3d感知模型对输入图像进行图像特征编码,以及通过视觉-语言大模型对图像及自然语言提示语句进行处理,可将视觉语言模型与传统的3d感知模型进行结合,实现在没有大规模结构化数据的前提下,无需耗费大量计算资源重训或微调大模型,仅利用已有大模型的泛化能力,提高无人驾驶情景下大模型的结构化感知结果精度。

4、可选地,在本技术的一个实施例中,所述对输入图像进行图像特征编码,得到第一查询集,具体包括:利用2d卷积主干网络,对所述输入图像进行图像特征编码,获得图像编码特征;基于transformer编码器或深度估计与投影的视角转换网络对所述图像编码特征进行映射,得到所述第一查询集。

5、根据上述技术手段,本技术实施例通过2d卷积主干网络对输入图像进行图像特征编码,可获得各视角相机图像编码特征,以及通过transformer编码器或深度估计与投影的视角转换网络对图像编码特征的姿态进行仿射变换的映射,实现历史帧查询与当前帧的对齐,从而得到更为准确的以位置编码和特征向量表征的查询集。

6、可选地,在本技术的一个实施例中,所述基于transformer编码器或深度估计与投影的视角转换网络对所述图像编码特征进行映射,得到所述第一查询集,具体包括:获取当前帧图像编码特征对应的运动属性,并根据所述运动属性和预设线性函数将所述当前帧图像编码特征与前一帧查询进行映射,从所述前一帧查询提取历史信息;根据所述历史信息对所述当前帧图像编码特征的姿态进行仿射变换,将当前帧图像编码特征与所述前一帧查询对齐,得到所述第一查询集。

7、根据上述技术手段,本技术实施例用当前的运动属性和线性函数将当前帧图像编码特征与前一帧查询进行映射,实现当前帧图像编码特征与前一帧查询的配准融合,从而精确地提取历史查询信息,并根据所提取的历史查询信息对当前帧的姿态进行仿射变换的映射,实现历史帧查询与当前帧的对齐,得到更为准确的感知任务查询集。

8、可选地,在本技术的一个实施例中,所述获取所述输入图像的局部图像,并分别获取所述输入图像和所述局部图像对应的自然语言提示语句,具体包括:根据预设滑动窗口步长对所述输入图像进行滑动窗口切割,得到所述局部图像,并计算所述局部图像对应的相机参数矩阵;分别将所述输入图像和所述局部图像与对应的相机参数矩阵进行关联,并重新排列后得到图像及参数列;根据所述图像及参数列选取各图像对应的自然语言提示语句。

9、根据上述技术手段,本技术实施例通过滑动窗口对输入图像进行分割,可利用获取的局部图像完善视觉-语言大模型的描述,得到更准确的自然语言提示信息,以及通过计算局部图像对应的相机参数矩阵,可对所有图像及对应的相机参数矩阵进行关联及排序,从而依次获取对应的自然语言提示语句,提高视觉-语言大模型输出精度。

10、可选地,在本技术的一个实施例中,所述根据所述图像及参数列选取各图像对应的自然语言提示语句,之后还包括:根据选取的自然语言提示语句生成输入三元组信息;其中,所述三元组信息包括:所述输入图像、所述局部图像以及各图像对应的提示词、相机参数矩阵。

11、根据上述技术手段,本技术实施例利用图像特征、提示词以及相机参数矩组成三元组信息,可利用视觉-语言大模型得到自然语言输出结果,从而不需要在自动驾驶场景下进行训练或微调,仅使用在大规模综合数据上已经训练好的模型权重进行推理,即可匹配得到包含一个自然语言句子和对应的相机参数的二元组信息。

12、可选地,在本技术的一个实施例中,所述将获取的自然语言提示语句及对应的图像输入视觉-语言大模型中,得到自然语言输出结果,具体包括:将所述三元组信息中的各图像和对应的自然语言提示语句输入视觉-语言大模型中,将所述自然语言提示语句中的每个语句与对应输入三元组中的相机参数矩阵进行匹配,得到所述自然语言输出结果;其中,所述得到自然语言输出结果包括:自然语言语句和对应的相机参数矩阵。

13、根据上述技术手段,本技术实施例通过将三元组信息中的图像特征和自然语言提示语句输入视觉-语言大模型中,即可得到自然语言输出结果,实现视觉语言模型与传统的3d感知模型的结合,从而不需要在自动驾驶场景下进行训练或微调,仅使用在大规模综合数据上已经训练好的模型权重进行推理,降低了感知任务的计算成本。

14、可选地,在本技术的一个实施例中,所述对所述自然语言输出结果进行特征编码及感知,得到特征向量和位置编码,并根据所述特征向量和所述位置编码得到第二查询集,具体包括:对所述自然语言输出结果中的自然语言语句进行词嵌入,并将得到的词向量序列输入到经过自编码预训练的自然语言文本编码器中,得到对应语句的特征向量;将得到的语句的特征向量共同经多层感知机,得到位置编码,并根据所述位置编码得到所述第二查询集。

15、根据上述技术手段,本技术实施例通过自然语言编码的方式将视觉-语言大模型输出的自然语言语句进行词嵌入,并在转化为词向量序列后,输入到经过自编码预训练的自然语言文本编码器中进行编码,可得到自然语言描述的感知查询信息。

16、可选地,在本技术的一个实施例中,所述对所述自然语言输出结果中的自然语言语句进行词嵌入,具体包括:基于bert的词嵌入方法和映射表,采用标志嵌入、段嵌入和位置嵌入的方式对所述自然语言输出结果中的自然语言语句进行词嵌入,得到所述词向量序列。

17、根据上述技术手段,本技术实施例通过采用标志嵌入、段嵌入和位置嵌入的方式对自然语言输出结果中的自然语言语句进行词嵌入,可充分完善自动驾驶场景下的感知任务的自然语言描述的感知查询信息,从而在3d感知模型解码时,可精确地得到格式化的感知任务的输出结果。

18、可选地,在本技术的一个实施例中,所述根据所述第一查询集和所述第二查询集对所述输入图像的图像特征进行查询,并基于transformer的解码器进行感知任务预测,输出感知结果,具体包括:将所述第一查询集和所述第二查询集进行合并,并根据合并的查询集对所述输入图像的图像特征进行查询;基于transformer的解码器进行感知任务预测,输出格式化的感知结果。

19、根据上述技术手段,本技术实施例通过将3d感知模型编码得到的查询与视觉-语言大模型的自然语言编码得到的查询相结合,可凭借着用自然语言描述的感知结果进行自动驾驶感知任务的感知工作,从而以格式化的输出方式提高自动驾驶情况下感知任务的输出精度,为后续规划控制等模块提供了更加精确的信息。

20、本技术第二方面实施例提供一种无人驾驶感知系统,所述无人驾驶感知系统包括:3d感知模型编码模块,用于对输入图像进行图像特征编码,得到第一查询集;预处理模块,用于获取所述输入图像的局部图像,并分别获取所述输入图像和所述局部图像对应的自然语言提示语句;大语言模型处理模块,用于将获取的自然语言提示语句及对应的图像输入视觉-语言大模型中,得到自然语言输出结果;自然语言编码模块,用于对所述自然语言输出结果进行特征编码及感知,得到特征向量和位置编码,并根据所述特征向量和所述位置编码得到第二查询集;3d感知模型解码模块,用于根据所述第一查询集和所述第二查询集对所述输入图像的图像特征进行查询,并基于transformer的解码器进行感知任务预测,输出感知结果;其中,所述感知任务包括:3d目标检测与追踪、bev视图语义分割以及占据栅格预测中的任意一种。

21、可选地,在本技术的一个实施例中,所述3d感知模型编码模块包括:第一编码单元,用于利用2d卷积主干网络,对所述输入图像进行图像特征编码,获得图像编码特征;映射单元,用于基于transformer编码器或深度估计与投影的视角转换网络对所述图像编码特征进行映射,得到所述第一查询集。

22、可选地,在本技术的一个实施例中,所述映射单元包括:历史信息提取子单元,用于获取当前帧图像编码特征对应的运动属性,并根据所述运动属性和预设线性函数将所述当前帧图像编码特征与前一帧查询进行映射,从所述前一帧查询提取历史信息;特征对齐子单元,用于根据所述历史信息对所述当前帧图像编码特征的姿态进行仿射变换,将当前帧图像编码特征与所述前一帧查询对齐,得到所述第一查询集。

23、可选地,在本技术的一个实施例中,所述预处理模块包括:局部图像获取单元,用于根据预设滑动窗口步长对所述输入图像进行滑动窗口切割,得到所述局部图像,并计算所述局部图像对应的相机参数矩阵;图像排列单元,用于分别将所述输入图像和所述局部图像与对应的相机参数矩阵进行关联,并重新排列后得到图像及参数列;提示语句选取单元,用于根据所述图像及参数列选取各图像对应的自然语言提示语句。

24、可选地,在本技术的一个实施例中,所述预处理模块还包括:三元组信息生成单元,用于根据选取的自然语言提示语句生成输入三元组信息;其中,所述三元组信息包括:所述输入图像、所述局部图像以及各图像对应的提示词、相机参数矩阵。

25、可选地,在本技术的一个实施例中,所述大语言模型处理模块包括:语句匹配单元,用于将所述三元组信息中的各图像和对应的自然语言提示语句输入视觉-语言大模型中,将所述自然语言提示语句中的每个语句与对应输入三元组中的相机参数矩阵进行匹配,得到所述自然语言输出结果;其中,所述得到自然语言输出结果包括:自然语言语句和对应的相机参数矩阵。

26、可选地,在本技术的一个实施例中,所述自然语言编码模块包括:自然语言编码单元,用于对所述自然语言输出结果中的自然语言语句进行词嵌入,并将得到的词向量序列输入到经过自编码预训练的自然语言文本编码器中,得到对应语句的特征向量;多层感知机单元,用于将得到的语句的特征向量共同经多层感知机,得到位置编码,并根据所述位置编码得到所述第二查询集。

27、可选地,在本技术的一个实施例中,所述自然语言编码单元包括:词嵌入子单元,用于基于bert的词嵌入方法和映射表,采用标志嵌入、段嵌入和位置嵌入的方式对所述自然语言输出结果中的自然语言语句进行词嵌入,得到所述词向量序列。

28、可选地,在本技术的一个实施例中,所述3d感知模型解码模块包括:特征查询单元,用于将所述第一查询集和所述第二查询集进行合并,并根据合并的查询集对所述输入图像的图像特征进行查询;感知任务预测单元,用于基于transformer的解码器进行感知任务预测,输出格式化的感知结果。

29、本技术第三方面实施例提供一种车辆,所述车辆包括:存储器、处理器及存储在所述存储器上并可在所述处理器上运行的无人驾驶感知程序,所述无人驾驶感知程序被所述处理器执行时实现如上述实施例所述的无人驾驶感知方法的步骤。

30、本技术第四方面实施例提供一种计算机可读存储介质,所述计算机可读存储介质存储有无人驾驶感知程序,所述无人驾驶感知程序被处理器执行时实现如上述实施例所述的无人驾驶感知方法的步骤。

31、本技术的有益效果:

32、(1)本技术实施例通过3d感知模型对输入图像进行图像特征编码,以及通过视觉-语言大模型对图像及自然语言提示语句进行处理,可将视觉语言模型与传统的3d感知模型进行结合,实现在没有大规模结构化数据的前提下,无需耗费大量计算资源重训或微调大模型,仅利用已有大模型的泛化能力,提高无人驾驶情景下大模型的结构化感知结果精度。

33、(2)本技术实施例通过将目前主流的深度学习感知算法与强泛化能力的大语言模型相结合,提供一种既具有更强泛化能力、又能够像目前的主流感知算法一样提供程序可理解的结构化输出的感知算法,避免了大规模的结构化数据的训练过程,降低了自动驾驶感知任务的计算成本。

34、(3)本技术实施例通过利用视觉-语言大模型得到自然语言输出结果,从而不需要在自动驾驶场景下进行训练或微调,仅使用在大规模综合数据上已经训练好的模型权重进行推理,即可匹配得到包含一个自然语言句子和对应的相机参数的二元组信息。

35、(4)本技术实施例通过将3d感知模型编码得到的查询与视觉-语言大模型的自然语言编码得到的查询相结合,可凭借着用自然语言描述的感知结果进行自动驾驶感知任务的感知工作,从而以格式化的输出方式提高自动驾驶情况下感知任务的输出精度,为后续规划控制等模块提供了更加精确的信息。

36、本技术附加的方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本技术的实践了解到。

本文地址:https://www.jishuxx.com/zhuanli/20240911/290223.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。