技术新讯 > 计算推算,计数设备的制造及其应用技术 > 一种自监督占用网络的训练方法和系统与流程 > 正文

一种自监督占用网络的训练方法和系统与流程

国知局
2024-10-09 14:39:01

所属的技术人员知道，本发明可以实现为系统、方法或计算机程序产品，因此，本发明可以具体实现为以下形式，即：可以是完全的硬件、也可以是完全的软件(包括固件、驻留软件、微代码等)，还可以是硬件和软件结合的形式，本文一般称为“电路”、“模块”或“系统”。此外，在一些实施例中，本发明还可以实现为在一个或多个计算机可读介质中的计算机程序产品的形式，该计算机可读介质中包含计算机可读的程序代码。可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是一一但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(ram)，只读存储器(rom)、可擦式可编程只读存储器(eprom或闪存)、光纤、便携式紧凑磁盘只读存储器(cd-rom)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本发明中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。尽管上面已经示出和描述了本发明的实施例，可以理解的是，上述实施例是示例性的，不能理解为对本发明的限制，本领域的普通技术人员在本发明的范围内可以对上述实施例进行变化、修改、替换和变型。

背景技术：

1、在自动驾驶领域，3d占用预测可以输出体素(voxel)级的空间占用情况和语义标签，与传统的3d目标检测和bev感知相比，能够更全面地理解3d场景。

2、目前大多数方法依赖于激光雷达点云来生成占用标签进行训练，也有论文提出了基于神经辐射场的自监督占用网络训练方法，但是，目前的自监督方法对于可行驶区域、人行道、植被等静态区域的语义占用预测有不错的效果，但是对于行人、车辆等运动物体的语义占用预测效果很差。这是因为现有方法在重建图像时仅考虑了自车的位姿变化，没有考虑场景中其他物体的运动，所以无法重建出图像中的动态区域，导致光度重投影损失无法监督场景中的动态区域。而仅通过多摄像头的图像视频序列建模3d空间中的物体运动十分困难。

技术实现思路

1、本发明所要解决的技术问题是针对现有技术的不足，具体提供了一种自监督占用网络的训练方法和系统，具体如下：

2、1)第一方面，本发明提供一种自监督占用网络的训练方法，具体技术方案如下：

3、构建数据集，数据集包括多个摄像装置在多个连续时刻采集的样本图像；

4、基于数据集对占用网络进行训练，在训练过程中，实时计算包含动态区域的光度重投影损失，直至计算出的包含动态区域的光度重投影损失收敛，得到训练好的占用网络。

5、本发明提供的一种自监督占用网络的训练方法的有益效果如下：

6、本发明结合包含动态区域的光度重投影损失，对占用网络进行训练，提高了在预测动态场景方面的预测能力，提高对动态区域的预测效果。

7、在上述方案的基础上，本发明的一种自监督占用网络的训练方法还可以做如下改进。

8、进一步，包含动态区域的光度重投影损失的计算过程包括：

9、根据相邻两时刻的样本图像和第一网络模型，分别得到对应时刻的占用网格的3d体素特征；

10、将第一时刻的占用网格的3d体素特征输入第二网络模型，预测得出3d空间占用率，并将3d空间占用率进行转换，得到第一时刻的每个样本图像对应的深度图；

11、将第一时刻的占用网格的3d体素特征和第二时刻对应的占用网格的3d体素特征进行特征匹配，获取体素坐标偏移预测结果，其中，相邻两时刻中的前一时刻为第一时刻，相邻两时刻中的后一时刻为第二时刻；

12、利用体素坐标偏移预测结果和与第一时刻的每个样本图像对应的深度图，计算第一时刻对应的包含动态区域的光度重投影损失。

13、采用上述进一步方案的有益效果是：通过特征匹配的方式计算体素坐标偏移预测结果，提高在预测动态场景方面的预测能力，且该计算过程是是无参数方法，不会增加占用网络的训练参数。

14、进一步，根据相邻两时刻的样本图像和第一网络模型，分别得到对应时刻的占用网格的3d体素特征，包括：

15、将第一时刻的每个样本图像输入第一网络模型，得到第一时刻的每个样本图像的2d图像特征，并结合每个摄像装置的内外参，将第一时刻的每个样本图像的2d图像特征变换到3d空间，得到第一时刻对应的占用网格的3d体素特征，将第二时刻的每个样本图像输入第一网络模型，得到第二时刻的每个样本图像的2d图像特征，并结合每个摄像装置的内外参，将第二时刻的每个样本图像的2d图像特征变换到3d空间，得到第二时刻对应的占用网格的3d体素特征。

16、采用上述进一步方案的有益效果是：能够快速且准确得到不同时刻的占用网格的3d体素特征。

17、进一步，将第一时刻的占用网格的3d体素特征和第二时刻对应的占用网格的3d体素特征进行特征匹配，获取体素坐标偏移预测结果，包括：

18、确定并根据第一时刻的占用网格的3d体素特征和第二时刻对应的占用网格的3d体素特征之间的对应关系，得到相关概率分布图；

19、根据相关概率分布图，得到体素坐标偏移预测结果。

20、采用上述进一步方案的有益效果是：考虑第一时刻的占用网格的3d体素特征和第二时刻对应的占用网格的3d体素特征之间的对应关系，能够保证获取体素坐标偏移预测结果的准确度。

21、进一步，根据相关概率分布图，得到体素坐标偏移预测结果，包括：

22、根据相关概率分布图，对第二时刻的占用网格的3d体素特征中的所有体素坐标进行加权求和，得到第一时刻在第二时刻时的预测体素坐标，将第一时刻对应的体素坐标与第一时刻在第二时刻时的预测体素坐标之间的差值作为体素坐标偏移预测结果。

23、采用上述进一步方案的有益效果是：将第一时刻对应的体素坐标与第一时刻在第二时刻时的预测体素坐标之间的差值作为体素坐标偏移预测结果，保证体素坐标偏移预测结果的合理性。

24、进一步，利用体素坐标偏移预测结果和与第一时刻的每个样本图像对应的深度图，计算第一时刻对应的包含动态区域的光度重投影损失，包括：

25、根据第一时刻的每个样本图像对应的深度图，计算出第一时刻的每个样本图像的每个像素的三维坐标；

26、根据第一时刻的每个样本图像的每个像素的三维坐标，确定第一时刻的每个样本图像的每个像素的三维坐标在第二时刻时的预测三维坐标；

27、根据第一时刻的每个样本图像的每个像素的三维坐标在第二时刻时的预测三维坐标和第二时刻的每个样本图像，得到第一时刻的每个样本图像所分别对应的重建样本图像；

28、计算并将每个摄像装置拍摄的第一时刻的每个样本图像所分别对应的重建样本图像与第一时刻的每个样本图像之间的光度重投影损失之和，作为第一时刻对应的包含动态区域的光度重投影损失。

29、采用上述进一步方案的有益效果是：将每个摄像装置拍摄的第一时刻的每个样本图像所分别对应的重建样本图像与第一时刻的每个样本图像之间的光度重投影损失之和作为第一时刻对应的包含动态区域的光度重投影损失，能够快速计算出每个时刻对应的包含动态区域的光度重投影损失，减少训练时长。

30、进一步，根据第一时刻的每个样本图像对应的深度图，计算出第一时刻的每个样本图像的每个像素的三维坐标，包括：

31、根据第一时刻的每个样本图像对应的深度图和摄像装置的内参的逆矩阵，将第一时刻的每个样本图像中的每个像素进行反投影，计算出第一时刻的每个样本图像的每个像素的三维坐标。

32、采用上述进一步方案的有益效果是：计算速度快，提高数据处理效率。

33、进一步，根据第一时刻的每个样本图像的每个像素的三维坐标，确定第一时刻的每个样本图像的每个像素的三维坐标在第二时刻时的预测三维坐标，包括：

34、根据与第一时刻的任一样本图像的任一像素的三维坐标的距离最近的八个体素的坐标偏移，计算该像素的三维坐标所属体素的坐标偏移，并基于该像素所属体素的坐标偏移，计算该像素的三维坐标在第二时刻时的预测三维坐标，直至计算得到第一时刻的每个样本图像的每个像素的三维坐标在第二时刻时的预测三维坐标。

35、采用上述进一步方案的有益效果是：计算出第一时刻的每个样本图像的每个像素的三维坐标不一定为整数，不能直接通过第一时刻的每个样本图像的每个像素的三维坐标得到每个像素所属体素的坐标偏移。于是考虑第一时刻的任一样本图像的任一像素的周围距离最近的八个体素的坐标偏移，并通过三线性插值计算，得到每个像素所属体素的坐标偏移。

36、进一步，根据第一时刻的每个样本图像的每个像素的三维坐标在第二时刻时的预测三维坐标和第二时刻的每个样本图像，得到第一时刻的每个样本图像所分别对应的重建样本图像，包括：

37、将第一时刻的每个样本图像的每个像素的三维坐标在第二时刻时的预测三维坐标投影在相应的第二时刻的样本图像中，得到第一时刻的每个样本图像的每个像素的三维坐标在第二时刻的像素坐标，并利用分别与每个像素坐标距离最近的四个像素点的像素值，计算第一时刻的每个样本图像的每个像素在第二时刻的像素值，得到第一时刻的每个样本图像所分别对应的重建样本图像。

38、采用上述进一步方案的有益效果是：由于通过第一时刻的每个样本图像的每个像素的三维坐标得到每个像素所属体素的坐标偏移不一定是整数，因此很难进行后续计算，因此，本发明利用分别与每个像素坐标距离最近的四个像素点的像素值，计算第一时刻的每个样本图像的每个像素在第二时刻的像素值，得到第一时刻的每个样本图像所分别对应的重建样本图像。

39、2)第二方面，本发明还提供一种自监督占用网络的训练系统，具体技术方案如下：

40、包括数据集构建模块和模型训练模块；

41、数据集构建模块用于：构建数据集，数据集包括多个摄像装置在多个连续时刻采集的样本图像；

42、模型训练模块用于：基于数据集对占用网络进行训练，在训练过程中，实时计算包含动态区域的光度重投影损失，直至计算出的包含动态区域的光度重投影损失收敛，得到训练好的占用网络。

43、在上述方案的基础上，本发明的一种自监督占用网络的训练系统还可以做如下改进。

44、进一步，模型训练模块还包括3d体素特征获取模块、深度图获取模块、体素坐标偏移预测结果获取模块和光度重投影损失确定模块；

45、3d体素特征获取模块用于：根据相邻两时刻的样本图像和第一网络模型，分别得到对应时刻的占用网格的3d体素特征；

46、深度图获取模块用于：将第一时刻的占用网格的3d体素特征输入第二网络模型，预测得出3d空间占用率，并将3d空间占用率进行转换，得到第一时刻的每个样本图像对应的深度图；

47、体素坐标偏移预测结果获取模块用于：将第一时刻的占用网格的3d体素特征和第二时刻对应的占用网格的3d体素特征进行特征匹配，获取体素坐标偏移预测结果，其中，相邻两时刻中的前一时刻为第一时刻，相邻两时刻中的后一时刻为第二时刻；

48、光度重投影损失确定模块用于：利用体素坐标偏移预测结果和与第一时刻的每个样本图像对应的深度图，计算第一时刻对应的包含动态区域的光度重投影损失。

49、进一步，3d体素特征获取模块具体用于：

50、将第一时刻的每个样本图像输入第一网络模型，得到第一时刻的每个样本图像的2d图像特征，并结合每个摄像装置的内外参，将第一时刻的每个样本图像的2d图像特征变换到3d空间，得到第一时刻对应的占用网格的3d体素特征，将第二时刻的每个样本图像输入第一网络模型，得到第二时刻的每个样本图像的2d图像特征，并结合每个摄像装置的内外参，将第二时刻的每个样本图像的2d图像特征变换到3d空间，得到第二时刻对应的占用网格的3d体素特征。

51、进一步，体素坐标偏移预测结果获取模块具体用于：

52、确定并根据第一时刻的占用网格的3d体素特征和第二时刻对应的占用网格的3d体素特征之间的对应关系，得到相关概率分布图；

53、根据相关概率分布图，得到体素坐标偏移预测结果。

54、进一步，体素坐标偏移预测结果获取模块还具体用于：

55、根据相关概率分布图，对第二时刻的占用网格的3d体素特征中的所有体素坐标进行加权求和，得到第一时刻在第二时刻时的预测体素坐标，将第一时刻对应的体素坐标与第一时刻在第二时刻时的预测体素坐标之间的差值作为体素坐标偏移预测结果。

56、进一步，光度重投影损失确定模块具体用于：

57、根据第一时刻的每个样本图像对应的深度图，计算出第一时刻的每个样本图像的每个像素的三维坐标；

58、根据第一时刻的每个样本图像的每个像素的三维坐标，确定第一时刻的每个样本图像的每个像素的三维坐标在第二时刻时的预测三维坐标；

59、根据第一时刻的每个样本图像的每个像素的三维坐标在第二时刻时的预测三维坐标和第二时刻的每个样本图像，得到第一时刻的每个样本图像所分别对应的重建样本图像；

60、计算并将每个摄像装置拍摄的第一时刻的每个样本图像所分别对应的重建样本图像与第一时刻的每个样本图像之间的光度重投影损失之和，作为第一时刻对应的包含动态区域的光度重投影损失。

61、进一步，光度重投影损失确定模块还具体用于：

62、根据第一时刻的每个样本图像对应的深度图和摄像装置的内参的逆矩阵，将第一时刻的每个样本图像中的每个像素进行反投影，计算出第一时刻的每个样本图像的每个像素的三维坐标。

63、进一步，光度重投影损失确定模块还具体用于：

64、根据与第一时刻的任一样本图像的任一像素的三维坐标的距离最近的八个体素的坐标偏移，计算该像素的三维坐标所属体素的坐标偏移，并基于该像素所属体素的坐标偏移，计算该像素的三维坐标在第二时刻时的预测三维坐标，直至计算得到第一时刻的每个样本图像的每个像素的三维坐标在第二时刻时的预测三维坐标。

65、进一步，光度重投影损失确定模块还具体用于：

66、将第一时刻的每个样本图像的每个像素的三维坐标在第二时刻时的预测三维坐标投影在相应的第二时刻的样本图像中，得到第一时刻的每个样本图像的每个像素的三维坐标在第二时刻的像素坐标，并利用分别与每个像素坐标距离最近的四个像素点的像素值，计算第一时刻的每个样本图像的每个像素在第二时刻的像素值，得到第一时刻的每个样本图像所分别对应的重建样本图像。

67、3)第三方面，本发明还提供一种电子设备，电子设备包括处理器，处理器与存储器耦合，存储器中存储有至少一条计算机程序，至少一条计算机程序由处理器加载并执行，以使电子设备实现上述任一项自监督占用网络的训练方法。

68、4)第四方面，本发明还提供一种计算机可读存储介质，计算机可读存储介质中存储有至少一条计算机程序，至少一条计算机程序由处理器加载并执行，以使计算机实现上述任一项自监督占用网络的训练方法。

69、需要说明的是，本发明的第二方面至第四方面的技术方案及对应的可能的实现方式所取得的有益效果，可以参见上述对第一方面及其对应的可能的实现方式的技术效果，此处不再赘述。