技术新讯 > 计算推算,计数设备的制造及其应用技术 > 来自输入图像数据的高速实时场景重建的制作方法 > 正文

来自输入图像数据的高速实时场景重建的制作方法

国知局
2024-10-09 16:11:42

所描述的主题内容总体上涉及来自输入图像数据的三维(3d)场景重建。

背景技术：

1、来自输入图像数据的三维场景重建是针对计算机视觉的基石任务。它针对增强现实应用和/或代理导航可以是特别有用的。最近的方法可以实现高质量的重建，但代价是增加的运行时间和存储器要求。这可能导致虚拟角色的放置和/或移动的延时，从而削弱增强现实的感知。同样，在代理导航的情况下，延迟的场景重建可以创建对确定导航引导的延迟。

技术实现思路

1、本公开描述了对场景重建模型的方法，该方法提供实时高速的高质量场景重建。该场景重建模型输入图像数据，该图像数据可以包括由用户设备捕获的实时视频。该场景重建模型高速实时地构建环境的3d表示。用户设备可以利用3d表示以用于虚拟角色放置、代理导航、其他计算机视觉任务等。该场景重建模型能够重建遮挡区域。

2、在一个或多个实施例中，场景重建模型通常混合从预测的深度图生成原始高度场和从图像的特征图对细化高度场进行回归。针对每个图像，场景重建模型基于输入图像和相机位姿来预测深度图和特征图。深度图包括针对输入图像的每个像素的深度值。特征图包括输入图像的特征。特征可以包括抽象特征(即，卷积特征)、感兴趣的对象、角落、边缘、对象的轮廓、地平线、语义分割、输入图像的其他特性，或其一些组合。为了构建原始高度场，场景重建模型构建环境的3d模型，然后对3d体素阵列进行射线投射以生成原始高度场。为了对细化高度场进行回归，场景重建模型将原始高度场投影到每张图像的相机位姿，并且基于投影的原始高度场中的可见表面从特征图采样特征。场景重建模型聚合从图像采样的特征并且输入聚合的特征图以对细化高度场进行回归。一般而言，原始高度场具有清晰的定义，但在环境的具有来自图像的低信号的某些部分中可能不完整。然而，细化高度场对低信号部分进行回归和填充，但可以具有较少的限定。因此，场景重建模型通过混合原始高度场和细化高度场来创建最终高度场，从而利用每者的优势。

技术特征：

1.一种计算机实现的方法，包括：

2.根据权利要求1所述的计算机实现的方法，其中所述实时图像数据包括多个图像和针对每个图像的相机位姿。

3.根据权利要求2所述的计算机实现的方法，其中针对每个图像的所述相机位姿由所述移动设备的位置传感器捕获。

4.根据权利要求2所述的计算机实现的方法，其中针对每个图像的所述相机位姿由位姿估计模型基于所述图像位姿而估计。

5.根据权利要求1所述的计算机实现的方法，其中预测深度图包括将深度估计模型应用于所述图像以确定所述深度图。

6.根据权利要求1所述的计算机实现的方法，其中提取特征图包括将卷积网络应用于所述图像以确定所述特征图。

7.根据权利要求1所述的计算机实现的方法，其中所述特征图包括针对第一特征类型的第一张量和针对第二特征类型的第二张量。

8.根据权利要求1所述的计算机实现的方法，其中所述特征图包括针对第一特征类型的第一张量和针对第二特征类型的第二张量。

9.根据权利要求1所述的计算机实现的方法，其中生成所述原始高度场包括：

10.根据权利要求9所述的计算机实现的方法，其中对所述3d模型进行射线投射以生成所述原始高度场包括：针对所述原始高度场的每个位置，将射线向下投射到所述3d模型的表面以确定该位置处的所述表面的高度。

11.根据权利要求1所述的计算机实现的方法，其中生成所述聚合特征图包括：

12.根据权利要求1所述的计算机实现的方法，其中对所述细化高度场进行回归包括将机器学习模型应用于所述聚合特征图。

13.根据权利要求12所述的计算机实现的方法，其中所述场景重建模型通过进一步输出混合图来生成所述最终高度场，所述混合图在每个位置处预测该位置处的所述细化高度场的置信度。

14.根据权利要求13所述的计算机实现的方法，其中将所述最终高度场确定为所述原始高度场和所述细化高度场的组合包括：在所述最终高度场的每个位置处，该位置处的所述细化高度场的贡献基于针对所述混合图中的该位置的所述置信度。

15.根据权利要求1所述的计算机实现的方法，其中生成所述虚拟内容包括生成依靠在所述最终高度场中的表面上的虚拟对象。

16.根据权利要求1所述的计算机实现的方法，其中生成所述虚拟内容包括生成能够在所述最终高度场中的两个或更多个表面之间移动的虚拟对象。

17.一种存储指令的非瞬态计算机可读存储介质，所述指令在由计算机处理器执行时，使所述处理器：

18.一种系统，包括：

19.一种计算机实现的方法，包括：

20.根据权利要求19所述的计算机实现的方法，其中所述实时图像数据包括多个图像和针对每个图像的相机位姿。

21.根据权利要求20所述的计算机实现的方法，其中针对每个图像的所述相机位姿由所述移动设备的位置传感器捕获。

22.根据权利要求20所述的计算机实现的方法，其中针对每个图像的所述相机位姿由位姿估计模型基于所述图像而位姿估计。

23.根据权利要求19所述的计算机实现的方法，其中预测深度图包括将深度估计模型应用于所述图像以确定所述深度图。

24.根据权利要求19所述的计算机实现的方法，其中提取特征图包括将卷积网络应用于所述图像以确定所述特征图。

25.根据权利要求19所述的计算机实现的方法，其中所述特征图包括针对第一特征类型的第一张量和针对第二特征类型的第二张量。

26.根据权利要求19所述的计算机实现的方法，其中所述特征图包括针对第一特征类型的第一张量和针对第二特征类型的第二张量。

27.根据权利要求19所述的计算机实现的方法，其中生成所述原始高度场包括：

28.根据权利要求27所述的计算机实现的方法，其中对所述3d模型进行射线投射以生成所述原始高度场包括：针对所述原始高度场的每个位置，将射线向下投射到所述3d模型的表面以确定该位置处的所述表面的高度。

29.根据权利要求19所述的计算机实现的方法，其中生成所述聚合特征图包括：

30.根据权利要求19所述的计算机实现的方法，其中对所述细化高度场进行回归包括将机器学习模型应用于所述聚合特征图。

31.根据权利要求30所述的计算机实现的方法，其中所述场景重建模型通过进一步输出混合图来生成所述最终高度场，所述混合图在每个位置处预测该位置处的所述细化高度场的置信度。

32.根据权利要求31所述的计算机实现的方法，其中将所述最终高度场确定为所述原始高度场和所述细化高度场的组合包括：在所述最终高度场的每个位置处，该位置处的所述细化高度场的贡献基于针对所述混合图中的该位置的所述置信度。

33.根据权利要求19所述的计算机实现的方法，其中生成所述导航指令包括生成导航指令以将所述自动驾驶车辆从第一高度处的第一表面转变到第二高度处的第二表面。

34.根据权利要求19所述的计算机实现的方法，其中生成所述导航指令包括生成导航指令以将在第一高度处的第一表面上的所述自动驾驶车辆在不同于所述第一表面的、第二高度处的第二表面周围导航。

35.一种存储指令的非瞬态计算机可读存储介质，所述指令在由计算机处理器执行时，使所述处理器：

36.一种系统，包括：

37.一种计算机实现的方法，包括：

38.根据权利要求37所述的计算机实现的方法，其中所述训练图像数据包括多个图像和针对每个图像的相机位姿。

39.根据权利要求38所述的计算机实现的方法，其中针对每个图像的所述相机位姿由所述移动设备的位置传感器捕获。

40.根据权利要求38所述的计算机实现的方法，其中针对每个图像的所述相机位姿由位姿估计模型基于所述图像而位姿估计。

41.根据权利要求37所述的计算机实现的方法，其中预测深度图包括将深度估计模型应用于所述图像以确定所述深度图。

42.根据权利要求37所述的计算机实现的方法，其中提取特征图包括将卷积网络应用于所述图像以确定所述特征图。

43.根据权利要求37所述的计算机实现的方法，其中所述特征图包括针对第一特征类型的第一张量和针对第二特征类型的第二张量。

44.根据权利要求37所述的计算机实现的方法，其中所述特征图包括针对第一特征类型的第一张量和针对第二特征类型的第二张量。

45.根据权利要求37所述的计算机实现的方法，其中生成所述原始高度场包括：

46.根据权利要求45所述的计算机实现的方法，其中对所述3d模型进行射线投射以生成所述原始高度场包括：针对所述原始高度场的每个位置，将射线向下投射到所述3d模型的表面以确定该位置处的所述表面的高度。

47.根据权利要求37所述的计算机实现的方法，其中生成所述聚合特征图包括：

48.根据权利要求37所述的计算机实现的方法，其中对所述细化高度场进行回归包括将机器学习模型应用于所述聚合特征图。

49.根据权利要求48所述的计算机实现的方法，其中所述场景重建模型通过进一步输出混合图来生成所述最终高度场，所述混合图在每个位置处预测该位置处的所述细化高度场的置信度。

50.根据权利要求49所述的计算机实现的方法，其中将所述最终高度场确定为所述原始高度场和所述细化高度场的组合包括：在所述最终高度场的每个位置处，该位置处的所述细化高度场的贡献基于针对所述混合图中的该位置的所述置信度。

51.根据权利要求37所述的计算机实现的方法，其中训练所述场景重建模型包括同步训练所述场景重建模型的一个或多个组件。

52.根据权利要求37所述的计算机实现的方法，其中训练所述场景重建模型包括异步训练所述场景重建模型的一个或多个组件。

53.一种存储指令的非瞬态计算机可读存储介质，所述指令在由计算机处理器执行时，使所述处理器：

54.一种计算机程序产品，包括存储场景重建模型的非瞬态计算机可读存储介质，其中所述计算机程序产品由包括以下的过程制作：

技术总结公开了一种场景重建模型，该场景重建模型输出针对一系列输入图像的高度场。针对每个输入图像，该模型预测深度图并且提取特征图。该模型利用针对图像的预测的深度图和相机位姿构建3D模型。该模型对3D模型进行射线投射以确定针对场景的原始高度场。该模型利用原始高度场以从与高度场上的位置相对应的特征图采样特征。该模型将采样的特征聚合成聚合特征图。该模型基于聚合特征图对细化高度场进行回归。该模型基于原始高度场和细化高度场的组合来确定最终高度场。利用最终高度场，客户端设备可以生成在由客户端设备捕获的真实世界图像上增强的虚拟内容。技术研发人员：J·沃特森,S·A·G·韦森特,O·麦克·奥达,C·戈达德,G·J·布罗斯托,M·D·费尔曼受保护的技术使用者：奈安蒂克公司技术研发日：技术公布日：2024/9/26