技术新讯 > 计算推算,计数设备的制造及其应用技术 > 一种基于单目视频的高保真度仿真模型构建方法与流程 > 正文

一种基于单目视频的高保真度仿真模型构建方法与流程

国知局
2024-11-06 14:23:45

本发明涉及无人驾驶、数字孪生、无人系统、虚拟现实、空间智能计算中的场景三维重建与渲染方法，尤其涉及一种基于单目视频的高保真度仿真模型构建方法。

背景技术：

1、在ai领域，智能算法往往需要结合大量的训练与优化操作，以虚拟模型为基础的仿真训练为算法的验证提供了极大的方便。然而传统的虚拟模型获取手段如激光扫描仪等设备价格昂贵、扫描模型的过程复杂，最重要的是传统方法建立的虚拟模型较为粗糙，较难达到足以拟合真实场景模型的精度水平。

2、因此，如何结合真实场景建立几何、颜色相近的虚拟模型，并保证与真实场景具备相似的物理属性，对于虚拟模型的建立至关重要。传统方法一般采用点云或网格模型来描述场景中的物体，这种方法存储空间占用小，具备快速描绘场景三维特征的优点，可以较为精确地描绘模型的几何特征，但是缺乏拓扑结构和连接信息，难以直接进行形状分析、编辑和渲染，对于真实场景的刻画能力有限。近年来基于视觉的重建技术逐渐兴起，高斯溅射是一种用于将离散数据映射到连续空间的插值方法，在用于描述三维物体光学渲染特征时具备理想的效果，通常用于将点云数据映射到图像空间或者网格空间，以进行渲染、表面重建等应用，但是其渲染出的结构不具备真实的拓扑结构和物理属性，无法直接用于模型训练。

3、在上述基础上，如何提出一种具有高纹理渲染与高保真度的可训练仿真模型构建方法是亟需解决的技术问题。

技术实现思路

1、发明目的：针对现有技术中的不足之处，为了创建一种与现实物体物理属性近似的高保真度可训练仿真模型，本发明提出一种基于单目视频的高保真度仿真模型构建方法，利用单目相机对现实物体及其工作环境进行环绕拍摄得到的多视角图像，重建出三维场景模型和三维网格模型，通过建立三维场景模型中每一基础单元和三维网格模型每一顶点的映射关系，使两者在仿真环境中同步运动，并对多视角图像进行语义分割，利用统计学方法将三维网格模型划分为不同部分，最后为各部分添加物理属性，得到一个具有高纹理渲染与高保真度的可训练仿真模型。

2、技术方案：本发明基于单目视频的高保真度仿真模型构建方法实施的设备有智能设备，物体和相机；其中，智能设备为无人地面设备，包括无人车，机械臂，且具备根据控制指令执行相应动作的能力。物体与智能设备产生推移、夹取的运动关系。

3、本发明基于单目视频的高保真度仿真模型构建方法包括以下步骤：

4、步骤(1)，使用相机对智能设备和物体及周围环境进行环拍录像，得到智能设备和物体的环拍视频数据；

5、步骤(2)，对环拍视频数据每隔一秒提取一张帧图像，并对环拍视频数据进行切帧处理，得到智能设备和物体的环拍图像数据集；

6、步骤(3)，通过环拍图像数据集得到智能设备和物体的点云模型，点云模型中的点表示为(x,y,z)，其中x,y,z为点云中每个点在空间直角坐标系中的坐标；

7、步骤(4)，对点云模型结合环拍数据集进行处理，得到智能设备和物体所在环境的三维场景模型，该三维场景模型由三维高斯椭球构成，并表示为：

8、g＝(x,σ,a,sh)

9、其中，g代表高斯球集合，x＝{x1,x2,…}为三维高斯椭球的中心点的集合，xi∈x是每个三维高斯椭球的中心点坐标，σ＝{σ1,σ2,…}为三维高斯椭球的协方差矩阵集合，σi∈σ是每个三维高斯椭球的协方差矩阵，代表每个高斯球在空间中的伸缩比例和旋转角度；a＝{a1,a2,…}为三维高斯椭球透明度参数集合，ai∈a是每个三维高斯椭球在rgb颜色空间中的透明度；sh＝{sh1,sh2,…}为三维高斯椭球球谐函数系数集合，shi∈sh是每个三维高斯椭球的球谐系数，代表某一视角观察时高斯椭球的颜色；

10、步骤(5)，将三维场景模型中每个高斯椭球中心点的位置坐标x作为网格顶点建立智能设备和物体的三维网格模型，三维网格模型表示为：

11、m＝(v,e,f)

12、其中，v＝{v1,v2,…}为三维网格模型点的集合，vi∈v是网格模型中每个点的坐标，且vi＝xi，e＝{e1,e2,…}为三维网格模型边的集合，ei∈e是三维网格模型中的某一条边，f＝{f1,f2,…}为三维网格模型面的集合，fi∈f是三维网格模型中的一个面；

13、步骤(6)，通过环拍图像数据集得到智能设备和物体及所在环境的多视角语义图像，对第i张语义图像，表示为：

14、segi＝{s1,s2,…,sj,…}

15、其中，segi表示第i张语义图像的语义集合，sj表示第i张语义图像中的第j个语义部分；

16、步骤(7)，对三维网格模型进行划分，对三维网格模型中的第i个点vi，沿视角j向第j个语义图像投影，点vi落在j语义图像中第p个部分，记为pij∈segi，考虑所有视角下的图像，得到点vi的多视角语义组[pi1,pi2,…,pij,…]，则三维网格模型中点vi的语义为si：

17、si＝mode([pi1,pi2,…,pij,…]),pij∈seg

18、其中，si表示点vi的语义属性，mode(*)表示求众数运算，考虑所有点vi∈v，将具有相同语义属性si的点vi划分成一组，得到语义分割后的三维网格模型ms：

19、ms＝{s1,s2,…,sn,…}

20、其中，sn表示三维网格模型的第n个部分；

21、步骤(8)，对三维网格模型ms中的每个部分添加物理属性，对第n个部分pn∈{s1,s2,…,sn,…}，添加物理属性phyn:

22、phyn＝{θn,ln,mn,in,fn,τn,μn}

23、其中，phyn是三维网格模型ms的pn部分对应的物理属性集合，θn是pn部分的初始旋转角度，ln是pn部分的长度，mn是pn部分的质量，in是pn部分的转动惯量，fn是pn部分所受外力，τn是pn部分所受外力矩，μn是pn部分与相邻部分接触面的摩擦系数；

24、步骤(9)，将分割后的三维网格模型ms导出为文件，并保存三维网格模型ms中每个点vi与三维场景模型中对应高斯球的中心点xi的对应关系；在δt时间内，三维网格模型ms的第n部分pn的运动关系motn分解为：

25、motn＝[rn,tn]

26、其中，rn是pn部分在δt时间内的旋转矩阵，表示δt时间内pn部分的旋转角度；tn表示pn部分在δt时间内的位移向量，表示δt时间内pn部分的位移距离；然后，对三维网格模型ms中pn部分的所有点vi，将运动关系motn应用到与点集vi对应的三维场景模型中对应的高斯球集合gi中，使三维场景模型的gi部分进行相同的旋转和平移运动，进行三维场景模型中智能设备和物体的运动；

27、步骤(10)，当控制三维网格模型运动时，三维场景模型中的模型也随之运动，并能根据给定的位置和视角渲染高保真度的图像，构建基于单目视频的高保真度仿真模型。

28、步骤(3)中，采用sfm方法，通过环拍图像数据集得到智能设备和物体的点云模型。

29、步骤(4)中，对点云模型结合环拍数据集进行三维高斯溅射处理，得到智能设备和物体所在环境的三维场景模型。

30、步骤(4)中，三维场景模型根据输入的位置和视角渲染出高保真度的图像。

31、步骤(5)中，使用vdbfusion方法将三维场景模型中每个高斯椭球中心点的位置坐标x作为网格顶点建立智能设备和物体的三维网格模型。

32、步骤(6)中，通过对环拍图像数据集采用segment anything语义分割算法，得到智能设备和物体及其所在环境的多视角语义图像。

33、步骤(7)中，根据多视角语义分割图像对三维网格模型进行划分。

34、步骤(9)中，将分割后的三维网格模型ms导出为urdf文件。

35、步骤(9)中，所述urdf文件被仿真环境导入并使用程序控制运动。

36、步骤(10)中，当使用urdf文件控制三维网格模型运动时，三维场景模型中的模型也随之运动，并根据给定的位置和视角渲染高保真度的图像，构建基于单目视频的高保真度仿真模型。

37、有益效果：与现有技术相比，本发明具有以下优点：

38、(1)本发明基于单目视频的高保真度仿真模型构建方法中，利用单目相机对现实物体及工作环境进行环绕拍摄得到的多视角图像，重建出三维场景模型和三维网格模型，并建立三维场景模型中每一基础单元和三维网格模型每一顶点的映射关系，使两者在仿真环境中同步运动；最后对多视角图像进行语义分割，利用统计学方法将三维网格模型划分为不同部分并添加物理属性，最终得到一个具有高纹理渲染与高保真度的可训练仿真模型。

39、(2)本发明提供实时的真实场景的虚拟建模以及渲染，在获取真实图像手段简单、消耗计算资源少的同时，确保了高保真的建模质量。