场景时空重建方法、系统、电子设备及存储介质与流程
- 国知局
- 2024-07-31 23:25:21
本发明涉及计算机,尤其涉及一种场景时空重建方法、系统、电子设备及存储介质。
背景技术:
1、高质量的场景时空重建在计算机视觉领域具有重要意义,广泛应用于机器人、游戏、影视和虚拟现实等多个领域。但是,对于既包含广阔的静态背景区域(例如天空),也包含许多具有丰富细节的动态对象(例如人物、车辆等)的场景而言,场景时空重建任务极具挑战性。
2、神经辐射场(neural radiance fields,简称nerf)为一种用于生成高质量的三维重建模型的计算机视觉技术,通过利用深度学习技术从多个视角的图像中提取出对象的几何形状和纹理信息,然后使用这些信息生成一一个连续的三维辐射场,从而可以在任意角度和距离下呈现出高度逼真的三维模型。nerf技术在计算机图形学、虚拟现实、增强现实等领域有着广泛的应用前景。但是现有的神经辐射场存在的弊端如下:1)光线投射是训练和渲染神经辐射场所必需的操作,但是对于每一次光线投射,都需要进行几十次到数百次的采样以及神经网络查询操作;虽然这对于静态场景是可以接受的,但如果直接将动态场景分解为逐帧的静态神经辐射场将是不可行的,因为存储开销和训练时间都会随时间步线性增加。2)现有的动态场景时空重建技术通常依赖于一个庞大的多层感知机(multilayerperceptron)神经网络来模拟整个场景。由于多层感知机具有平滑性倾向,更适用于编码平坦和低频的表面区域,因此,对于存在大量高频和细粒度区域的场景而言,单一的多层感知网络无法准确表达场景区域的几何特性,并不适用于动态场景的时空重建。
3、因此,亟需一种高质量细粒度的适用于动态场景的场景时空重建方法。
技术实现思路
1、本发明提供一种场景时空重建方法、系统、电子设备及存储介质,以解决现有技术中存在的至少一个问题。
2、为实现上述目的,本发明提供的一种场景时空重建方法,应用于电子装置,所述方法包括:
3、对待处理的场景进行多视角rgb视频采集;基于预设的动态对象的边界框,利用sam-tracking技术对视频的每帧画面分离为静态部分像素和动态部分像素;
4、基于预设的视频中的每张图像的相机位姿参数,分别利用所述静态部分像素训练静态神经辐射场,利用所述动态部分像素中每个动态对象训练对应的动态神经辐射场;
5、基于待时空重建的场景中的位置关系,获取对应的静态神经辐射场或动态神经辐射场;并基于所述静态神经辐射场或动态神经辐射场,获取对应的密度值和辐射度值;基于所述密度值和辐射度值进行体渲染,获得渲染像素值;进而完成场景的时空重建。
6、进一步,优选的,基于预设的视频中的每张图像的相机位姿参数,利用所述静态部分像素训练静态神经辐射场通过以下公式实现:
7、的像素值;t′代表所有落在单位球体外部的采样点对应的采样距离;r代表从不同视角下的图像中随机选取一组光线中的一条光线;r(o+td)代表采样点;σ(o+td)代表密度值,c(o+td,d)代表辐射度值。
8、进一步,优选的,所述静态神经辐射场对应的损失函数为:
9、
10、其中,c(r)为光线r的真实像素值,为神经辐射场渲染的光线r的像素值。
11、进一步,优选的,利用所述动态部分像素中每个动态对象训练对应的动态神经辐射场的方法还包括,
12、基于贪婪算法,将视频按照空间体素占用率自适应分割为多个视频段;
13、基于每个视频段训练动态神经辐射场。
14、进一步,优选的,基于每个视频段训练动态神经辐射场的方法包括,
15、获取预设的4d时空特征向量r4→rm;
16、将所述4d时空特征向量r4→rn进行低秩分解,获得4个3d特征向量(axyz,axyt,axzt,ayzt)和4个1d特征向量(at,az,ay,ax);
17、对于每个3d特征向量基于以下公式利用instant-ngp技术的哈希表表示:
18、axyzt(pxyzt)=axyz(pxyz)⊙at(pt)+axyt(pxyt)⊙az(pz)+axzt(pxzt)⊙ay(py)+ayzt(pyzt)⊙ax(px)
19、其中,某一时间步t下的任一空间点(x,y,z)的pxyzt;
20、通过pxyzt所在的时空位置查询确定所述4d时空特征向量r4→rm对应的特征;
21、将所述4d时空特征向量r4→rm对应的特征输入解码器,获得动态神经辐射场的密度值和辐射度值;进而基于所述密度值和所述辐射度值构建动态神经辐射场。
22、进一步,优选的,所述动态神经辐射场的损失函数通过以下公式实现:
23、l=lpho+10-3·lbce
24、
25、
26、其中,lpho为渲染损失函数,lbce为掩膜损失函数,为示性函数,l=c(r,t)为时间步t下的光线r的真实像素值,为神经辐射场渲染的时间步t下的光线r的像素值;lpho损失在rgb三个颜色通道上取平均值,δ=0.01;m(r)为通过sam-tracking得到的光线r对应的掩膜,为神经辐射场渲染的光线r对应的掩膜。
27、进一步,优选的,基于预设的视频中的每张图像的相机位姿参数,利用所述动态部分像素中每个动态对象训练对应的动态神经辐射场通过以下公式实现,
28、
29、其中,为透明度,r代表从不同视角下的不同视频帧中随机选取一组光线中的一条光线,r(α)为采样点,σ(r(α),t)为密度值,l(r(α),d,t)为辐射度值,t为时间步,d为光线方向,α为采样距离,αmin和αmax是采样距离的最小值和最大值。
30、为了解决上述问题,本发明还提供一种场景时空重建系统,系统包括,
31、分离单元,用于对待处理的场景进行多视角rgb视频采集;基于预设的动态对象的边界框,利用sam-tracking技术对视频的每帧画面分离为静态部分像素和动态部分像素;
32、神经辐射场构建单元,用于基于预设的视频中的每张图像的相机位姿参数,分别利用所述静态部分像素训练静态神经辐射场,利用所述动态部分像素中每个动态对象训练对应的动态神经辐射场;
33、场景时空重建单元,用于基于待时空重建的场景中的位置关系,获取对应的静态神经辐射场或动态神经辐射场;并基于所述静态神经辐射场或动态神经辐射场,获取对应的密度值和辐射度值;基于所述密度值和辐射度值进行体渲染,获得渲染像素值;进而完成场景的时空重建。
34、为了解决上述问题,本发明还提供一种电子设备,所述电子设备包括:至少一个处理器;以及,与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行前述的场景时空重建方法中的步骤。
35、为了解决上述问题,本发明还提供一种计算机可读存储介质,所述计算机可读存储介质中存储有至少一个指令,所述至少一个指令被电子设备中的处理器执行以实现上述所述的场景时空重建方法。
36、本发明提供的上述场景时空重建方法、系统、电子设备及存储介质,通过构建一个静态神经辐射场和每个动态对象对应一个动态神经辐射场,然后对每个动态对象的动态神经辐射场进行光线投射,进而解决了动态场景的时空重建问题;另外,通过为每个动态对象构建动态神经辐射场,解决了一个庞大的多层感知机神经网络模拟整个动态场景的问题,可以准确表达存在高频和细粒度区域的室外场景的几何特性;达到了高质量完成具有丰富细节的室外场景时空重建的技术效果。
本文地址:https://www.jishuxx.com/zhuanli/20240730/197467.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。