技术新讯 > 电子通信装置的制造及其应用技术 > 4D内容生成方法、装置、设备、介质及计算机程序产品与流程  >  正文

4D内容生成方法、装置、设备、介质及计算机程序产品与流程

  • 国知局
  • 2024-08-02 12:40:58

本发明涉及4d,特别涉及一种4d内容生成方法、装置、设备、介质及计算机程序产品。

背景技术:

1、4d(dimensions,维)是指3d添加了时间维度,4d内容生成即是指动态3d内容生成。4d内容生成允许在任意时刻从任意角度渲染3d内容。与图像、视频等生成任务不同,4d内容生成缺少相关数据集,因而不能采用常规的监督学习方法训练4d内容生成模型。目前针对4d内容生成大致分为两类:一类是基于视频生成模型得到的显式视频结果,进行非刚性4d重建。然而,从动态视频中重建出3d目标物体本身是一个极具挑战的难题。一类是隐式借助视频生成模型,通过渲染大量随机相机视角下的视频,使渲染得到的视频能够被视频生成模型所识别,从而拟合得到4d内容表示。这类方法通过迭代优化的方式,相比于前一类单次重建的方式,极大降低了4d内容的生成难度。但是,基于视频生成模型的隐式生成方法,仅依靠视频生成模型的整体判别能力,全局地评判生成的视频是否符合文本输入描述,从而细节控制能力弱。而且,当生成较长时间的4d内容时,由于常常会带来细节的遗漏,效果往往较差,无法保证能够生成与文本描述条件输入符合的4d内容。

2、因此,如何提升4d内容的生成质量与时长已成为本领域技术人员亟待解决的技术问题。

技术实现思路

1、本发明的目的是提供一种4d内容生成方法、装置、设备、介质及计算机程序产品,能够提升4d内容生成的质量及时长。

2、为解决上述技术问题,本发明提供了一种4d内容生成方法,包括:

3、利用预训练语言模型对4d内容的文本描述进行文本描述抽取,得到若干个关键状态的文本描述;

4、根据所述关键状态的文本描述,采用文本驱动的3d生成算法生成相应的3d表示以及关键帧;3d表示用于描述三维空间中物体形状、结构以及属性;

5、对所述关键帧进行插值,得到插值帧以及对应的3d表示;

6、对所述关键帧对应的3d表示与所述插值帧对应的3d表示进行优化,得到4d内容。

7、在一些实施例中,利用预训练语言模型对4d内容的文本描述进行文本描述抽取,得到若干个关键状态的文本描述包括:

8、构造上下文提示;

9、构造实例;

10、将所述上下文提示与所述实例输入预训练语言模型;

11、向所述预训练语言模型发出提问,由所述预训练语言模型输出若干个关键状态的文本描述;提问的内容包括所述4d内容的文本描述。

12、在一些实施例中,根据每个所述关键状态的文本描述,采用文本驱动的3d生成算法生成相应的3d表示以及关键帧包括:

13、根据首个关键状态的文本描述,得到对应的初始3d表示;

14、根据其他关键状态的文本描述,得到其他关键状态对应的3d偏移量;

15、根据所述初始3d表示,渲染得到首个关键帧;

16、根据所述初始3d表示与其他关键状态对应的3d偏移量,渲染得到其他关键状态对应的关键帧。

17、在一些实施例中,根据首个关键状态的文本描述,得到对应的初始3d表示包括:

18、随机初始化所述首个关键状态对应的3d高斯表示;其中,所述3d高斯表示包括3d高斯静态表示与3d高斯偏移量,所述首个关键状态对应的3d高斯表示中的所述3d高斯偏移量为零,且训练时不更新;

19、将所述3d高斯表示按照随机相机视角渲染到2d图像;

20、为所述2d图像添加随机噪声,得到加噪后图像;

21、将扩散时刻、所述加噪后图像、所述首个关键状态的文本描述编码得到的向量输入图像生成预训练模型,由所述图像生成预训练模型输出预测的噪声;

22、根据预测的噪声与第一预设损失函数优化所述3d高斯表示中的3d高斯静态表示,直到达到迭代次数,得到所述初始3d表示。

23、在一些实施例中,根据预测的噪声与第一预设损失函数优化所述3d高斯表示包括:

24、根据预测的噪声与值蒸馏采样损失函数优化所述3d高斯表示。

25、在一些实施例中,所述值蒸馏采样损失函数为;表示预测的噪声,表示加噪后图像,表示扩散时刻,表示关键状态的文本描述编码得到的向量,表示随机噪声,表示渲染得到的2d图像,表示待优化的3d表示,表示随机相机视角。

26、在一些实施例中,根据其他关键状态的文本描述,得到其他关键状态对应的3d偏移量包括:

27、随机初始化其他关键状态的3d高斯表示;其中,所述3d高斯表示包括3d高斯静态表示与3d高斯偏移量;

28、将所述3d高斯表示按照随机相机视角渲染到2d图像;

29、为所述2d图像添加随机噪声,得到加噪后图像;

30、将所述加噪后图像、其他关键状态的文本描述编码得到的向量输入图像生成预训练模型,由所述图像生成预训练模型输出预测的噪声;

31、根据预测的噪声与第二预设损失函数优化所述3d高斯表示中的3d高斯偏移量,直到达到迭代次数,得到其他关键状态对应的3d偏移量。

32、在一些实施例中,根据预测的噪声与第二预设损失函数优化所述3d高斯表示中的3d高斯偏移量包括:

33、根据预测的噪声与第二预设损失函数优化所述3d高斯表示中的3d高斯偏移量;所述第二预设损失函数为值蒸馏采样损失函数与主体一致性损失函数的加权求和。

34、在一些实施例中,所述主体一致性损失函数为;表示首个关键帧,表示3d表示渲染得到的关键帧,表示网络第i层的特征表示。

35、在一些实施例中,对所述关键帧进行插值,得到插值帧以及对应的3d表示包括:

36、利用视频差值预训练模型对关键帧进行插值,得到若干插值帧;

37、根据前后两个所述关键帧对应的3d表示,插值得到插值3d偏移量;

38、根据所述插值帧与第三预设损失函数对所述插值3d偏移量进行优化,得到插值帧对应的3d表示。

39、在一些实施例中,根据前后两个所述关键帧对应的3d表示,插值得到插值3d偏移量包括:

40、根据得到插值3d偏移量;表示插值3d偏移量,表示前一个关键帧对应的3d表示中的3d偏移量,表示后一个关键帧对应的3d表示中的3d偏移量,表示插值系数。

41、在一些实施例中,根据所述插值帧与第三预设损失函数对所述插值3d偏移量进行优化包括:

42、根据所述插值帧、根据所述插值3d偏移量渲染得到的图像与均方根误差损失函数对所述插值3d偏移量进行优化。

43、在一些实施例中,所述均方根误差损失函数为;表示根据所述插值3d偏移量渲染得到的图像,表示插值帧。

44、在一些实施例中,对所述关键帧的3d表示与所述插值帧对应的3d表示进行优化,得到4d内容包括:

45、将各关键帧与插值帧对应的3d高斯表示按照随机相机视角渲染到2d图像;

46、为各所述2d图像添加随机噪声,得到加噪后图像;

47、将扩散时刻、各所述加噪后图像以及4d内容的文本描述编码得到的向量输入视频生成预训练模型,由所述视频生成预训练模型输出预测的噪声;

48、根据预测的噪声与第四预设损失函数优化所述3d高斯表示,直到达到迭代次数,得到4d内容。

49、在一些实施例中,根据预测的噪声与第四预设损失函数优化所述3d高斯表示包括:

50、根据预测的噪声与值蒸馏采样损失函数优化所述3d高斯表示。

51、在一些实施例中,将各关键帧与插值帧对应的3d高斯表示按照随机相机视角渲染到2d图像前还包括:

52、对除首个关键帧外的关键帧与插值帧对应的3d表示中的3d偏移量进行预设迭代次数的优化。

53、为解决上述技术问题,本发明还提供了一种4d内容生成装置,包括:

54、抽取模块,用于利用预训练语言模型对4d内容的文本描述进行文本描述抽取,得到若干个关键状态的文本描述;

55、生成模块,用于根据所述关键状态的文本描述生成相应的3d表示以及关键帧;3d表示用于描述三维空间中物体形状、结构以及属性;

56、插值模块,用于对所述关键帧进行插值,得到插值帧以及对应的3d表示;

57、优化模块,用于对所述关键帧对应的3d表示与所述插值帧对应的3d表示进行优化,得到4d内容。

58、为解决上述技术问题,本发明还提供了一种4d内容生成设备,包括:

59、存储器,用于存储计算机程序;

60、处理器,用于执行所述计算机程序时实现如上所述的4d内容生成方法的步骤。

61、为解决上述技术问题,本发明还提供了一种介质,所述介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上所述的4d内容生成方法的步骤。

62、为解决上述技术问题,本发明还提供了一种计算机程序产品,包括计算机程序/指令,所述计算机程序/指令被处理器执行时实现如上所述的4d内容生成方法的步骤。

63、本发明所提供的4d内容生成方法,包括:利用预训练语言模型对4d内容的文本描述进行文本描述抽取,得到若干个关键状态的文本描述;根据所述关键状态的文本描述,采用文本驱动的3d生成算法生成相应的3d表示以及关键帧;对所述关键帧进行插值,得到插值帧以及对应的3d表示;对所述关键帧对应的3d表示与所述插值帧对应的3d表示进行优化,得到4d内容。

64、可见,本发明所提供的4d内容生成方法,对用户输入的4d内容的文本描述进行基于预训练语言模型的关键状态的文本描述抽取,得到关键状态的细粒度的文本描述。根据各关键状态的文本描述,采用文本驱动的3d生成算法得到各关键状态对应的3d表示及关键帧;对关键帧进行插值,并最终对全部帧的3d表示进行优化,得到最终的高质量的4d内容。该方法通过借助预训练语言模型获取动态内容关键状态的文本描述,不仅丰富了单一信息输入,而且通过将长时间4d内容生成拆解为多个子段的生成简化了问题的难度,能够提升4d内容生成的质量及时长。

65、本发明所提供的4d内容生成装置、设备、介质及计算机程序产品均具有上述技术效果。

本文地址:https://www.jishuxx.com/zhuanli/20240802/237304.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。