技术新讯 > 计算推算,计数设备的制造及其应用技术 > 一种图像生成方法、装置、设备、存储介质与流程 > 正文

一种图像生成方法、装置、设备、存储介质与流程

国知局
2024-11-19 09:52:55

本申请涉及图像处理，尤其涉及一种图像生成方法、装置、设备、存储介质。

背景技术：

1、文生视频技术是计算机视觉和多媒体领域的基础课题之一。给定一句自然语言描述文本作为输入，该技术旨在自动生成与输入文本对应的一段视频。

2、现有的文生视频通常将视频建模成一组随时间变化的二维图像(即视频帧)，然后从大量的文本-视频数据对中学习从文本到视频的概率分布变换。

3、在现有的文生视频技术中，只是将视频建模成随时间变化的二维图像，然后通过监督学习的方式来学习文本到视频之间的分布变换，该视频会存在物体扭曲、运动失真以及不同视角间的不一致问题。

技术实现思路

1、为了解决上述技术缺陷之一，本申请提供了一种图像生成方法、装置、设备、存储介质。

2、本申请第一个方面，提供了一种图像生成方法，该方法包括：

3、获取文本提示；

4、将文本提示分解为前景提示和背景提示；

5、以前景提示为指导，生成动态四维前景；

6、基于动态四维前景，以背景提示为指导，生成静态三维背景；

7、基于动态四维前景和静态三维背景，沿着给定的相机轨迹渲染视频。

8、可选地，以前景提示为指导，生成动态四维前景，包括：

9、以前景提示yfg为指导，通过神经辐射场nerf得到动态四维前景模型和连贯的多视图图像x，其中，为动态四维前景模型中任一点，d为任一视角，t为时间变量，与颜色和辐射场强度之间的映射关系为：c为任一点的颜色值，σ为动态四维前景模型在视角d下的辐射场强度；

10、基于对x进行渲染，并以时间步长td添加高斯噪声∈，得到对应的图像

11、预测的噪声，并基于预测的噪声优化其中，优化时采用的损失函数为优化三维结构的损失函数，优化视觉外观的损失函数和优化运动特征的损失函数的加权之和；

12、基于优化后的生成动态四维前景。

13、可选地，优化三维结构的损失函数

14、其中，为优化三维结构的损失函数，为优化的梯度算子，θ为隐式表示动态四维前景模型的多层感知机的参数，为期望函数，w(td)为加权函数，为多视图扩散模型，为通过预测的噪声，φ为多视图扩散模型的参数，t为对应于每个视图的相机参数。

15、可选地，优化视觉外观的损失函数为

16、其中，为优化三维结构的损失函数，为优化的梯度算子，θ为隐式表示动态四维前景模型的多层感知机的参数，为期望函数，w′(td)为加权函数，为文本到图像扩散模型，为通过预测的预测噪声，为通过预测的微调噪声，φ′为文本到图像扩散模型的参数，t为对应于每个视图的相机参数。

17、可选地，以时间步长td添加高斯噪声∈的同时，通过nerf渲染该步长的视频序列其中，v为视频序列中视频帧总数量；

18、优化运动特征的损失函数为

19、其中，为优化运动特征的损失函数，为优化的梯度算子，θ为隐式表示动态四维前景模型的多层感知机的参数，为期望函数，w″(td)为加权函数，为文本到视频扩散模型，为通过预测的噪声，∈v在td处的采样噪声，φ″为文本到视频扩散模型的参数。

20、可选地，基于动态四维前景，以背景提示为指导，生成静态三维背景，包括：

21、获取动态四维前景的渲染图像和不透明度图；

22、以背景提示为指导，通过不透明度图识别渲染图像的背景区域；

23、通过修复模型，修复背景区域；

24、基于修复的背景区域，生成静态三维背景；

25、其中，生成静态三维背景过程所采用的损失函数为：

26、其中，为生成静态三维背景过程所采用的损失函数，为优化的梯度算子，θ为隐式表示动态四维前景模型的多层感知机的参数，为期望函数，w″″(td)为加权函数，为条件扩散模型，为通过预测的噪声，φ″″为条件扩散模型的参数，ibg为修复的背景区域，和为相机姿态。

27、可选地，相机轨迹由仰角方位角和距离在时间t组成。

28、本申请第二个方面，提供了一种图像生成方法装置，该装置包括：

29、获取模块，用于获取文本提示；

30、分解模块，用于将获取模块获取的文本提示分解为前景提示和背景提示；

31、前景生成模块，用于以分解模块得到的前景提示为指导，生成动态四维前景；

32、背景生成模块，用于基于前景生成模块生成的动态四维前景，以分解模块得到的背景提示为指导，生成静态三维背景；

33、渲染模块，用于基于前景生成模块生成的动态四维前景和背景生成模块生成的静态三维背景，沿着给定的相机轨迹渲染视频。

34、本申请第三个方面，提供了一种电子设备，包括：

35、存储器；

36、处理器；以及

37、计算机程序；

38、其中，所述计算机程序存储在所述存储器中，并被配置为由所述处理器执行以实现如上述第一个方面所述的方法。

39、本申请第四个方面，提供了一种计算机可读存储介质，其上存储有计算机程序；所述计算机程序被处理器执行以实现如上述第一个方面所述的方法。

40、本申请提供一种图像生成方法、装置、设备、存储介质，该方法包括：获取文本提示；将文本提示分解为前景提示和背景提示；以前景提示为指导，生成动态四维前景；基于动态四维前景，以背景提示为指导，生成静态三维背景；基于动态四维前景和静态三维背景，沿着给定的相机轨迹渲染视频。本申请提供的方法根据文本提示生成动态四维前景和静态三维背景，进而基于动态四维前景和静态三维背景渲染出视频，可以使视频更符合真实世界中的物理规律，也能够实现精准的相机运动控制。

技术特征：

1.一种图像生成方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述以所述前景提示为指导，生成动态四维前景，包括：

3.根据权利要求2所述的方法，其特征在于，所述优化三维结构的损失函数

4.根据权利要求2所述的方法，其特征在于，所述优化视觉外观的损失函数为

5.根据权利要求2所述的方法，其特征在于，以时间步长td添加高斯噪声∈的同时，通过nerf渲染该步长的视频序列其中，v为视频序列中视频帧总数量；

6.根据权利要求2所述的方法，其特征在于，所述基于所述动态四维前景，以所述背景提示为指导，生成静态三维背景，包括：

7.根据权利要求1所述的方法，其特征在于，所述相机轨迹由仰角方位角和距离在时间t组成。

8.一种图像生成方法装置，其特征在于，所述装置包括：

9.一种电子设备，其特征在于，包括：

10.一种计算机可读存储介质，其特征在于，其上存储有计算机程序；所述计算机程序被处理器执行以实现如权利要求1-7任一项所述的方法。

技术总结本申请提供一种图像生成方法、装置、设备、存储介质，该方法包括：获取文本提示；将文本提示分解为前景提示和背景提示；以前景提示为指导，生成动态四维前景；基于动态四维前景，以背景提示为指导，生成静态三维背景；基于动态四维前景和静态三维背景，沿着给定的相机轨迹渲染视频。本申请提供的方法根据文本提示生成动态四维前景和静态三维背景，进而基于动态四维前景和静态三维背景渲染出视频，可以使视频更符合真实世界中的物理规律，也能够实现精准的相机运动控制。技术研发人员：姚霆,陈杨,邱钊凡,潘滢炜,梅涛受保护的技术使用者：北京智象未来科技有限公司技术研发日：技术公布日：2024/11/14