技术新讯 > 电子通信装置的制造及其应用技术 > 视频生成方法、电子设备及计算机可读存储介质与流程  >  正文

视频生成方法、电子设备及计算机可读存储介质与流程

  • 国知局
  • 2024-08-02 13:53:16

本申请涉及视频处理技术、计算机,具体而言,涉及一种视频生成方法、电子设备及计算机可读存储介质。

背景技术:

1、随着生成式人工智能的迅速发展,视频生成模型成为人工智能领域的研究热点之一。然而,视频生成模型在训练过程中往往受到训练数据质量的限制,导致生成的视频质量较差。

2、目前,一些方法在视频生成模型训练过程中只微调时序层,然后和图像生成模型进行重新组合,但其时序层中的低质量因素无法消除,导致生成的视频质量依旧较差。另一些方法在视频生成模型训练过程中微调所有参数,从而生成动作更自然的视频,但其合成的视频质量依旧很差,且无法在测试时引入高质量的图像生成模型来进行改进。

3、针对上述的问题,目前尚未提出有效的解决方案。

技术实现思路

1、本申请实施例提供了一种视频生成方法、电子设备及计算机可读存储介质,以至少解决相关技术中的视频生成模型所生成的视频质量较差的技术问题。

2、根据本申请实施例的一个方面,提供了一种视频生成方法,包括:基于提示文本和噪声数据生成第一视频,其中,提示文本用于描述待生成的目标视频的视频内容,噪声数据的数据维度与目标视频的视频数据维度相同;基于目标视频生成模型对第一视频进行视频生成处理,得到目标视频,其中,目标视频生成模型集成有视频扩散模型和图像扩散模型,视频扩散模型的初始时间步和图像扩散模型的初始时间步相同。

3、根据本申请实施例的另一方面,还提供了一种视频生成方法,包括:基于动画提示文本和噪声数据生成初始动画视频,其中,动画提示文本用于描述待生成的目标动画视频的视频内容,噪声数据的数据维度与目标动画视频的视频数据维度相同;基于目标动画视频生成模型对初始动画视频进行视频生成处理,得到目标动画视频,其中,目标动画视频生成模型集成有视频扩散模型和图像扩散模型,视频扩散模型的初始时间步和图像扩散模型的初始时间步相同。

4、根据本申请实施例的另一方面,还提供了一种视频生成方法,包括:通过第一应用程序编程接口获取视频生成请求,其中,视频生成请求中携带的请求数据包括:提示文本和噪声数据,提示文本用于描述待生成的目标视频的视频内容,噪声数据的数据维度与目标视频的视频数据维度相同;通过第二应用程序编程接口返回视频生成响应,其中,视频生成响应中携带的响应数据包括:目标视频,目标视频基于目标视频生成模型对第一视频进行视频生成处理得到,目标视频生成模型集成有视频扩散模型和图像扩散模型,视频扩散模型的初始时间步和图像扩散模型的初始时间步相同,第一视频基于提示文本和噪声数据生成。

5、根据本申请实施例的另一方面,还提供了一种视频生成方法,包括:获取当前输入的视频生成对话请求,其中,视频生成对话请求中携带的请求数据包括:提示文本和噪声数据,提示文本用于描述待生成的目标视频的视频内容,噪声数据的数据维度与目标视频的视频数据维度相同;响应于视频生成对话请求,返回视频生成对话回复,其中,视频生成对话回复中携带的信息包括:目标视频,目标视频基于目标视频生成模型对第一视频进行视频生成处理得到,目标视频生成模型集成有视频扩散模型和图像扩散模型,视频扩散模型的初始时间步和图像扩散模型的初始时间步相同,第一视频基于提示文本和噪声数据生成;在图形用户界面内展示目标视频。

6、根据本申请实施例的另一方面,还提供了一种电子设备,包括:存储器,存储有可执行程序;处理器,用于运行程序,其中,程序运行时执行任意一项上述的视频生成方法。

7、根据本申请实施例的另一方面,还提供了一种计算机可读存储介质,计算机可读存储介质包括存储的可执行程序,其中,在可执行程序运行时控制计算机可读存储介质所在设备执行任意一项上述的视频生成方法。

8、根据本申请实施例的另一方面,还提供了一种计算机程序产品,包括计算机程序,计算机程序在被处理器执行时实现任意一项上述的视频生成方法。

9、在本申请实施例中,通过用于描述待生成的目标视频的视频内容的提示文本,以及与待生成的目标视频的视频数据维度相同的噪声数据生成第一视频,然后基于集成有视频扩散模型和图像扩散模型的目标视频生成模型对第一视频进行视频生成处理,从而得到目标视频,且视频扩散模型的初始时间步和图像扩散模型的初始时间步相同,由此达到了将视频扩散模型与高质量图像生成模型结合,从而生成高质量目标视频的目的,从而实现了提高生成视频的视频质量,丰富生成视频的视频风格,增强生成视频与文本描述的一致性的技术效果,进而解决了相关技术中的视频生成模型所生成的视频质量较差的技术问题。

10、容易注意到的是,上面的通用描述和后面的详细描述仅仅是为了对本申请进行举例和解释,并不构成对本申请的限定。

技术特征:

1.一种视频生成方法,其特征在于,包括:

2.根据权利要求1所述的视频生成方法,其特征在于,所述基于目标视频生成模型对所述第一视频进行视频生成处理,得到所述目标视频包括:

3.根据权利要求2所述的视频生成方法,其特征在于,所述基于所述视频扩散模型和所述第一视频生成第二视频包括:

4.根据权利要求3所述的视频生成方法,其特征在于,所述基于所述图像扩散模型和所述第二视频生成多张第一视频帧图像包括:

5.根据权利要求4所述的视频生成方法,其特征在于,所述基于所述多张第一视频帧图像生成所述目标视频包括:

6.根据权利要求5所述的视频生成方法,其特征在于,所述基于所述低通滤波器、所述视频扩散模型和所述图像扩散模型对所述多张第一视频帧图像进行更新,得到更新后的所述多张第一视频帧图像包括:

7.根据权利要求1所述的视频生成方法,其特征在于,所述基于提示文本和噪声数据生成第一视频包括:

8.一种视频生成方法,其特征在于,包括:

9.根据权利要求8所述的视频生成方法,其特征在于,所述基于目标动画视频生成模型对所述第一动画视频进行视频生成处理,得到所述目标动画视频包括:

10.一种视频生成方法,其特征在于,包括:

11.一种视频生成方法,其特征在于,包括:

12.一种电子设备,其特征在于,包括:

13.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质包括存储的可执行程序,其中,在所述可执行程序运行时控制所述计算机可读存储介质所在设备执行权利要求1至11中任意一项所述的视频生成方法。

14.一种计算机程序产品,其特征在于,包括计算机程序,所述计算机程序在被处理器执行时实现权利要求1至11中任意一项所述的视频生成方法。

技术总结本申请公开了一种视频生成方法、电子设备及计算机可读存储介质,涉及视频处理技术、计算机技术领域。该方法包括:基于提示文本和噪声数据生成第一视频,其中,提示文本用于描述待生成的目标视频的视频内容,噪声数据的数据维度与目标视频的视频数据维度相同;基于目标视频生成模型对第一视频进行视频生成处理,得到目标视频,其中,目标视频生成模型集成有视频扩散模型和图像扩散模型,视频扩散模型的初始时间步和图像扩散模型的初始时间步相同。本申请解决了相关技术中的视频生成模型所生成的视频质量较差的技术问题。技术研发人员:林宪晖,任沛然,张亚博,左旺孟,谢宣松受保护的技术使用者:阿里巴巴(中国)有限公司技术研发日:技术公布日:2024/7/18

本文地址:https://www.jishuxx.com/zhuanli/20240801/240960.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。