基于GAN网络实现根据文本标题生成动态视频的方法与流程

2022-11-30 15:03:05 来源：中国专利 TAG：

基于gan网络实现根据文本标题生成动态视频的方法
技术领域
1.本发明涉及视频生成领域，具体涉及一种基于gan网络实现根据文本标题生成动态视频的方法。

背景技术：

2.理解物体的运动和场景动力学是计算机视觉中的一个核心问题。随着图像和视频已经成为直观的信息载体，并已被用于许多实际应用。在这种背景下，视觉合成正成为一个越来越流行的研究课题。从文本中生成图像是一个被广泛研究的话题，先前关于文本与视频之间生成关系的研究主要集中于从视频中制作文本字幕，但基于文本生成视频还有待广泛的探索，创建一个动态模型是具有挑战性的，从文本中制作视频的反问题具有更多的自由度，是现有方法面临的一个具有挑战性的问题。

技术实现要素：

3.本发明为了克服以上技术的不足，提供了一种提高视频质量的基于gan网络实现根据文本标题生成动态视频的方法。
4.本发明克服其技术问题所采用的技术方案是：一种基于gan网络实现根据文本标题生成动态视频的方法，包括如下步骤：a)建立由背景生成器模块、前景生成器模块、图像帧鉴别器模块以及视频鉴别器模块构成的gan网络；b)利用背景生成器模块将文本标题进行编码并连接噪声后的潜态变量作为输入，生成具有符合文字描述的静态视频场景；c)利用前景生成器模块将潜态变量作为输入，学习光流信息和时序信息，生成具有动态特性的前景内容；d)利用图像帧鉴别器模块鉴别视频中的一帧来自一个真实视频采样还是生成视频采样，通过鉴别生成图像帧与真实图像帧；e)利用视频鉴别器模块取一个总长度为t帧的视频，鉴别视频片段来自一个真实视频采样还是生成视频采样。
5.进一步的，步骤b)中潜态变量通过二维卷积神经网络生成具有符合文字描述的静态视频场景。
6.进一步的，步骤b)中生成具有符合文字描述的静态视频场景，无需学习光流信息。
7.进一步的，步骤c)中通过三维卷积神经网络学习光流信息和时序信息。
8.进一步的，步骤e)中视频鉴别器模块鉴别时加入时间注意力模块。
9.本发明的有益效果是：背景生成器模块主要用于生成具有符合文字描述的静态视频场景；前景生成器模块主要用于学习前景光流并生成具有动态特性的前景信息；图像帧鉴别器模块主要用于鉴别生成图像帧与真实图像帧，以不断提高生成图像帧的真实性；视频鉴别器模块主要用于从视频流畅性、时间一致性等角度鉴别生成视频与真实视频，不断
提高视频质量。本发明通过深度学习的方法根据文本内容端到端生成视频，很大程度上提高了视频生成任务的实用性。
附图说明
10.图1为本发明的方法流程图。
具体实施方式
11.下面结合附图1对本发明做进一步说明。
12.一种基于gan网络实现根据文本标题生成动态视频的方法，包括如下步骤：a)建立由背景生成器模块、前景生成器模块、图像帧鉴别器模块以及视频鉴别器模块构成的gan网络。
13.b)利用背景生成器模块将文本标题进行编码并连接噪声后的潜态变量作为输入，生成具有符合文字描述的静态视频场景。
14.c)利用前景生成器模块将潜态变量作为输入，学习光流信息和时序信息，生成具有动态特性的前景内容。
15.d)利用图像帧鉴别器模块鉴别视频中的一帧来自一个真实视频采样还是生成视频采样，通过鉴别生成图像帧与真实图像帧。不断提高生成图像帧的真实性。从对象完整性和与文字描述的匹配度等角度不断提高生成图像帧的真实性。
16.e)利用视频鉴别器模块取一个总长度为t帧的视频，鉴别视频片段来自一个真实视频采样还是生成视频采样。通过鉴别生成的视频与真实视频，不断提高视频质量。
17.可以先固定生成器参数不变，同时更新两个鉴别器的参数；在交替步骤中，更新两个鉴别器参数，同时更新连个生成器参数。
18.背景生成器模块主要用于生成具有符合文字描述的静态视频场景；前景生成器模块主要用于学习前景光流并生成具有动态特性的前景信息；图像帧鉴别器模块主要用于鉴别生成图像帧与真实图像帧，以不断提高生成图像帧的真实性；视频鉴别器模块主要用于从视频流畅性、时间一致性等角度鉴别生成视频与真实视频，不断提高视频质量。本发明通过深度学习的方法根据文本内容端到端生成视频，很大程度上提高了视频生成任务的实用性。
19.实施例1：步骤b)中潜态变量通过二维卷积神经网络生成具有符合文字描述的静态视频场景。
20.实施例2：步骤b)中生成具有符合文字描述的静态视频场景，无需学习光流信息。
21.实施例3：步骤c)中通过三维卷积神经网络学习光流信息和时序信息。
22.实施例4：步骤e)中视频鉴别器模块鉴别时加入时间注意力模块。视频鉴别器加入时间注意模块，从视频流畅性、时间一致性等角度鉴别生成视频与真实视频，不断提高视频质量。
23.最后应说明的是：以上所述仅为本发明的优选实施例而已，并不用于限制本发明，
尽管参照前述实施例对本发明进行了详细的说明，对于本领域的技术人员来说，其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换。凡在本发明的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本发明的保护范围之内。

技术特征：
1.一种基于gan网络实现根据文本标题生成动态视频的方法，其特征在于，包括如下步骤：a)建立由背景生成器模块、前景生成器模块、图像帧鉴别器模块以及视频鉴别器模块构成的gan网络；b)利用背景生成器模块将文本标题进行编码并连接噪声后的潜态变量作为输入，生成具有符合文字描述的静态视频场景；c)利用前景生成器模块将潜态变量作为输入，学习光流信息和时序信息，生成具有动态特性的前景内容；d)利用图像帧鉴别器模块鉴别视频中的一帧来自一个真实视频采样还是生成视频采样，通过鉴别生成图像帧与真实图像帧；e)利用视频鉴别器模块取一个总长度为t帧的视频，鉴别视频片段来自一个真实视频采样还是生成视频采样。2.根据权利要求1所述的基于gan网络实现根据文本标题生成动态视频的方法，其特征在于：步骤b)中潜态变量通过二维卷积神经网络生成具有符合文字描述的静态视频场景。3.根据权利要求2所述的基于gan网络实现根据文本标题生成动态视频的方法，其特征在于：步骤b)中生成具有符合文字描述的静态视频场景，无需学习光流信息。4.根据权利要求1所述的基于gan网络实现根据文本标题生成动态视频的方法，其特征在于：步骤c)中通过三维卷积神经网络学习光流信息和时序信息。5.根据权利要求1所述的基于gan网络实现根据文本标题生成动态视频的方法，其特征在于：步骤e)中视频鉴别器模块鉴别时加入时间注意力模块。

技术总结
一种基于GAN网络实现根据文本标题生成动态视频的方法，背景生成器模块主要用于生成具有符合文字描述的静态视频场景；前景生成器模块主要用于学习前景光流并生成具有动态特性的前景信息；图像帧鉴别器模块主要用于鉴别生成图像帧与真实图像帧，以不断提高生成图像帧的真实性；视频鉴别器模块主要用于从视频流畅性、时间一致性等角度鉴别生成视频与真实视频，不断提高视频质量。本发明通过深度学习的方法根据文本内容端到端生成视频，很大程度上提高了视频生成任务的实用性。提高了视频生成任务的实用性。提高了视频生成任务的实用性。

技术研发人员：周君冯卫森冯落落李沛李晓瑜
受保护的技术使用者：山东新一代信息产业技术研究院有限公司
技术研发日：2022.09.05
技术公布日：2022/11/29

再多了解一些

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：一种人体背部腧穴智能定位系统和方法与流程

基于GAN网络实现根据文本标题生成动态视频的方法与流程

相关文献

最热文献