一种基于重要性评估的多模态个性化扩散模型视频生成及加速装置和方法与流程
- 国知局
- 2024-09-11 14:50:03
本发明涉及一种计算机视觉领域,尤其涉及一种基于重要性评估的多模态个性化扩散模型视频生成及加速装置和方法。
背景技术:
1、随着社交媒体、在线娱乐和虚拟现实等领域的快速发展,用户大众对于高质量视频内容的需求急剧增加。这些视频内容不仅用于个人娱乐,还广泛应用于广告、教育、游戏等多个行业,多领域的需求要求了视频生成技术能够根据用户的意愿进行高质量视频生成,同时还要兼顾灵活性和高效性。
2、为了满足这些需求,扩散模型(diffusion models)视频生成技术被广泛应用于现代视频生成任务中。扩散模型视频生成需要在时间维度上对帧进行建模,这不仅增加了计算的复杂性,也对硬件资源提出了更高的要求。一般地,视频加速技术的发展主要集中在两个方面:算法优化和硬件加速。算法优化通过改进模型结构、采用更高效的采样策略等手段,显著减少了视频生成所需的时间和计算资源。硬件加速则通过利用gpu、tpu等高性能并行计算设备,进一步提升了视频生成的处理速度。
3、总体来说,现有的视频加速方法大致总结如下:
4、1)模型结构优化:通过设计更高效的网络结构,如使用轻量级的u-net结构,减少模型参数,从而降低计算负担。
5、2)采样策略改进:在扩散模型中,采样策略对生成速度有直接影响。研究者们提出了多种快速采样方法,如ddim(denoising diffusion implicit models)采样器,它通过预定义的噪声调度来加速采样过程。
6、3)并行计算:利用多gpu或多节点并行计算,将视频帧的生成任务分配到不同的计算单元上,从而实现同时生成多个帧。这种方法在大规模视频生成任务中尤为有效。
7、现技术缺点总结如下:
8、1)现基于模型结构优化的视频加速技术,其缺点在于:通过剪枝的方法往往难以抉择裁剪的网络,而通过遍历网络结构方式,训练开销大,而模型蒸馏的技术易出现灾难性遗忘现象。
9、2)现基于采样策略优化的视频加速技术,其缺点在于:减少采样步,往往会存在一定的生成质量下降问题,且难以避免;
10、3)基于硬件并行计算的视频加速技术,其缺点在于:并行计算往往针对大批量生成任务,无法解决单个视频生成任务加速的问题。
11、上述现有的视频加速方案往往只专注于加速,未更多留意视频的控制和质量。
12、本发明的目的在于针对现有技术存在的不足,提供一种基于重要性评估的多模态个性化扩散模型视频生成及加速方法。本发明采用深度学习技术,向视频扩散生成模型中注入定位信息,辅助进行帧的重要性评估,从而利用帧间和镇帧内的重要性程度和帧的特征相似度实现特征复用,从而加速视频生成。故本文解决的技术问题是现有技术训练开销大,且条件信息引导少,加速中存在生成质量下降,应用场景限制多,灵活性低的问题。
技术实现思路
1、本发明目的在于针对现有技术的不足,本技术实施例的目的是提供一种基于重要性评估的多模态个性化扩散模型视频生成及加速装置和方法,以解决相关技术中存在的模型生成质量差、生成效率低、模态信息单一和未充分挖掘扩散模型生成过程中特征间联系的技术问题。
2、本发明的目的是通过以下技术方案来实现的:第一方面,本发明提供了一种基于重要性评估的多模态个性化扩散模型视频生成及加速装置,包括:
3、视频图像预处理模块,用于对原视频的图像数据进行文本字幕的消除和根据图像质量的筛选过滤,并生成相应的文本描述和指定的实体位置框;
4、文本、实体位置控制的视频生成扩散模型训练微调模块,用于向开源预训练的文本做引导的视频生成扩散模型内注入实体位置的条件信息,将每个位置框所对应的嵌入特征输入至交叉注意力中进行特征交互,训练视频生成扩散模型;
5、文本、实体位置控制的视频生成扩散模型优化模块,用于对输入图像进行添加高斯噪声,将得到的噪声图像用于噪声初始化;
6、文本、实体位置控制的视频生成扩散模型推理加速模块,用于评估视频帧间重要性程度和视频帧内区域块重要性程度,将视频生成扩散模型中注意力矩阵在前后视频帧内以及前后扩散模型时间步内进行复用;
7、文本、实体位置控制的视频生成扩散模型编辑调整模块,用于对用户拟修改区域,依据视频帧内区域块重要性程度进行视频的编辑调整。
8、进一步地,所述视频图像预处理模块,包括:
9、统一视频尺寸、帧长单元,用于将所有视频图像缩放成固定尺寸,并将视频帧调整至相同大小,使得输入视频符合扩散模型特征网络的输入规格;
10、视频图像字幕消除单元,用于将视频中的硬字幕去除,对去除字幕文本的区域进行填充修复;
11、静态视频场景筛选过滤单元,用于计算视频数据集的光流,并以一定概率删除平均光流幅度低于阈值的视频来过滤筛选静态场景;
12、低质量视频筛选过滤单元,用于选取每个视频的第一帧、中间帧和最后一帧,进行特征提取,计算图像质量评估分数,筛选处满足要求的视频;
13、位置框生成单元,用于生成作为条件引导的实体位置信息,来进行位置框数据生成,对于视频数据,为每一个视频帧生成指定的实体生成位置框。
14、进一步地,所述视频图像预处理模块还包括文本提示词增强单元,利用大模型对视频的文本描述进行调整和增强。
15、进一步地,所述文本、实体位置控制的视频生成扩散模型训练微调模块,包括:
16、实体位置标识符单元,用于将实体的位置信息嵌入到文本信息中,单一视频帧内,实体位置信息由位置框信息和需要进行位置控制的实体身份描述信息构成;得到的位置信息通过傅立叶编码注入到文本编码中;
17、交叉注意力微调单元,用于对视频生成扩散模型内部unet特征网络中的交叉注意力网络层参数进行调整,其中,unet中的交叉注意力包括经过投影变换的潜空间特征矩阵,以及经过投影变换的文本-位置嵌入特征矩阵,对于交叉注意力的调整,该单元冻结潜空间特征矩阵,训练微调文本-位置嵌入特征矩阵。
18、进一步地,所述文本、实体位置控制的视频生成扩散模型优化模块,包括:
19、首帧噪声初始化单元,用于生成首帧的噪声图像,根据文本提示词输入,通过预训练的文本生成图像扩散模型生成图像,将图像重新添加噪声若干步后,作为首帧的初始化噪声
20、非首帧噪声初始化单元,用于生成非首帧的噪声图像,通过上一帧生成的图像,将图像重新添加噪声若干步后,作为非首帧的初始化噪声;
21、进一步地,所述文本、实体位置控制的视频生成扩散模型推理加速模块,包括:
22、帧间重要性评估计算单元,用于比较每一视频帧的重要性,通过比较连续帧的位置框相似度,以及分析时间的关联性,将视频帧划分为关键帧和非关键帧;
23、块间重要性评估计算单元,用于比较单一视频帧图像内,各图像区域的重要性程度,将图像区域划分为若干个子区域块,计算各个子区域块的重要性分数,将视频帧划分为关键块和非关键块;
24、注意力复用单元,用于根据重要性评估,使注意力矩阵在前后视频帧内对非关键帧进行复用,复用规则为:记视频生成扩散模型的unet特征网络中注意力层数量为m,累计复用计数器为count1,计数器初始化为m/2+1,且规定count1=m时,计数器不再增长;
25、对于非关键帧,则当执行复用操作时,复用上一帧生成过程中最后一个扩散模型时间步的第count1个注意力层矩阵,并在此次生成过程的第一个扩散时间步中,重复利用此注意力矩阵进行计算,操作进行后累计复用计数器加一;
26、对于关键帧,不启用复用操作,在此次生成过程第一次扩散时间步中,执行完整的unet特征网络去噪操作,当此次视频帧图像生成完毕时,累计复用计数器设置为m/2+1;
27、注意力存取单元,用于根据重要性评估,使注意力矩阵在前后扩散模型时间步内复用,同样记视频生成扩散模型的unet特征网络中注意力层数量为m,累计存取计数器为count2,count2计数器初始化为m-count1,且规定count2=0时,计数器不再减少;
28、对于非关键帧,将累计存取计数器count2设置为m-count1,表示在第一步时使用注意力复用单元执行的跳连接操作,跳连接所在下采样层为第count2个注意力所在层,执行完毕后count2减1;
29、在第一步执行完后,每次在第s个注意力所在下采样层执行跳连接操作,s的计算公式如下所示:
30、s=count2+t
31、t=[1,-1,-2,2,-2,-3,3,-3,...]
32、对于关键帧,在第一次扩散时间步中,仍基于unet特征网络第一层网络执行去噪操作;
33、在第一步执行完后,在剩下的扩散时间步,以一定的概率q仍执行完整unet特征网络去噪操作,否则,在第s个注意力所在下采样层执行跳连接操作。
34、进一步地,所述文本、实体位置控制的视频生成扩散模型推理加速模块,还包括注意力压缩单元,用于压缩视频生成扩散模型的unet特征网络中间块注意力矩阵大小;
35、对于非关键帧,中间块通过跳连接的方式避免进行计算,对于关键帧,对于计算注意力的k,v特征矩阵进行压缩,再进行后续特征提取计算和注意力矩阵计算。
36、进一步地,所述文本、实体位置控制的视频生成扩散模型编辑调整模块,包括:
37、特殊实体编辑修复单元,用于对用户编辑的关键块区域进行编辑修复,利用每一帧的位置框信息,将每一帧位置框内掩膜处理后,利用预训练的扩散修复模型对每一帧内位置框掩膜区域进行图像修复操作,图像修复操作只作用于位置框区域;
38、背景区域编辑修复单元,用于对用户编辑的非关键块进行编辑修复,利用预训练的扩散修复模型对每帧内各个用户编辑的非关键块进行图像修复操作,图像修复操作只作用于每一帧内用户编辑的非关键块,且被编辑区域内。
39、第二方面,本发明还提供了一种基于重要性评估的多模态个性化扩散模型视频生成及加速方法,该方法包括以下步骤:
40、(1)对原视频的图像数据进行文本字幕的消除和根据图像质量的筛选过滤,并生成相应的文本描述和指定的实体位置框;
41、(2)向开源预训练的文本做引导的视频生成扩散模型内注入实体位置的条件信息,将每个位置框所对应的嵌入特征输入至交叉注意力中进行特征交互,训练视频生成扩散模型;
42、(3)对输入图像进行添加高斯噪声,将得到的噪声图像用于噪声初始化;
43、(4)评估视频帧间重要性程度和视频帧内区域块重要性程度,将视频生成扩散模型中注意力矩阵在前后视频帧内以及前后扩散模型时间步内进行复用;
44、(5)对用户拟修改区域,依据视频帧内区域块重要性程度进行视频的编辑调整。
45、第三方面,本发明还提供了一种基于重要性评估的多模态个性化扩散模型视频生成及加速设备,包括存储器和一个或多个处理器,所述存储器中存储有可执行代码,所述处理器执行所述可执行代码时,实现所述的一种基于重要性评估的多模态个性化扩散模型视频生成及加速方法。
46、本发明的有益效果:
47、1.提高生成效率:针对现有技术中模型训练开销大、生成速度慢、难训练的问题,本发明通过优化模块和推理加速模块,减少了视频生成的时间和计算资源需求。
48、2.解决现有加速技术中生成质量下降的问题:通过深度学习技术和实体位置信息的注入,本发明增强了条件信息在视频生成过程中的引导作用,提升了视频生成的可控性和准确性。
49、3.增强个性化程度:利用文本、实体位置控制的视频生成扩散模型训练微调模块,引入实体位置信息,精确控制视频中实体的运动轨迹,实现更个性化的视频内容生成。
50、4.缓解灵活性低的问题:视频编辑调整模块提供了用户对生成视频进行个性化编辑的能力,提高了视频生成技术的灵活性和用户创作的自由度。
本文地址:https://www.jishuxx.com/zhuanli/20240911/292265.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。