技术新讯 > 计算推算,计数设备的制造及其应用技术 > 一种扩散模型训练方法、装置、设备、介质以及视频生成方法与流程  >  正文

一种扩散模型训练方法、装置、设备、介质以及视频生成方法与流程

  • 国知局
  • 2024-10-21 14:52:29

本发明涉及视频生成领域,尤其涉及一种扩散模型训练方法、装置、设备、介质以及视频生成方法。背景技术:::1、视频生成是指利用算法和模型创建新的、可播放的视频内容。它通过输入(如图像、文本或现有的视频片段)生成与之相关的新视频。视频生成的目的是使计算机能够理解和创造动态视觉内容。2、随着stable diffusion(通过逐渐去除噪声来生成高质量的图像的模型)的快速发展,这些模型在文本生成高质量图像领域得到了广泛应用,然而,当将这些模型应用于视频域时,确保视频帧之间的时间一致性仍然是一个巨大的挑战。因此,基于噪声图像进行视频生成亟需一种解决方案。技术实现思路1、本发明实施例通过提供一种扩散模型训练方法、装置、设备、介质以及视频生成方法,解决了现有技术中基于噪声图像进行视频生成时,时间一致性不高的技术问题,实现了基于噪声图像进行视频生成时,提高时间一致性的技术效果。2、第一方面,本发明提供了一种扩散模型训练方法,方法包括:3、对待处理视频进行抽帧,获取若干连续的待处理图像,并将每张待处理图像划分为若干感兴趣区域;4、按照预设添加规则为每张待处理图像中的若干感兴趣区域分别且连续地添加高斯噪声,得到每张待处理图像对应的噪声图像集,噪声图像集中包括若干噪声图像;5、基于若干噪声图像集进行扩散训练,其中,扩散训练包括噪声预测训练以及视频帧预测训练;6、其中,噪声预测训练,包括:7、构建待训练噪声神经网络模型,其中,待训练噪声神经网络模型的输入为包含噪声的图像,输出为预测噪声;8、向待训练噪声神经网络模型输入若干噪声图像集中的每张噪声图像,并根据每张噪声图像中的每块感兴趣区域的预测噪声和已添加噪声,对待训练噪声神经网络模型进行更新,得到目标噪声神经网络模型;9、其中,视频帧预测训练,包括:10、构建待训练视频帧预测模型,其中,待训练视频帧预测模型的输入为连续的两帧的包含噪声的图像,输出为预测噪声差异;11、向待训练视频帧预测模型输入连续的两帧的噪声图像集中的一组噪声图像,并根据若干组噪声图像的实际噪声差异与预测噪声差异,对待训练视频帧预测模型进行更新,得到目标视频帧预测模型,其中,一组噪声图像包括两张噪声图像;12、根据目标噪声神经网络模型以及目标视频帧预测模型,得到视频生成扩散模型。13、进一步地,向待训练视频帧预测模型输入连续的两帧的噪声图像集中的一组噪声图像,并根据若干组噪声图像的实际噪声差异与预测噪声差异,对待训练视频帧预测模型进行更新,得到目标视频帧预测模型,包括:14、选择任意的相邻的两帧的噪声图像集;15、从相邻的两帧的噪声图像集中各任意选择一张噪声图像,组成一组噪声图像;16、根据该组噪声图像中每张噪声图像的若干感兴趣区域添加的高斯噪声,确定该张噪声图像添加的高斯噪声;17、根据该组噪声图像中两张噪声图像添加的高斯噪声之间的差异,确定该组噪声图像的实际噪声差异;18、向待训练视频帧预测模型输入该组噪声图像后,确定该组噪声图像对应的预测噪声差异;19、根据该组噪声图像对应的预测噪声差异和该组噪声图像的实际噪声差异,对待训练视频帧预测模型的神经网络参数进行调整;20、当达到预设迭代次数或达到第一预设输出标准时,保存待训练视频帧预测模型最新的神经网络参数,并得到目标视频帧预测模型。21、进一步地,按照预设添加规则为每张待处理图像中的若干感兴趣区域分别且连续地添加高斯噪声,得到每张待处理图像对应的噪声图像集,包括:22、针对每张待处理图像中的每个感兴趣区域,根据每个感兴趣区域的像素点数量、区域轮廓度、区域平坦度以及添加次数,确定在每次对该感兴趣区域添加时的高斯噪声的方差;23、根据该待处理图像中各感兴趣区域在同一次添加时的高斯噪声的方差,确定与该待处理图像对应的一张噪声图像;24、根据若干次对该待处理图像进行添加高斯噪声时对应的若干张噪声图像,构成与该待处理图像对应的一个噪声图像集。25、进一步地,关于对每个感兴趣区域添加高斯噪声的公式,包括:26、27、或,28、29、其中,为感兴趣区域添加的高斯噪声的方差,、均为权重经验系数,为敏感经验系数,为第i个感兴趣区域的像素点数量,为第i个感兴趣区域的区域轮廓度,为第i个感兴趣区域的区域平坦度,n为添加次数,为预设标准像素数量,为预设标准区域轮廓度。30、进一步地,向待训练噪声神经网络模型输入若干噪声图像集中的每张噪声图像,并根据每张噪声图像中的每块感兴趣区域的预测噪声和已添加噪声,对待训练噪声神经网络模型进行更新,得到目标噪声神经网络模型,包括:31、向待训练噪声神经网络模型输入任意噪声图像集的任意噪声图像,获取该噪声图像的每块感兴趣区域的预测噪声;32、根据该噪声图像中的每块感兴趣区域的预测噪声和每块感兴趣区域的已添加噪声,对待训练噪声神经网络模型的神经网络参数进行更新;33、待根据该噪声图像中的所有感兴趣区域的预测噪声和已添加噪声对待训练噪声神经网络模型的神经网络参数更新完成后,根据该噪声图像中的每块感兴趣区域的预测噪声,确定该噪声图像添加的高斯噪声;34、根据该噪声图像添加的高斯噪声以及该噪声图像对应的预测噪声再次对待训练噪声神经网络模型的神经网络参数进行更新;35、当达到预设迭代次数或达到第二预设输出标准时,保存待训练噪声神经网络模型最新的神经网络参数,并得到目标噪声神经网络模型。36、进一步地,将每张待处理图像划分为若干感兴趣区域,包括:37、根据每张待处理图像的尺寸,将每张待处理图像划分为若干感兴趣区域,其中各感兴趣区域的大小相同。38、第二方面,本发明提供了一种视频生成方法,包括:39、获取目标噪声图片;40、向视频生成扩散模型输入目标噪声图片,获取若干张连续已去噪图片;41、根据若干张连续已去噪图片合成目标视频。42、第三方面,本发明提供了一种扩散模型训练装置,装置包括:43、视频处理模块,用于对待处理视频进行抽帧,获取若干连续的待处理图像,并将每张待处理图像划分为若干感兴趣区域;44、噪声添加模块,用于按照预设添加规则为每张待处理图像中的若干感兴趣区域分别且连续地添加高斯噪声,得到每张待处理图像对应的噪声图像集,噪声图像集中包括若干噪声图像;45、模型训练模块,用于基于若干噪声图像集进行扩散训练,其中,扩散训练包括噪声预测训练以及视频帧预测训练;46、其中,噪声预测训练,包括:47、构建待训练噪声神经网络模型,其中,待训练噪声神经网络模型的输入为包含噪声的图像,输出为预测噪声;48、向待训练噪声神经网络模型输入若干噪声图像集中的每张噪声图像,并根据每张噪声图像中的每块感兴趣区域的预测噪声和已添加噪声,对待训练噪声神经网络模型进行更新,得到目标噪声神经网络模型;49、其中,视频帧预测训练,包括:50、构建待训练视频帧预测模型,其中,待训练视频帧预测模型的输入为连续的两帧的包含噪声的图像,输出为预测噪声差异;51、向待训练视频帧预测模型输入连续的两帧的噪声图像集中的一组噪声图像,并根据若干组噪声图像的实际噪声差异与预测噪声差异,对待训练视频帧预测模型进行更新,得到目标视频帧预测模型,其中,一组噪声图像包括两张噪声图像;52、合成模块,用于根据目标噪声神经网络模型以及目标视频帧预测模型,得到视频生成扩散模型。53、第四方面,本发明提供了一种电子设备,包括:54、处理器;55、用于存储处理器可执行指令的存储器;56、其中,处理器被配置为执行以实现如第一方面提供的一种扩散模型训练方法。57、第五方面,本发明提供了一种非临时性计算机可读存储介质,当存储介质中的指令由电子设备的处理器执行时,使得电子设备能够执行实现如一种扩散模型训练方法。58、本发明实施例中提供的一个或多个技术方案,至少具有如下技术效果或优点:59、本发明通过对待训练视频帧预测模型进行训练,当得到目标视频帧预测模型后,意味着输入的连续的两帧的图片的高斯噪声差异在一定范围内,说明了连续的两帧的图片具备时间一致性。通过使连续的两帧的图片具备时间一致性,可使得基于噪声图片合成的视频具有较强的观感,提高了使用体验。60、本发明还提供了确定两个感兴趣区域的高斯噪声添加量的方式,当需要确保模型精度时,通过在每次在相同的感兴趣区域按照添加的次数,确定为感兴趣区域添加的高斯噪声的方差,可以保证连续相邻的两张噪声图的相同位置的感兴趣区域的高斯噪声的方差是按照倍速增长的,换而言之,对待训练的模型而言,当变化越均匀,越有利于模型的训练。当需要保证模型的训练速度,通过按照指数进行添加,可以尽快完成对感兴趣区域添加的高斯噪声的处理,使得待处理图片尽快迭代为纯噪声图片。61、本发明在对感兴趣区域添加高斯噪声时,引入像素点数量、感兴趣区域的区域轮廓度、感兴趣区域的区域平坦度等参数,可使得每次对感兴趣区域添加高斯噪声时,准确确定感兴趣区域添加的高斯噪声的方差,相较于现有技术中进行均匀添加,本发明通过划区域,并确定每个区域添加高斯噪声的方差,可以针对各图像中各感兴趣区域的不同,进行添加高斯噪声,在后续利用各感兴趣区域对模型进行训练时,可以为模型在相同的输入图像的条件下,提供更多的输入细节,并利用感兴趣区域和噪声图像,进行了二次更新,便于模型进行训练,提高模型训练的精度。62、本发明还提供了一种视频生成方法,可以基于一张噪声图,通过目标视频帧预测模型对预测的噪声图是否具备时间一致性进行判断,通过此方式合成的视频具备时间一致性。当前第1页12当前第1页12

本文地址:https://www.jishuxx.com/zhuanli/20241021/319628.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。