无重复高分辨率图片生成方法
- 国知局
- 2024-10-09 15:42:32
本发明涉及文生图,属于深度学习中的文本到图像生成任务,特别是指一种无重复高分辨率图片生成方法。背景技术:::1、文本到图像生成任务是指神经网络能够根据文本生成符合文本语义的图片。近年来,基于稳定扩散模型(stable diffusion)的生成式模型因为其令人印象深刻的图片生成能力而受到广泛关注和发展。但是,当直接使用稳定扩散模型用于生成更高分辨率的图片时(目标分辨率高于训练分辨率),最终生成的图像质量将会大幅下降。现有技术中,multidiffusion使用分块生成方式生成更高分辨率的图片,但是由于缺乏全局语义信息,其生成的图片中的物体重复现象严重。2、在multidiffusion的基础上,demofusion提出一种逐步生成高分辨率图像的方法,首先生成训练分辨率下的低分辨率图片,然后将低分辨率图片对应噪声上采样到高分辨率,再通过残差连接的方式将加噪后的隐空间特征注入到高分辨率图片的生成过程中;高分辨率图片的生成过程在multidiffusion的分块生成方式的基础上增加了膨胀采样,可以加强高分辨率图片的全局结构信息。但是在分块生成方式中,每个块使用的都是相同的包含物体的文本提示词,在进行图片生成的过程中会倾向于生成物体,而膨胀采样和残差连接产生的全局信息会抑制目标物体之外区域的其它物体生成,因此在两者的对抗下,demofusion在生成超高分辨率图像(4096*4096)时会生成重复的小物体,严重影响生成的高分辨率图片的质量。此外,demofusion采用的膨胀采样技术所采样出来的样本都是独立进行去噪,然后进一步拼接得到全局信息,由于不同膨胀采样的样本之间缺乏交互,其拼接得到的全局信息不够平滑,会误导高分辨率图片生成。技术实现思路1、本发明的目的在于提供一种无重复高分辨率图片生成方法,使用预训练的文生图稳定扩散模型,根据指定的文本提示词生成目标分辨率的图片,解决demofusion会生成重复的小物体和膨胀采样信息不平滑的问题,最终生成无重复的高分辨率图片。2、为了达成上述目的,本发明的解决方案是:3、一种无重复高分辨率图片生成方法,使用预训练的文生图稳定扩散模型,根据指定的文本提示词生成目标分辨率的图片,包括以下步骤:4、步骤1、从高斯噪声中随机采样一个与稳定扩散模型的训练分辨率等大的噪声z∈rh×w×c并进行去噪,其中表示高斯分布,i表示高斯分布的方差为1,r表示实数空间,h表示训练分辨率的高度,w表示训练分辨率的宽度,c表示噪声通道数;保留跨模态注意力产生的跨注意力图;5、步骤2、进行第i次插值,将训练分辨率对应的噪声z插值到更高分辨率对应的噪声zi∈rh×w×c,其中h=(i+1)h表示更高分辨率的高度,w=(i+1)w表示更高分辨率的宽度,例如第1次时h=2h、w=2w,第2次时h=3h、w=3w,以此类推;6、步骤3、对噪声zi添加高斯噪声∈,并保存中间过程产生的高斯噪声其中t表示总的去噪步数,zi′,t表示噪声zi第t次去噪的中间过程产生的高斯噪声;7、步骤4、一共进行t次去噪,每次去噪的步骤为:8、步骤4.1、将中间过程产生的高斯噪声zi′余弦递减加权到当前的噪声zi,t中,其计算公式表示为:9、zi,t=η×ziv,/+(1-η)×zi′;10、其中η从1余弦递减到0;11、步骤4.2、使用与训练分辨率等大的窗口进行重叠滑动采样生成个块,其中dh表示高度采样间隔,dw表示宽度采样间隔;同时根据步骤1中保留的跨注意力图生成块内容感知的提示词,并使用每个块对应的块内容感知的提示词进行去噪,再将每个块的去噪结果拼接在一起,其中重叠区域的噪声取平均值,得到拼接后的去噪结果z1t;12、步骤4.3、使用膨胀采样,采样出个噪声,对p2个噪声进行窗口交互,然后分别进行去噪操作;去噪后使用窗口交互的逆操作恢复噪声顺序,再使用膨胀采样的逆操作得到全局信息z2t;最后使用余弦递减加权的方式将z2t注入z1t中,得到zt-1=η×z2t+(1-η)×z1t,其中η从1余弦递减到0;13、步骤5、如果此时的更高分辨率等于目标分辨率,则使用解码器解码噪声,得到目标分辨率的图片,否则返回步骤2。14、所述步骤4.2中块内容感知的提示词的生成过程具体包括以下步骤:15、步骤4.2.1、对于文本提示词中的每个单词的跨注意力图,首先根据预设的阈值p1确定高响应区域,注意力图中值大于p1的为高响应区域;16、步骤4.2.2、对4.2.1的结果进行计算机视觉中的腐蚀操作;17、步骤4.2.3、对4.2.2的结果进行计算机视觉中的膨胀操作;18、步骤4.2.4、将4.2.3的结果插值到目标分辨率所对应的跨注意力图大小,然后使用重叠滑动采样生成p1个块,如果一个块的高响应区域面积超过预设的阈值p2,则该块的块内容感知的提示词包括这个单词;19、步骤4.2.5、返回步骤4.2.1遍历文本提示词的所有单词直到结束。20、所述步骤4.3中膨胀采样的去噪过程具体包括以下步骤:21、步骤4.3.1、使用膨胀采样,采样出p2个噪声,横坐标采样间隔为宽度放大倍数,纵坐标采样间隔为高度放大倍数;22、步骤4.3.2、对不同噪声的相同位置使用双射函数进行交互;23、步骤4.3.3、对交互后的噪声进行去噪;24、步骤4.3.4、对去噪后的噪声使用双射函数的逆函数恢复原始顺序;25、步骤4.3.5、进行膨胀采样的逆操作恢复噪声原先的位置,得到全局信息。26、采用上述技术方案后,本发明具有以下技术效果:27、本发明基于demofusion的逐步生成高分辨率图片的生成方式,进一步提出了块内容感知的提示词和带有窗口交互的膨胀采样,实现解决生成重复的小物体和膨胀采样信息不平滑的问题,最终生成无重复的高分辨率图片;本发明中的超参数可以根据用户需要灵活调整,以获得更高质量的无重复图像。技术特征:1.一种无重复高分辨率图片生成方法,使用预训练的文生图稳定扩散模型,根据指定的文本提示词生成目标分辨率的图片,其特征在于包括以下步骤:2.如权利要求1所述的图片生成方法,其特征在于:3.如权利要求1所述的图片生成方法,其特征在于:技术总结本发明公开一种无重复高分辨率图片生成方法,使用预训练的文生图稳定扩散模型,根据指定的文本提示词生成目标分辨率的图片,解决DemoFusion会生成重复的小物体和膨胀采样信息不平滑的问题,最终生成无重复的高分辨率图片。图片生成方法包括:1、从高斯噪声中随机采样一个与稳定扩散模型的训练分辨率等大的噪声并进行去噪,保留跨模态注意力产生的跨注意力图;2、将训练分辨率对应的噪声插值到目标分辨率对应的噪声,每次放大1倍;3、对2的结果添加高斯噪声,并保存中间过程产生的高斯噪声;4、一共进行T次去噪;5、如果当前分辨率满足目标分辨率,则使用解码器解码噪声,得到高分辨率图片,否则返回2。技术研发人员:纪荣嵘,林志航,林明宝受保护的技术使用者:厦门大学技术研发日:技术公布日:2024/9/26
本文地址:https://www.jishuxx.com/zhuanli/20240929/309692.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表