一种颜色可控的文本引导灰色图着色方法及系统
- 国知局
- 2024-08-22 15:01:24
本发明属于数字图像灰色图着色领域,具体涉及一种颜色可控的文本引导灰色图着色方法及系统。背景技术:::1、颜色在人眼感知世界中扮演着重要的角色,灰色图着色问题因其广泛的应用场景(如老电影上色、动画线稿上色等)而具有重要的研究价值,一直受到工业界和学术界的关注。传统的自动着色方法旨在不接受其他引导,仅通过训练好的模型先验完成对灰色图的着色。这类方法缺少用户可控性,并受限于着色问题的歧义性而产生颜色欠饱和的结果。其他传统的文本引导的着色方法利用用户给出的关于颜色描述的文本将灰色图上色,但往往产生颜色溢出、颜色和文本不匹配等问题,不能按照用户的需要去生成高质量的着色结果。2、目前基于扩散模型的stable diffusion(sd)和controlnet在条件生成领域大放异彩。在此基础上,将文本引导的着色问题建模成条件生成问题,即将灰色图和文本引导视作生成过程的条件,是一种直接的思路。而由于扩散生成过程引入了大量随机噪声,导致最终着色结果与灰色图在语义和结构上相差太大,影响用户视觉体验。3、除此之外,现有着色方法均只能生成颜色丰富程度单一的结果,缺少对于颜色丰富程度的控制能力,不能满足用户的多元需求。技术实现思路1、针对上述技术问题,本发明提供一种颜色可控的文本引导灰色图着色方法及系统,可以生成不同的颜色丰富程度的颜色图。2、为实现上述发明目的,本发明的技术方案包括以下内容。3、一种颜色可控的文本引导灰色图着色方法,所述方法包括:4、针对带有文本描述的灰色图,提取所述灰色图的灰色图隐变量、语义边缘图隐变量和标准空间语义特征,并获取文本描述特征;其中,所述标准空间语义特征代表所述灰色图对应的语义分割图中的每个空间位置对应的语义特征;5、在所述灰色图隐变量的基础上注入文本描述特征,得到粗粒度着色隐变量;6、将该粗粒度着色隐变量联合语义边缘图隐变量作为controlnet着色框架输入,并将标准空间语义特征与controlnet着色框架的主干特征融合后注入controlnet着色框架,以得到着色结果图隐变量;其中,所述controlnet着色框架基于stable diffusion构建;7、将所述灰色图隐变量经过解码得到的中间特征作为所述着色结果图隐变量的结构引导和灰色信息,生成颜色可控的颜色图。8、进一步地,所述提取所述灰色图的语义边缘图隐变量,包括:9、利用大规模图像分割模型提取灰色图的细粒度图像分割结果;10、在所述细粒度图像分割结果上使用canny边缘提取器提取语义边缘图;11、使用变分自编码器提取语义边缘图所对应的语义边缘图隐变量。12、进一步地,所述提取所述灰色图的标准空间语义特征,包括:13、利用语义分割模型提取灰色图的语义分割结果;14、使用clip文本编码器对语义分割结果中的每一个区域对应的标签进行特征提取,得到各个空间位置的语义特征;15、将各个空间位置的语义特征进行拼接,得到标准空间语义特征。16、进一步地,所述在所述灰色图隐变量的基础上注入文本描述特征,得到粗粒度着色隐变量,包括:17、将所述灰色图隐变量和所述文本描述特征输入颜色信息整合模块,得到粗粒度着色隐变量;其中,所述颜色信息整合模块由若干个残差网络构成,训练所述颜色信息整合模块的过程包括:18、构建由文本描述、灰色图、颜色图为一组数据的训练数据集;19、使用clip图像编码器提取颜色图的特征20、使用变分自编码器提取灰色图的灰色图隐变量;21、将灰色图隐变量和所述特征输入颜色信息整合模块,得到粗粒度着色隐变量;22、使用变分自解码器对粗粒度着色隐变量进行解码,得到粗粒度着色图;23、基于所述粗粒度着色图与所述颜色图之间的感知损失和重建损失,调整所述颜色信息整合模块的参数。24、进一步地,所述controlnet着色框架包括:controlnet网络和unet网络;25、所述将该粗粒度着色隐变量联合语义边缘图隐变量作为controlnet着色框架输入,并将标准空间语义特征与controlnet着色框架的主干特征融合后注入controlnet着色框架,以得到着色结果图隐变量,包括:26、在高斯分布中随机采样一个噪声ε作为初始的带噪隐变量zt;其中,t为均匀采样的扩散时间步;27、将带噪隐变量zt作为unet网络的输入,并将经过unet网络第一层后计算得到的带噪特征与粗粒度着色隐变量联合语义边缘图隐变量相加,得到unet网络输出的中间特征表示ft;28、将所述中间特征表示ft作为controlnet网络的输入,并在controlnet网络的计算过程中使用标准空间语义特征与controlnet网络的主干特征融合,得到controlnet网络的输出特征表示ct;29、将所述输出特征表示ct通过零卷积注入到unet网络中,得到unet网络的输出特征表示ut;30、基于输出特征表示ut进行中间去噪结果的计算,得到带噪隐变量zt-1;31、令t=t-1,并重新执行所述将带噪隐变量zt作为unet网络的输入,直至完成所有扩散时间步后,将最后一个扩散时间步的带噪隐变量z0作为着色结果图隐变量。32、进一步地,训练所述controlnet着色框架的损失函数其中,text为文本描述,εθ为以θ为可训练参数的controlnet着色框架,表示统计平均值,zcoarse为粗粒度着色隐变量,fstd为标准空间语义特征,fedge为语义边缘图隐变量。33、进一步地,将所述灰色图隐变量经过解码得到的中间特征作为所述着色结果图隐变量的结构引导和灰色信息,生成颜色可控的颜色图,包括:34、使用变分自解码器对灰色图隐变量进行解码,并获取解码过程中的中间特征35、对该中间特征进行卷积操作,得到卷积特征36、使用变分自解码器对着色结果图隐变量进行解码,并获取解码过程中的中间特征37、结合可调控的颜色丰富程度控制系数将卷积特征注入到中间特征后,基于注入后的特征得到颜色可控的颜色图。38、一种颜色可控的文本引导灰色图着色系统,所述系统包括:39、特征提取模块,用于针对带有文本描述的灰色图,提取所述灰色图的灰色图隐变量、语义边缘图隐变量和标准空间语义特征,并获取文本描述特征;其中,所述标准空间语义特征代表所述灰色图对应的语义分割图中的每个空间位置对应的语义特征;40、粗粒度着色模块,用于在所述灰色图隐变量的基础上注入文本描述特征,得到粗粒度着色隐变量;41、细粒度着色模块,用于将该粗粒度着色隐变量联合语义边缘图隐变量作为controlnet着色框架输入,并将标准空间语义特征与controlnet着色框架的主干特征融合后注入controlnet着色框架,以得到着色结果图隐变量;其中,所述controlnet着色框架基于stable diffusion构建;42、颜色控制模块,用于将所述灰色图隐变量经过解码得到的中间特征作为所述着色结果图隐变量的结构引导和灰色信息,生成颜色可控的颜色图。43、一种电子设备,其特征在于,所述电子设备包括:处理器以及存储有计算机程序指令的存储器;所述处理器执行所述计算机程序指令时实现上述任一项所述的颜色可控的文本引导灰色图着色方法。44、一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序指令,所述计算机程序指令被处理器执行时实现上述任一项所述的颜色可控的文本引导灰色图着色方法。45、与现有技术相比,本发明的积极效果为:46、本发明显著减少目前着色方法的颜色溢出、颜色欠饱和等问题,能够生成高质量的着色结果,并且可以生成不同的颜色丰富程度的结果,满足用户的多元化需求。当前第1页12当前第1页12
本文地址:https://www.jishuxx.com/zhuanli/20240822/280811.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表