技术新讯 > 计算推算,计数设备的制造及其应用技术 > 基于扩散模型的家居风格图像生成方法、设备及存储介质与流程  >  正文

基于扩散模型的家居风格图像生成方法、设备及存储介质与流程

  • 国知局
  • 2025-01-10 13:17:57

本申请涉及计算机视觉领域,特别地涉及一种基于扩散模型的家居风格图像生成方法、设备及存储介质。背景技术:::1、稳定扩散模型(sdm:stable diffusion model)是一种文本到图像扩散模型,能够在给定文本输入的情况下生成照片般逼真的图像。与传统的扩散模型相比,sdm不是直接在原图上进行图片的扩散和去噪处理,而是对图像经过变分编码器(vae:variational auto-encoder)压缩的图像进行扩散,再通过解码器对压缩后的编码还原为图像。这样一来,训练扩散模型可以在降低复杂性和保留细节之间达到一定的平衡,从而提高视觉保真度。进一步地,通过将交叉注意力层引入模型架构,将扩散模型转为强大而灵活的生成器,用于一般的条件输入,且卷积使得高分辨率合成成为可能。由此,sdm应用于在图像修复和类条件图像合成方面,显著降低了计算要求。技术实现思路1、在下文中给出了关于本公开的简要概述,以便提供关于本公开的一些方面的基本理解。但是,应当理解,这个概述并不是关于本公开的穷举性概述。它并不是意图用来确定本公开的关键性部分或重要部分,也不是意图用来限定本公开的范围。其目的仅仅是以简化的形式给出关于本公开的某些概念,以此作为稍后给出的更详细描述的前序。2、根据本公开的实施例的第一方面,提供了一种基于扩散模型的家居风格图像生成方法,包括:获取第一家居图像,并且基于对第一家居图像的风格需求设置特征信息;将特征信息作为控制条件输入到稳定扩散模型的u-net模型进行优化训练,并且使用稳定扩散模型生成一个或多个需求家居图像;以及通过对该一个或多个需求家居图像进行基于风格需求的图像处理,以得到目标家居图像。3、在一些实施例中,响应于风格需求包括对第一家居图像进行局部图像替换,特征信息包括遮蔽图像特征、黑白掩码和额外噪声。4、在一些实施例中,控制条件包括:将经过四倍降采样的遮蔽图像特征和经过vae编码器的黑白掩码缩放到相同尺寸后进行拼接;将所拼接的结果输入到稳定扩散模型中作为额外的并行分支;将并行分支依次经过编码后获得多阶段输出特征作为控制条件融合到u-net模型中。5、在一些实施例中,在u-net模型中将并行分支与主分支特征逐层进行元素相加以实现融合。6、在一些实施例中,稳定扩散模型的输出经过vae解码器部分解码生成该一个或多个需求家居图像。7、在一些实施例中,响应于风格需求包括对第一家居图像进行家居风格迁移,特征信息包括用户输入的与风格需求相关联的文本特征。8、在一些实施例中,控制条件包括:基于用第一家居图像生成对应的深度图和语义图中的至少一者;以及将所对应的至少一者作为基本组件控制家居布局信息。9、在一些实施例中,控制条件还包括:基于家居布局信息提取额外图像编码信息并且基于文本特征提取文本编码信息;以及将额外图像编码信息与文本编码信息通过交叉注意力模块计算融合到u-net模型的中间层。10、根据本公开的实施例的第二方面,提供了一种基于扩散模型的家居风格图像生成方法,包括:获取第一家居图像,并且响应于对第一家居图像的风格需求包括局部图像替换,设置特征信息为包括遮蔽图像特征、黑白掩码和额外噪声;将特征信息作为控制条件输入到稳定扩散模型的u-net模型进行优化训练,并且将稳定扩散模型的输出经过vae解码器部分解码生成一个或多个需求家居图像;以及通过对该一个或多个需求家居图像进行基于风格需求的图像处理,以得到目标家居图像。11、根据本公开的实施例的第三方面,提供了一种基于扩散模型的家居风格图像生成方法,包括:获取第一家居图像,并且响应于对第一家居图像的风格需求包括家居风格迁移,设置特征信息为用户输入的与风格需求相关联的文本特征;基于特征信息提取额外图像编码信息与文本编码信息,作为控制条件输入到稳定扩散模型的u-net模型进行优化训练,并且使用稳定扩散模型生成一个或多个需求家居图像;以及通过对该一个或多个需求家居图像进行基于风格需求的图像处理,以得到目标家居图像。12、根据本公开的实施例的第四方面,提供了一种基于扩散模型的家居风格图像生成设备,包括:处理器;以及存储计算机可执行指令的存储器,该计算机可执行指令在被处理器执行时使得处理器执行前述的基于扩散模型的家居风格图像生成方法。13、根据本公开的实施例的第五方面,提供了一种存储有计算机可执行指令的非暂态计算机可读存储介质,该计算机可执行指令在由处理器执行时使处理器实现前述的基于扩散模型的家居风格图像生成方法。14、根据本公开的实施例的优点在于使用与所需风格相关联的指定图像作为额外控制条件融入到用于生成家居风格图像的扩散模型中,通过理解所指定图像中包含的文本特征或者区域关联特征,优化扩散模型的生成效果,提高生成指定风格和/或场景的家居图像的稳定性。15、应当认识到,上述优点不需全部集中在一个或一些特定实施例中实现,而是可以部分分散在根据本公开的不同实施例中。根据本公开的实施例可以具有上述优点中的一个或一些,也可以替代地或者附加地具有其它的优点。技术特征:1.一种基于扩散模型的家居风格图像生成方法,包括:2.根据权利要求1所述的家居风格图像生成方法,其中:3.根据权利要求2所述的家居风格图像生成方法,其中所述控制条件包括:4.根据权利要求3所述的家居风格图像生成方法,其中:5.根据权利要求3所述的家居风格图像生成方法,其中:6.根据权利要求1所述的家居风格图像生成方法,其中:7.根据权利要求6所述的家居风格图像生成方法,其中所述控制条件包括:8.根据权利要求7所述的家居风格图像生成方法,其中所述控制条件还包括:9.一种基于扩散模型的家居风格图像生成方法,包括:10.一种基于扩散模型的家居风格图像生成方法,包括:11.一种基于扩散模型的家居风格图像生成设备,包括:12.一种存储有计算机可执行指令的非暂态计算机可读存储介质,所述计算机可执行指令在由处理器执行时使所述处理器实现如权利要求1至10中任一项所述的基于扩散模型的家居风格图像生成方法。13.一种计算机程序产品,包括计算机可执行指令,所述计算机可执行指令在由处理器执行时使所述处理器实现如权利要求1至10中任一项所述的基于扩散模型的家居风格图像生成方法。技术总结本公开涉及一种基于扩散模型的家居风格图像生成方法、设备及存储介质。该方法包括获取第一家居图像,并且基于对第一家居图像的风格需求设置特征信息;将特征信息作为控制条件输入到稳定扩散模型的U‑NET模型进行优化训练,并且使用稳定扩散模型生成一个或多个需求家居图像;以及通过对所述一个或多个需求家居图像进行基于所述风格需求的图像处理,以得到目标家居图像。技术研发人员:徐青松,何涛受保护的技术使用者:杭州睿胜软件有限公司技术研发日:技术公布日:2025/1/6

本文地址:https://www.jishuxx.com/zhuanli/20250110/352250.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。