一种图像生成方法、设备、介质及计算机程序产品与流程
- 国知局
- 2024-08-22 14:40:59
本发明涉及人工智能,特别涉及一种图像生成方法、设备、介质及计算机程序产品。
背景技术:
1、文生图是aigc(artificial intelligence generated content,生成式人工智能)中十分关键的一个技术,它通过输入一段文字描述,将文字模态信息转化为图像模态展示出来,具有极高的展示效果。
2、文生图模型在应用时比较依赖文本信息的语言特征,如果文本描述中含有非必要信息,则可能会产生不符合要求的图像。通常来说,现有文生图模型会使用黑名单或者采用二分类模型对输入文本进行特征检测,以达到输入符合要求的文本的目的。
3、综上,如何合理检测用户输入文本信息,并自适应的产生符合要求的图像是目前有待解决的问题。
技术实现思路
1、有鉴于此,本发明的目的在于提供一种图像生成方法、设备、介质及计算机程序产品,能够合理检测出用户输入文本中的目标内容,并自适应的产生符合要求的图像。其具体方案如下:
2、第一方面,本技术公开了一种图像生成方法,应用于预设的文生图模型,包括:
3、获取用户输入文本,并利用预设文本编码器对所述用户输入文本进行编码,得到编码向量;所述编码向量为所述预设文本编码器对所述用户输入文本中检测到的目标内容进行移除后生成的向量;
4、将所述编码向量输入至预设的内容嵌入模块,以利用所述内容嵌入模块生成目标文本嵌入特征;所述目标文本嵌入特征为所述内容嵌入模块对所述编码向量中检测到的目标内容进行移除后生成的特征;
5、将所述目标文本嵌入特征输入至预先训练完成的用于抑制目标内容生成的文生图扩散模型,以生成对应的目标图像;
6、利用预先训练完成的二分类判别器判断所述目标图像中是否存在目标内容,并在所述目标图像存在目标内容时对目标内容所在的区域生成掩膜信息,然后基于所述掩膜信息并利用预设图像矫正规则对所述目标图像进行矫正,得到最终输出图像。
7、可选的,所述利用预设文本编码器对所述用户输入文本进行编码,得到编码向量之前,还包括:
8、预先利用目标训练数据和目标损失函数对原始文本编码器进行训练,以得到所述预设文本编码器;
9、其中,所述目标训练数据包括从公开数据集中获取到的第一内容图像和对应的第一文本,以及利用预设文本生成模型基于所述第一文本生成的第二文本和利用预设图像生成模型基于所述第二文本生成的第二内容图像;
10、所述目标损失函数为第一损失函数、第二损失函数、第三损失函数、第四损失函数、第五损失函数、第六损失函数、第七损失函数和第八损失函数的和值;其中,所述第一损失函数基于预设文本编码器、原始视觉编码器、第二文本和第一内容图像构建,所述第二损失函数基于预设视觉编码器、原始文本编码器、第二内容图像和第一文本构建,所述第三损失函数基于预设文本编码器、原始文本编码器、第一文本和第二文本构建,所述第四损失函数基于预设视觉编码器、原始视觉编码器、第一内容图像和第二内容图像构建,所述第五损失函数基于预设文本编码器、原始文本编码器和第一文本构建,所述第六损失函数基于预设视觉编码器、原始视觉编码器和第一内容图像构建,所述第七损失函数基于原始视觉编码器、预设文本编码器、第一文本和第一内容图像构建,所述第八损失函数基于原始文本编码器、预设视觉编码器、第一文本和第一内容图像构建。
11、可选的,所述预设文本生成模型的训练过程包括:
12、确定预先构建的初始模型;所述初始模型的输入为第一文本,所述初始模型的输出为对应的第二文本;
13、利用预设语言模型构造第一文本描述样本和对应的第二文本描述样本作为训练数据,并利用所述训练数据对所述初始模型进行训练得到训练后模型;其中,所述第二文本描述样本为所述预设语言模型基于预设概念池生成的描述样本;
14、基于所述训练数据构造强化学习训练样本,利用所述强化学习训练样本并采用预设强化学习算法对所述训练后模型进行训练,以得到所述预设文本生成模型。
15、可选的,所述基于所述训练数据构造强化学习训练样本,包括:
16、基于预设次数对所述训练数据中的每一第一文本描述样本进行采样,以生成对应的第二文本描述样本集合;
17、基于预设打分机制对所述第二文本描述样本集合中的每一第二文本描述样本进行打分得到对应的目标分数,并对各所述目标分数进行排序得到排序结果;
18、基于所述排序结果,利用第一文本描述样本和所述第二文本描述样本集合构造强化学习训练样本。
19、可选的,所述基于预设打分机制对所述第二文本描述样本集合中的每一第二文本描述样本进行打分得到对应的目标分数,包括:
20、基于二分类模型判断所述第二文本描述样本集合中各第二文本描述样本是否为第二文本,以得到判断结果,并计算所述第二文本描述样本集合中各第二文本描述样本与对应第一文本描述样本之间的语义相似度;
21、基于所述判断结果和所述语义相似度对所述第二文本描述样本集合中的每一第二文本描述样本进行打分得到对应的目标分数。
22、可选的,所述预设打分机制对应的计算表达式为:
23、;
24、式中,为第二文本描述样本对应的目标分数,为第二文本描述样本集合中的第i个第二文本描述样本,为对应的第一文本描述样本,为第二文本描述样本与对应第一文本描述样本之间的语义相似度,为用于判断第二文本描述样本是否为第二文本的二分类模型。
25、可选的,所述基于所述排序结果,利用第一文本描述样本和所述第二文本描述样本集合构造强化学习训练样本,包括:
26、按照排序结果中分数从大到小的顺序选取第一预设数量个第二文本描述样本得到第一样本集合;
27、按照排序结果中分数从小到大的顺序选取第二预设数量个第二文本描述样本得到第二样本集合;
28、基于第一文本描述样本、从所述第一样本集合中随机选取的任一第二文本描述样本、从第二样本集合中随机选取的任一第二文本描述样本构造强化学习训练样本。
29、可选的,所述内容嵌入模块包括参数共享矩阵和多层感知器;
30、相应的,所述将所述编码向量输入至预设的内容嵌入模块,以利用所述内容嵌入模块生成目标文本嵌入特征,包括:
31、将所述编码向量与所述参数共享矩阵进行计算,并将计算结果输入至所述多层感知器以生成目标文本嵌入特征;
32、确定预设概念池,并将所述预设概念池中的每一概念对应的编码向量与所述参数共享矩阵进行计算,并将计算结果输入至所述多层感知器以生成对应的概念嵌入特征;
33、计算所述目标文本嵌入特征与各所述概念嵌入特征之间的相似度,并根据相似度计算结果确定所述用户输入文本中是否存在目标内容;
34、若确定所述用户输入文本中存在目标内容,则生成提示信息,以便用户基于所述提示信息重新输入文本;
35、若确定所述用户输入文本中不存在目标内容,则输出所述目标文本嵌入特征,然后执行所述将所述目标文本嵌入特征输入至预先训练完成的用于抑制目标内容生成的文生图扩散模型的步骤。
36、可选的,所述计算所述目标文本嵌入特征与各所述概念嵌入特征之间的相似度,并根据相似度计算结果确定所述用户输入文本中是否存在目标内容,包括:
37、利用余弦相似度算法计算所述目标文本嵌入特征与各所述概念嵌入特征之间的余弦相似度;
38、若所述目标文本嵌入特征与各所述概念嵌入特征之间的余弦相似度均大于预设阈值,则确定所述用户输入文本中存在目标内容,否则确定所述用户输入文本中不存在目标内容。
39、可选的,所述内容嵌入模块的训练过程包括:
40、基于从公开数据集中获取到的第一文本以及利用所述预设文本生成模型基于所述第一文本生成的第二文本构建文本数据对;
41、确定预设概念池,并基于所述文本数据对和从所述预设概念池中选取的任一目标概念构建样本数据对;
42、基于所述样本数据对构建锚点样本、正样本和负样本,并将所述锚点样本、所述正样本和所述负样本分别输入至所述预设文本编码器以得到对应的锚点样本编码向量、正样本编码向量和负样本编码向量;
43、基于所述锚点样本编码向量、所述正样本编码向量和所述负样本编码向量构建度量损失函数,以利用所述度量损失函数对内容嵌入模块进行训练。
44、可选的,所述锚点样本为目标样本数据对中的目标概念;所述正样本为所述目标样本数据对中与目标概念对应的第二文本,所述负样本包括所述目标样本数据对中与目标概念对应的第一文本、其余样本数据对中的第一文本和第二文本。
45、可选的,所述文生图扩散模型的训练过程包括:
46、对所述目标训练数据进行采样以得到采样样本;
47、基于所述采样样本,并利用基于高斯噪声构建的损失函数对所述文生图扩散模型中交叉注意力层的参数进行预设次数的更新训练,得到更新训练后的所述文生图模型。
48、可选的,所述利用预先训练完成的二分类判别器判断所述目标图像中是否存在目标内容,并在所述目标图像存在目标内容时对目标内容所在的区域生成掩膜信息,包括:
49、将所述目标图像沿着垂直方向和水平方向切分为多个图像块;
50、利用预先训练完成的二分类判别器判断各所述图像块中是否存在目标内容,并在所述图像块中存在目标内容时对所述图像块生成区域掩膜;
51、基于所有所述图像块的区域掩膜得到所述目标图像的掩膜信息。
52、可选的,所述利用预先训练完成的二分类判别器判断各所述图像块中是否存在目标内容,并在所述图像块中存在目标内容时对所述图像块生成区域掩膜,包括:
53、针对任一图像块,利用蒙特卡罗方法对所述目标图像进行目标次数的采样处理,以得到相应数量个采样图像;所述采样图像均覆盖所述任一图像块;
54、将所述采样图像输入至预先训练完成的二分类判别器,以确定所述采样图像中存在目标内容的概率;
55、对所述任一图像块对应的所有采样图像的概率进行加权融合,得到所述任一图像块对应的概率热图;
56、对所述概率热图进行二值化处理以生成所述任一图像块对应区域掩膜。
57、可选的,所述基于所述掩膜信息并利用预设图像矫正规则对所述目标图像进行矫正,得到最终输出图像,包括:
58、将所述掩膜信息和所述目标图像输入至预设图像填充模型,以利用所述预设图像填充模型对所述目标图像进行矫正,得到最终输出图像。
59、可选的,所述基于所述掩膜信息并利用预设图像矫正规则对所述目标图像进行矫正,得到最终输出图像,包括:
60、通过预设接口获取用户对所述用户输入文本进行修改后得到的修改文本;
61、将所述修改文本、所述掩膜信息和所述目标图像输入至预设图像填充模型,以利用所述预设图像填充模型对所述目标图像进行矫正,得到最终输出图像。
62、可选的,所述基于所述掩膜信息并利用预设图像矫正规则对所述目标图像进行矫正,得到最终输出图像,包括:
63、利用预设图像内容描述模型对所述目标图像重新进行图像内容描述,以得到描述文本;
64、将所述描述文本、所述掩膜信息和所述目标图像输入至预设图像填充模型,以利用所述预设图像填充模型对所述目标图像进行矫正,得到最终输出图像。
65、第二方面,本技术公开了一种电子设备,包括:
66、存储器,用于保存计算机程序;
67、处理器,用于执行所述计算机程序,以实现前述公开的图像生成方法的步骤。
68、第三方面,本技术公开了一种非易失性存储介质,用于存储计算机程序;其中,所述计算机程序被处理器执行时实现前述公开的图像生成方法的步骤。
69、第四方面,本技术公开了一种计算机程序产品,包括计算机程序/指令,该计算机程序/指令被处理器执行时实现前述公开的图像生成方法的步骤。
70、可见,本技术通过获取用户输入文本,并利用预设文本编码器对所述用户输入文本进行编码,得到编码向量;所述编码向量为所述预设文本编码器对所述用户输入文本中检测到的目标内容进行移除后生成的向量;将所述编码向量输入至预设的内容嵌入模块,以利用所述内容嵌入模块生成目标文本嵌入特征;所述目标文本嵌入特征为所述内容嵌入模块对所述编码向量中检测到的目标内容进行移除后生成的特征;将所述目标文本嵌入特征输入至预先训练完成的用于抑制目标内容生成的文生图扩散模型,以生成对应的目标图像;利用预先训练完成的二分类判别器判断所述目标图像中是否存在目标内容,并在所述目标图像存在目标内容时对目标内容所在的区域生成掩膜信息,然后基于所述掩膜信息并利用预设图像矫正规则对所述目标图像进行矫正,得到最终输出图像。
71、有益效果:本技术在获取到用户输入文本,首先利用预设文本编码器对用户输入文本进行编码,得到编码向量,其中,编码向量为预设文本编码器对用户输入文本中检测到的目标内容进行移除后生成的向量。通过预设文本编码器,能够在生成图像之前,在输入端移除不符合要求的内容。进一步的,本技术将编码向量输入至预设的内容嵌入模块,以利用内容嵌入模块生成目标文本嵌入特征,其中,目标文本嵌入特征为内容嵌入模块对编码向量中检测到的目标内容进行移除后生成的特征,也即,为进一步避免编码向量中仍存在目标内容,本技术还设置了内容嵌入模块,以对编码向量中检测到的目标内容进行移除,得到目标文本嵌入特征。之后则将目标文本嵌入特征输入至预先训练完成的用于抑制目标内容生成的文生图扩散模型,以生成对应的目标图像,也即,在图像生成过程中,文生图扩散模型仍可能会生成包含目标内容的图像,因此本技术预先对文生图扩散模型进行训练,从而使得在图像生成过程中,能够利用训练完成的文生图扩散模型抑制目标内容的生成。在获取到生成的目标图像后,虽然已在一定程度上从文本语义嵌入层面和图像生成层面抑制了目标内容的生成,但仍然会有一定概率生成目标内容,因此本技术先利用预先训练完成的二分类判别器判断目标图像中是否存在目标内容,并在目标图像存在目标内容时对目标内容所在的区域生成掩膜信息,最后基于掩膜信息,利用预设图像矫正规则对目标图像进行矫正,得到最终输出图像,也即本技术先对目标内容所在区域进行判定,再对生成的目标图像进行矫正,从而得到最终输出图像,使得最终输出图像符合要求。如此一来,上述方案能够从图像生成前、图像生成过程中、图像生成后三个阶段避免生成含有目标内容的图像,解决了当前文生图模型在生成图像时缺乏鲁棒性,处理方式不够自主智能的问题。
本文地址:https://www.jishuxx.com/zhuanli/20240822/279477.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表