技术新讯 > 计算推算,计数设备的制造及其应用技术 > 一种文生图模型训练及通过该模型生成目标图像的方法  >  正文

一种文生图模型训练及通过该模型生成目标图像的方法

  • 国知局
  • 2024-11-06 14:56:07

本发明属于网络安全,涉及一种文生图模型训练及通过该模型生成目标图像的方法。背景技术:::1、文生图模型(文本到图像生成模型)的图像生成技术是计算机视觉领域的关键技术。近年来,文生图模型在学术界和工业界均取得了显著的成功,通过输入适当的提示词,这些模型可以生成与提供的描述紧密对齐的图像,表现出高保真度,并标志着人工智能生成内容(aigc)时代的开始。但是,随着文生图模型的广泛应用,与其部署相关的道德和安全影响也越来越突出,一个关键问题指向敏感内容的生成。2、研究表明现有的四种流行模型(stable diffusion,ldm,dall-e 2,dall-e mini)可以生成高达百分之二十比例的不安全图像,同时恶意用户可以利用有害的对抗提示词,来生成特定设计的敏感内容,从而加剧问题和挑战。3、目前的防御策略分为两大类:模型微调和事后内容审核,后者可以进一步细分为基于提示词的审核和基于图像的审核。模型微调的目的是直接消除文生图模型生成的大多数敏感内容,然而,这种方法高度依赖对敏感内容的精确定义,通常会导致模型的生成性能显著下降。事后内容审核通常使用提示词过滤器来识别和删除恶意的提示词,或者使用图像过滤器来分析生成图像并审查敏感元素。与模型微调不同,这些方法避免干扰文生图模型的训练过程,从而保持了生成图像的质量。然而,事后内容审核严重依赖全面的标记数据集,并且在适应新型攻击或识别未见过的敏感内容方面遇到挑战。此外,基于图像的审核方法利用文生图模型的输出作为输入,因此会产生巨大的推理成本。4、数据投毒技术是指利用学习算法或模型训练过程中的漏洞,攻击者将恶意数据注入训练数据集,目的是损害模型的性能或在推理过程中诱发特定行为。但是,利用数据投毒技术也可以达到正向的效果。若对注入的数据精心设计,则可以巧妙地改变模型的决策边界或使其预定结果与攻击者的目标保持一致。5、后门攻击技术是指将隐藏功能秘密集成到模型中,随后由输入的特定数据作为触发器,以执行预定行为。典型的后门攻击方法会更改特定模型的训练数据或过程,以便在触发器与其相应的输出目标之间建立稳健的关联。触发器通常是基本字母或特定符号,仅具有模糊或有限的含义。技术实现思路1、基于以上技术背景,本发明提出了一种文生图模型训练及通过该模型生成目标图像的方法。对于文生图模型生成的图像结果包含大量敏感内容这一问题,采用数据投毒和后门攻击技术,将敏感信息重定向到有针对性的提示词,以防止敏感内容的生成。对于模型微调技术高度依赖对敏感内容的精确定义的问题,采用敏感内容的深层语义信息,替代显式的提示词作为触发器,从而提高鲁棒性。对于现有防御策略训练和推理成本高的问题,仅对文生图模型的文本编码器进行微调,可在一分钟内完成模型的训练。2、本发明的技术方案如下:3、一种文生图模型训练方法,包括:4、以一第一文本编码器和一第二文本编码器建立文本模型,采用敏感内容或具有敏感内容指向的提示词中的深层语义信息作为所述文本模型的触发器;以潜空间扩散模型和图像解码器建立图像模型;5、固定所述第一文本编码器、所述潜空间扩散模型和所述图像解码器的参数并禁用外部过滤机制;6、获取良性提示词数据集、对抗提示词数据集和目标提示词;所述良性提示词数据集内含良性提示词,所述良性提示词为不包含敏感内容且不具有敏感内容指向的句子或词组;所述对抗提示词数据集内含对抗提示词,所述对抗提示词为直接包含敏感内容或具有敏感内容指向的句子或词组;所述目标提示词为指定的可选的不包含敏感内容且不具有敏感内容指向的句子或词组;7、将所述良性提示词数据集输入所述第一文本编码器和所述第二文本编码器得到第一良性文本嵌入和第二良性文本嵌入;将所述目标提示词输入所述第一文本编码器得到目标文本嵌入;将所述良性提示词数据集与所述对抗提示词数据集按设定投毒比例混合后输入所述第二文本编码器得到投毒文本嵌入;8、微调所述第二文本编码器的参数使所述第一良性文本嵌入和所述第二良性文本嵌入之间的损失函数与所述目标文本嵌入和所述投毒文本嵌入之间的损失函数之和趋于最小值,以获得训练好的第二文本编码器,完成文生图模型的训练。9、优选的,所述文本模型采用clip模型,所述图像模型采用stable diffusion模型。10、优选的,所述设定投毒比例中所述对抗提示词数据集占比不小于0.16%。11、优选的,所述损失函数为l总=l良性+γ·l后门,其中:12、良性损失函数为13、后门损失函数为14、t1(y)为第一良性文本嵌入,t2(y)为第二良性文本嵌入,t1(z)为目标文本嵌入,t2(x)为投毒文本嵌入,b和b′为批量大小,y表示良性提示词数据集y中的提示词,x表示良性提示词数据集x中的提示词,d()表示相似性度量,γ表示权重系数。15、优选的,所述相似性度量选择余弦相似度similarity loss或均方误差mse loss或平均绝对误差mae loss或庞加莱损失poincar′e loss。16、优选的,所述γ的取值范围为0.05-0.5。17、优选的,对所述文生图模型进行验证,验证标准为:18、分别输入良性提示词和对抗提示词至训练好的第二文本编码器,均输出不包含敏感内容的图像。19、一种通过文生图模型生成目标图像的方法,包括:20、输入提示词至训练好的第二文本编码器,得到文本嵌入;21、基于上述文本嵌入在潜空间扩散模型中引导随机向量得到目标向量潜空间;22、图像解码器解码目标向量潜空间得到目标图像。23、本发明的有益效果如下:24、在本发明中,训练好的第二文本编码器所在的文生图模型有效消除了生成图像中的敏感内容,采用数据投毒和后门攻击技术,将敏感信息重定向到有针对性的提示词,保证文生图模型生成目标图像过程的内容安全性。同时,本文生图模型不依赖对敏感内容的精确定义,而是采用敏感内容或具有敏感内容指向的提示词中的深层语义信息作为触发器,使得文生图模型可以学习到其中深层语义信息,因此本发明的文生图模型具有较高的鲁棒性。本发明仅通过微调即可实现训练第二文本编码器,具有极低的训练成本和高效的训练速度,能够实用的部署在实际生产环境中,保证文生图模型应用过程的隐私和安全,保障涉及敏感信息的图像不被生成和传播,维持社会安全和稳定,具有很高的实际应用价值。技术特征:1.一种文生图模型训练方法,包括:2.根据权利要求1所述的方法,其特征在于,所述文本模型采用clip模型,所述图像模型采用stable diffusion模型。3.根据权利要求1所述的方法,其特征在于,所述设定投毒比例中所述对抗提示词数据集占比不小于0.16%。4.根据权利要求1所述的方法,其特征在于,所述损失函数为l总=l良性+γ·l后门,其中:良性损失函数为5.根据权利要求4所述的方法,其特征在于,所述相似性度量选择余弦相似度similarity loss,或均方误差mse loss,或平均绝对误差mae loss,或庞加莱损失poincar′e loss。6.根据权利要求4所述的方法,其特征在于,所述γ的取值范围为0.05-0.5。7.根据权利要求1所述的方法,其特征在于,对所述文生图模型进行验证,验证标准为:8.一种通过文生图模型生成目标图像的方法,包括:9.一种电子装置,包括存储器和处理器,所述存储器存储计算机程序,所述计算机程序被配置为由所述处理器执行,所述计算机程序包括用于执行权利要求1~8中任一项所述方法的指令。10.一种存储介质,存储计算机程序,所述计算机程序被计算机执行时,实现权利要求1~8中任一项所述的方法。技术总结本发明公开了一种文生图模型训练及通过该模型生成目标图像的方法,属于网络安全技术领域::。以第一文本编码器和第二文本编码器建立文本模型,以潜空间扩散模型和图像解码器建立图像模型;获取良性提示词数据集、对抗提示词数据集和目标提示词;利用数据投毒技术和后门攻击技术微调文本嵌入之间的损失函数,以完成文生图模型的训练。本发明有效消除了文生图模型生成的图像中的敏感内容,保证文生图模型生成目标图像过程的内容安全性和鲁棒性,保障涉及敏感信息的图像不被生成和传播。技术研发人员:陈小军,赵鑫,王哲,赵振东,陈旭东,玄悦欣受保护的技术使用者:中国科学院信息工程研究所技术研发日:技术公布日:2024/11/4

本文地址:https://www.jishuxx.com/zhuanli/20241106/324711.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。