为特定的等变训练扩散模型的制作方法
- 国知局
- 2024-10-21 14:26:38
本发明涉及将有噪输入处理成逼真图像的扩散模型。
背景技术:
1、对于图像分类器的有监督训练,需要用“基础真值(ground truth)”标注的大量训练图像。对训练图像进行标注通常是手动过程,并且因此昂贵。此外,对于一些情形,仅存在太少的训练图像。例如,为了训练处理交通情形的分类器,难以安全地上演涉及行人的接近碰撞的情形。
2、因此,已经探索了许多数据增强方法。数据增强从具有已知语义内容并因此具有已知“基础真值”标签的给定图像生成具有基本相同内容的修改图像,使得现有“基础真值”标签对于修改图像保持有效。
3、最近,已经出现了基于扩散模型的图像生成器。这种扩散模型接受有噪输入,并在多个阶段中对其进行去噪,以生成逼真图像。虽然输入可以是已经向其添加了噪声的逼真图像,以便给予扩散模型某种引导,但对最终输出的语义内容的控制仍然有限。
技术实现思路
1、本发明提供了一种用于训练扩散模型的方法。该扩散模型被配置成从至少包括噪声样本∈的输入图像i生成去噪的输出图像o。特别地,输入图像i可以仅由噪声样本∈组成。但是输入图像i也可以例如是任意图像和噪声样本∈的叠加(诸如加法叠加)。特别地,这种叠加可以在逐步消除任意图像中的信息的几个阶段的马尔可夫链中执行。
2、在该方法的过程中,提供了噪声的训练样本∈。例如,这些噪声样本∈可以从给定的分布中随机抽取。此外,提供了训练图像x*。
3、训练的目标是使扩散模型相对于至少一个变换t是等变的。因此,提供了这样的变换t。变换t接受图像i,并将其映射到经变换的图像。扩散模型相对于该变换t的等变意味着,如果变换t应用于扩散模型的输入i,则这引起的扩散模型输出o的改变是可预测的。
4、为了在这个方向上移动扩散模型的训练,将每个噪声样本∈应用于一个或多个训练图像x*,从而获得有噪图像xt。如之前所讨论的,这可以在几个阶段中逐渐发生。
5、然后将变换t应用于有噪图像xt。这产生了用于待训练的扩散模型的输入i=t(xt)。根据该输入,待训练的扩散模型生成输出o。像添有噪声∈一样,该去噪也可以在几个阶段的马尔可夫链中执行。替代于此或与此相组合地,在将变换t应用于训练图像x*以形成有噪图像xt之前,也可以将变换t应用于噪声样本∈。为了简单起见,变换的结果在两种情况下都将被视为有噪图像xt的变换t(xt)。
6、基于变换t和噪声样本∈,计算待训练的扩散模型的预期输出o#。该预期输出o#表示将变换t应用于待训练的扩散模型的输入i应当对该扩散模型的输出o引起的可预测改变。
7、输出o与预期输出o#的偏差借助于预定的损失函数l来评级。表征待训练的扩散模型的行为的参数朝着以下目标进行优化:当处理噪声的另外的训练样本∈时,损失函数l的值改善。
8、以这种方式,扩散模型朝着以下目标进行训练:对其输入i应用变换t引起对其输出o的可预测改变。这进而允许使用合适的变换t对输入i进行有意的编辑,以便对输出o引起期望的改变。在这方面,输入i的空间可以被视为适合于进行编辑的隐空间,有点类似于卷积神经网络从图像产生的特征图。主要区别在于,当前隐空间与输出图像o的空间是像素对齐的。特别地,扩散模型可以被训练为相对于多个变换t是等变的,该多个变换t形成用于对输出图像o进行期望的改变的“工具箱”。
9、通过允许对给定图像中的特定区域进行重新采样,像素对齐的隐变量i具有实现细粒度图像控制的潜力。通过相对于使用特定变换t的编辑的等变,例如,可以强制对隐变量i进行局部重新采样应该导致输出o中外观方面的局部改变。类似地,四处移动对应于特定对象的局部片段应该在改变其位置的同时保留该对象的外观。
10、在特别有利的实施例中,损失函数l还测量输出o与噪声样本∈的偏差。预测噪声样本∈是用于训练扩散模型的标准目标。与此相组合,新引入的等变目标成为正则化项。也就是说,如果没有变换t应用于输入i,则扩散模型在训练后完全以标准方式起作用,但是在此之上,而如果应用了变换t,则输出o是给定变换t的性质所预期的内容。
11、在损失函数l中,两个目标可以以任何合适的方式相对于彼此进行加权。特别地,在训练期间,可以根据退火进度表(annealing schedule)而变化以下各项之间的加权
12、·一方面,输出o与预期输出o#的偏差,和
13、·另一方面,输出o与噪声样本∈的偏差。
14、以这种方式,可以促进朝着两个目标的收敛。
15、在一个示例中,退火进度表包括逐渐将权重朝着输出o与预期输出o#的偏差转移。也就是说,在训练的开始时,更重要的是扩散模型的行为符合标准行为,即准确预测噪声样本∈。一旦训练在这方面已经取得进展,就可以逐渐引入等变的目标。
16、在特别有利的实施例中,变换t被应用于噪声样本∈,从而获得经变换的噪声样本t(∈)作为预期输出o#。以这种方式,扩散网络朝着以下等变进行训练:其通过变换t修改输入i引起输出o的对应修改。
17、可以用于目标图像编辑的变换t的示例包括:
18、·水平或垂直翻转待变换图像i;
19、·旋转待变换图像i;
20、·缩放待变换图像i;和
21、·对待变换图像i中的特定感兴趣区域选择性地应用至少一个编辑步骤。
22、特别地,对于后者,在扩散模型的输入i和输出o之间的像素对齐是有利的。
23、在另外的特别有利的实施例中,要选择性地应用的编辑步骤包括以下各项中的一个或多个:
24、·将感兴趣区域的内容移动到待变换图像i中的另一位置;和
25、·向感兴趣区域应用光流场。
26、这些编辑步骤对于生成仍然具有相同语义内容的图像变体最有用,这意味着分配给原始图像的“基础真值”标签对于新图像仍然有效。例如,如果对应于对象的区域的内容被移动到图像中的另一位置,则图像仍然包含相同的对象。此外,通过将光流场应用于与对象对应的区域,对象(诸如面部)的外观可能改变,但对象仍将保持相同。特别地,应用光流场可以用来改变图像中人的表观姿态。在没有用于等变的训练的情况下,如果面部的输入图像叠加有噪声∈,并且对应于面部的区域被平移到不同的位置(或者通过应用光流场而变形)以形成用于在面部数据集上训练的扩散模型的输入i,则扩散模型的输出o可能示出完全不同的面部。
27、因此,本发明还提供了一种用于编辑至少一个图像x的方法。
28、在该方法的过程中,提供了经训练的扩散模型以及将图像i映射到经变换的图像t(i)的变换t。该经训练的扩散模型相对于变换t是等变的。特别地,经训练的扩散模型可以是已经根据上述方法训练的模型。
29、噪声样本∈是从给定的分布中随机抽取的。将该噪声样本应用于图像x,从而获得有噪图像xt。
30、将变换t应用于有噪图像xt。这产生了用于经训练的扩散模型的输入i。替代于此或与此相组合地,在将变换t应用于图像x以形成有噪图像xt之前,也可以将变换t应用于噪声样本∈。为了简单起见,变换的结果在两种情况下都将被视为有噪图像xt的变换t(xt),并用作用于经训练的扩散模型的输入i。
31、根据该输入i,经训练的扩散模型生成输出o作为编辑的结果。
32、如之前所讨论的,应用变换t(经训练的扩散模型相对于该变换t具有已知的等变)引起编辑对图像x的语义内容具有可控的影响。特别地,可以选择变换t以使图像x的语义内容不变,或者对该语义内容应用明确定义的改变。
33、在特别有利的实施例中,噪声样本∈至多以如下强度被应用于图像x:根据给定的标准,该强度仍使给定的内容在有噪图像xt中可识别。以这种方式,鼓励扩散网络保留原始图像x的更多语义内容。
34、在另外的特别有利的实施例中,图像x包括道路交通情形,并且变换t包括道路交通情形中的至少一个对象的重新布置。以这种方式,可以创建仅很少发生和/或太难或太危险而无法上演的道路交通情形的看起来逼真的图像。例如,通过将变换t应用于有噪图像xt,在原始图像x中恰当地行走在道路的人行道上的行人可以移动到正在靠近的车辆前面。这是非常危险的情形,其不能在公共道路交通中上演。尽管如此,这种情形的训练图像对于训练用于道路交通情形的图像分类器是需要的,使得经训练的图像分类器能够正确地识别它们。
35、在另外的有利的实施例中,图像x取自图像序列,该图像序列包括图像之间至少一个对象的运动。变换t包括将该运动应用于有噪图像xt或其一部分。以这种方式,从图像序列中提取的运动可以被传递到从图像x生成的输出图像o,而以其他方式使图像x的语义内容完整。例如,可以生成输出图像o的序列,其示出了以与原始图像x中相同的方式移动的不同或修改的对象。该序列然后将是时间一致的。也就是说,该序列的一帧和下一帧之间的改变将可由运动来解释,但不会存在突然和意外的改变,诸如一个对象突然被另一个对象取代。
36、如之前所讨论的,在隐空间中利用变换t进行图像编辑的优点是存在对图像的语义内容是否改变以及如何改变的更好的控制。如果原始图像x相对于神经网络的训练用基础真值标签来标注,则已知的等变然后允许确定用于输出图像o的基础真值标签。因此,在另外的特别有利的实施例中,该方法进一步包括:
37、·根据对于图像x和变换t已知的基础真值标签gx,相对于待训练的神经网络的任务确定输出o的基础真值标签go;和
38、·使用输出o和基础真值标签go以有监督的方式训练待训练的神经网络。
39、特别地,待训练的神经网络可以是图像分类器。这种图像分类器概括未见情形的能力取决于在训练图像的数据集中足够的可变性。
40、方法可以是全部或部分地计算机实现的并体现在软件中。因此,本发明还涉及一种具有机器可读指令的计算机程序,该机器可读指令当由一个或多个计算机和/或计算实例执行时引起一个或多个计算机和/或计算实例执行方法。本文中,用于车辆或机器人的控制单元以及能够执行机器可读指令的其他嵌入式系统也要被视为计算机。计算实例包括虚拟机、容器、或准许在云中执行机器可读指令的其他执行环境。
41、非暂时性存储介质和/或下载产品可以包括计算机程序。下载产品是一种电子产品,其可以在线销售并通过网络传递,以便立即履行。一个或多个计算机和/或计算实例可以配备有所述计算机程序和/或配备有所述非暂时性存储介质和/或下载产品。
42、在下文中,将使用附图来描述本发明,而没有限制本发明范围的任何意图。
本文地址:https://www.jishuxx.com/zhuanli/20241021/318174.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表