技术新讯 > 电子通信装置的制造及其应用技术 > 基于自监督预训练大模型的高动态范围成像方法  >  正文

基于自监督预训练大模型的高动态范围成像方法

  • 国知局
  • 2024-10-09 14:36:02

本发明属于计算机视觉图像,尤其涉及一种基于自监督预训练大模型的高动态范围成像方法。

背景技术:

1、受硬件条件的限制,传统的摄像设备能够捕获的图像动态范围有限,当需要处理自然世界场景中的全范围光照时,往往不能提供质量合理的图像,会出现欠曝和过曝区域的信息丢失问题。而当前出现的专门用于拍摄高曝光范围图像的硬件总是过于昂贵从而难以被广泛使用。

2、为了避免高昂的高动态范围硬件花销,采用技术方法来捕捉高动态范围场景的研究引起了广泛关注。当前存在单曝光修复和多曝光合成的两种思路,其中多曝光合成的思路能通过不同曝光下的场景信息获取更多场景细节然后合成更加真实准确的高动态范围图像。

3、传统方法一般有两种:第一种是运动拒绝,它假设低动态范围图像中只有少量像素产生运动,而大部分像素为静态,此时将图像中所有像素进行配准,将未对齐区域用参考图像的像素或周围的静态像素来替换,再融合已对齐的部分即可产生高动态范围图像;第二种方法是运动配准,对齐低动态范围图像和相应参考图像然后融合对齐部分即可。但传统方法通常存在信息不足而成像性能不佳或产生鬼影的问题。

4、而深度学习方法能够保留信息并减少鬼影的产生,更好地应对显著运动问题。同时深度学习方法能够利用既有的先验信息引导网络关注指定的低动态范围图像信息。

5、由于通常高动态范围成像任务的常用数据量较小,经其训练的多数现有网络与方法对于通用图像的结构和含义难以达到很好的理解,从而无法产生泛化性强的图像特征。而经过大规模图像数据集训练的大模型能够获取这样的图像先验信息,产生优质的、可用于广泛下游场景的通用图像特征。

技术实现思路

1、为了克服现有高动态范围成像技术中存在的问题,本发明设计了一种基于自监督预训练大模型的方法,能够很好地利用大规模图像数据集提供的先验来指出鬼影可能发生区域的分割信息,提取图像通用特征,为后续进行鬼影的消除提供基础。

2、为了实现上述目的,本发明的技术方案如下:

3、一种基于自监督预训练大模型的高动态范围成像方法,包括以下步骤:

4、1)从互联网通过爬取、筛选等方式获取大规模数据集,并使用公开多模态预训练大模型得到其特征表示然后经去重处理得到预训练数据集,随后采用公开的自监督大模型预训练方法对通用的视觉大模型骨架进行预训练,并加上用于图像分割任务的公开预训练投影头;

5、2)hdr(high dynamic range,高动态范围)成像任务数据集中包含若干场景,每个场景含一组x张不同曝光的图像,选取中等曝光值作为参考图像。

6、3)将每组x个ldr(low dynamic range,低动态范围)图像经过所述步骤1中训练好的大模型骨架和公开分割头,得到含分割信息的图像,然后将所述步骤2中的参考图像和其他x-1张图像的分割结果分别进行比较,生成渐变消失权重掩码并叠加以进行掩膜预对齐,得到预对齐图像后使其分别经过伽马(gamma)映射公式转换至hdr域并与原本的预对齐图像拼接在一起,然后将其切分为多组图像子块并经过一个m×n卷积层得到x个初始浅层特征,再次经过大模型骨架提取得到预对齐特征;

7、4)将所述步骤3中得到的赋权特征输入sfcnet(semantic fusion correctionnetwork,语义融合校正网络),通过交叉注意力对各曝光的赋权特征进行融合,并以参考图像赋权特征为准进行校正和强化,得到去鬼影中间特征;

8、5)将参考图像的初始特征经过m×n卷积跳连到去鬼影中间特征,得到参考图像强化过的强化特征;

9、6)将强化特征作为输入,通过上采样层和归一化函数,以对去鬼影图像进行高质量重建,得到无鬼影的hdr图像;

10、7)构建hdr去鬼影数据集;输入ldr图像至基于自监督预训练大模型的hdr成像模型,得到网络输出;损失函数为特征空间感知(lpips)损失和平均绝对(l1)损失加权组合而成,以此来监督网络的训练过程,优化模型参数;

11、8)获取待合成的三张低动态范围图像,输入模型并得到最终的无鬼影hdr图像。

12、根据上述的基于自监督预训练大模型的高动态范围成像方法,其特征在于,所述步骤1的具体细节包括以下内容:

13、(1)、通过爬虫和对公开数据源进行筛选等方式收集海量包含各种场景和物体的图像数据,并将其全部通过vgg16特征提取模型进行图像特征表示,对所得特征计算余弦相似度,过滤掉其中余弦相似度高于一定值的图像,从而实现去重,得到大规模预训练数据集。其中,vgg16是经典的图像特征提取网络,特征值的大小和分布能够一定程度上体现图像的相似性,而余弦相似度越高则图像越相似,为了提高大规模预训练数据集质量,采用此方法进行去重。所述余弦相似性公式如下:其中a和b是两个待比较的n维图像特征向量,a∈t且b∈t,cosθ表示该两向量之间的余弦相似度值;

14、(2)、使用所述步骤(1)中的大规模预训练数据集和选定一个通用视觉大模型骨架,采用公开的自监督大模型预训练方法,来对大模型骨架进行训练,即将无标签图像通过不同尺度的切分后分别输入教师和学生网络,然后训练并同时进行蒸馏,加上预训练好的分割头,最终得到训练好的大模型权重并冻住。在一种较为推荐的实施例中,所选取的自监督大模型训练方法为dino方法(self-distillation with no labels,无监督自蒸馏),所选取通用视觉大模型为vit-s/8。因为该自监督预训练方法能够使大模型在大量优质的含有丰富内容场景及其语义信息的数据集上进行无需监督信息的预训练后,具有学习通用视觉特征的能力,通过该预训练好的视觉大模型提取到的特征具有更关注可能发生显著运动的物体或个体的特点,从而便于sfcnet模块进行分析和融合。

15、根据上述的基于自监督预训练大模型的高动态范围成像方法,其特征在于,所述步骤3的具体细节包括如下内容:

16、(1)、将步骤2中得到的x张ldr图像输入预训练大模型并输出对应的x个分割结果,将参考图像的分割结果与其他x-1个图像分割结果相比较,其中分割后非参考图像中相同位置却属于不同类别的区域代表的是由于不同曝光图像拍摄时间不同、相较参考图像发生运动且可能产生鬼影的区域,该区域往往是容易产生运动的人物、动物或物体,能够被预训练大模型轻易识别和分割。因此对于这部分区域,生成渐变消失权重掩码,并消减弱化错误的非参考内容、叠加强化正确的参考内容,由此得到预对齐图像。其中渐变消失权重掩码由每个像素与参考图像正确分类实例的像素间的最短距离计算得到,用于根据运动程度减少非参考图像发生显著运动区域的原始权重,然后按该权重叠加参考图像相同区域的内容。渐变消失权重掩码的具体计算公式为:maskδx,δy是任一不对齐像素根据与其最近正确属性实例点的距离产生的掩码值。在一种可能的实施例中,σ=0.5。

17、(2)、将一组x个预对齐图像经过gamma映射公式转换至hdr域,并分别与各自原本的图像进行拼接。将拼接好的预对齐图像分别切分成多个s×t的子块,其中不同曝光的图像中相同位置的子块为一小组,为了减轻训练时的计算量,后续的特征提取操作、融合重建和计算损失都在一个小组的基础上进行。使一个小组x个不同曝光子块经过一个m×n卷积层得到浅层特征,然后再次输入预训练大模型,经过大模型骨架后即提取得到预对齐特征作为输出,随后将预对齐特征进行拼接。预对齐后的图像大幅减少了鬼影产生的可能,再次经过预训练大模型即可提取产生优质的特征,用于在不同曝光之间进行以参考图像为准的信息融合。

18、根据上述的基于自监督预训练大模型的高动态范围成像方法,其特征在于,上述步骤(1)的具体细节包括如下内容:

19、①对于步骤2获得的浅层特征,首先将其输入预训练完成的大模型,经过模型骨架与分割头输出其分割出的物体属性与对应的像素位置。这些被分割出的物体实例的部分,就是最有可能因为发生运动进而导致多曝光融合产生鬼影的区域,因此它们是后续进行预对齐的处理对象。

20、②考虑参考图像与非参考图像被标注的像素位置的物体属性,对于任一个非参考图像,首先检查该图分割给出的所有属性实例是否出现在参考图像中,所有未出现的实例叠加(100-m)%消去掩码,再从参考图像取相同位置内容并叠加(100-n)%强化掩码然后添加到该非参考图像上;然后检查参考图像中是否存在分割属性实例未出现在该图像中,将这些实例所对应到非参考图像上的位置和内容叠加(100-m)%消去掩码,再取该实例内容叠加(100-n)%强化掩码然后添加到非参考图像上。

21、③考虑参考图像与非参考图像被标注的像素位置的物体属性,对于任一个非参考图像,其中已在参考图像中出现的具有相同属性的实例,需要比较得出它们非对齐的位置信息,标记其中非参考图像的实例不对齐像素为一类像素,参考图像的实例不对齐像素为二类像素。然后为一类像素叠加消去的渐变消失权重掩码,公式如下:lb=lb*(mask1-maskδx,δy((xbk,ybk)||(xak,yak))),其中因为越是远离正确对齐区域的像素,其消去意图就越是明确;为二类像素叠加强化的渐变消失权重掩码,公式如下:lb=lb+la*maskδx,δy((xbk,ybk)||(xak,yak)),其中因为越是远离对齐区域的像素,就越要保留下来为非参考图像进行辅正。

22、④考虑参考图像与非参考图像被标注的像素位置的物体属性,对于参考图像,由于它就是对齐的目标,掩码始终全为1,保留原图信息与细节内容不变。

23、根据上述的基于自监督预训练大模型的高动态范围成像方法,其特征在于,所述步骤4的具体细节包括以下内容:

24、所述sfcnet模块将一个完成拼接的图像特征作为输入,以中间曝光作为参考图像,不断对比x张不同曝光之间的语义差异性,强化参考图像的语义,防止伪影的产生;同时将另外两个曝光图像中的信息作为参考图像的补充,从而保留hdr曝光范围内的信息量。sfcnet模块包含mlp层(multi-layer perceptron,多层感知机),layer1层、layer2层、layer3层、layer4层、layer5层、layer6层、layer7层、layer8层和output层。

25、所述layer1~8层均为sab块(semantic attention block,语义注意力)。

26、根据上述的基于自监督预训练大模型的高动态范围成像方法,其特征在于,所述sab模块包含:一个划分层,用于按照步骤3的(2)所述的拼接过程的逆操作,将输入特征等分为对应输入图像的不同曝光的x个特征;后接一个浅层特征强化层,用以对预对齐后提取到的特征中的信息加以约束;然后以参考图像特征为问询,构建交叉注意力层,使不同曝光间信息开始融合,并以参考图像为准实行校正;后接一个拼接操作,和一个mlp层用以特征变换。

27、根据上述的基于自监督预训练大模型的高动态范围成像方法,其特征在于,所述步骤6的具体细节包括以下内容:

28、所述高质量重建包含一个卷积层和一个激活函数,其中所述卷积层将图像特征从embedding(嵌入)维度转回输入通道数,随后归一化函数将色彩值范围约束到hdr图像常见的(0,1)范围内。在一种较为建议的实施例中,所述激活函数选取为sigmoid函数,因为该函数的值域符合(0,1)的范围。

29、本发明的特点:

30、与现有技术相比,本发明有以下特点和有益效果:本发明能够很好地利用海量图像信息的先验知识,提取出具有优质语义的通用图像特征,摆脱下游任务专用小数据集的体量对可学习信息的限制,并且能够利用大模型提供的图像分割先验降低显著运动区域非参考图像的权重,从而减少鬼影的产生,再经过语义分析和融合校正后便于更好地发现其中的鬼影成分并进行去除。利用自监督预训练大模型,本发明能够从ldr图像中生成更优质且无鬼影的hdr图像。

本文地址:https://www.jishuxx.com/zhuanli/20241009/305807.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。