技术新讯 > 计算推算,计数设备的制造及其应用技术 > 一种基于核变换和掩膜引导归一化全景图像修复方法  >  正文

一种基于核变换和掩膜引导归一化全景图像修复方法

  • 国知局
  • 2024-09-05 15:02:12

本发明属于全景图像修复,具体涉及一种基于核变换和掩膜引导归一化全景图像修复方法。

背景技术:

1、随着视频技术的不断发展,数字图像和视频的传输及显示技术获得了快速的进步,人们对信息类产品不再仅满足于听觉和视觉的简单需求,更希望拥有身临其境的感受和沉浸式的体验,全景图像和视频因此得到了广泛的应用,但如同平面图像一样,全景图像同样会面临损坏、缺陷和失真等情况,如何将全景图像修复到令人满意的程度是一种重要的研究方法,目前应用于平面图像的修复技术难以完成对全景图像的修复。

2、目前图像修复技术主要使用基于生成对抗网络的方法,通过学习大量的图像特征信息,在生成器和鉴别器的迭代训练中得到符合视觉特征的图像,该方法在平面图像中取得了不错的效果。然而,这种方法对于生成图像的内容难以控制,容易出现修复失败的情况,且主要应用对象为平面图像,而全景图像相比平面图像具有更高的分辨率和更多的扭曲,若直接应用在全景图像上,则容易出现图像修复效果差、修复结果包含大量伪影和模糊甚至修复失败的情况,且难以应对全景图像中的扭曲问题。

技术实现思路

1、为解决现有技术的不足,实现避免全景图像的大范围扭曲,生成的内容更加可控,修复结果更符合视觉效果的目的,本发明采用如下的技术方案:

2、一种基于核变换和掩膜引导归一化全景图像修复方法,包括如下步骤:

3、步骤一,将全景图像与掩模图进行相应叠加,以获取一对待修复全景图像,并将其分别映射到uv平面;

4、步骤二,对映射后的图像划分网格,将得到的规则网格作为感受野输入卷积核进行特征提取;

5、步骤三,对提取的特征进行roi池化操作,优化网格位置偏移,得到roi特征图;

6、步骤四,对roi特征图采用多头自注意力机制,以学习全景图像中的长程特征信息,用全连接的自注意力模块和位置编码来学习全景图像中的长程特征信息,大部分基于gan的图像生成模型都是使用卷积层构建,卷积层在局部邻域内处理信息,因此单独使用卷积层对于出于图像之间的长程依赖在计算上效率低下;

7、步骤五,将所述一对待修复全景图像在步骤四的输出进行叠加,输入神经网络进行传递,在神经网络的浅层先进行批归一化,在神经网络的深层使用层归一化,通过掩膜引导归一化操作,结合遮挡区域的特征对区域进行归一化,在计算归一化统计量时,将掩膜应用于每个样本的计算过程中,以排除无效区域的影响,得到掩膜引导归一化后的特征图;相较于简单使用批归一化或者层归一化,使用掩膜引导归一化具有更好的灵活性,可以对归一化过程进行自适应调整,灵活指示哪些样本或特征应该参与归一化过程,同时对于输入数据存在缺失的情况,掩膜引导归一化可以通过忽略缺失值的计算或将其视为无效样本,从而更好地处理缺失数据的情况,这有助于提高模型在存在缺失值的情况下的鲁棒性;

8、步骤六,由于在上述步骤中使用了核变换模块,这是一种类似卷积核动态变换的方式,用于应对全景图像中画面扭曲拉伸方面具有突出表现,与此同时也会带来感受野扩大的情况,针对大感受野,基于掩膜引导归一化后的特征图得到修复的全景图像,将修复的全景图像作为预测图像,与真实图像进行比较,通过针对性修改后的损失函数,训练全景图像的修复过程。

9、进一步地,所述步骤一包括如下步骤:

10、步骤1.1,将全景图像x和掩模图叠加,得到待修复全景图像x′,将全景图像和掩模图随机旋转一定角度后叠加,得到的待修复全景图像

11、步骤1.2,uv平面上的点坐标对应于待修复全景图像上的球面像素点集合坐标:

12、

13、其中,θm,n表示uv平面上像素点pm,n映射到球形图像上的方位角,φm,n表示uv平面上像素点pm,n映射到球形图像上俯仰角,θm,n、φm,n共同表示pm,n映射到球形图像上像素点坐标,pm,n表示uv平面上的像素点,m、n表示uv平面上的宽、高坐标,w、h分别表示uv平面的宽和高。

14、进一步地,所述步骤二包括如下步骤:

15、步骤2.1,将映射后的图像输入核变换模块,以球面上一个像素点作为切入点,取切点周围球面上一圈像素点,由于微分的原理可以近似为球面上的切平面,在切平面上有规律的划分网格g,使切点作为网格的原点对网格g中每一部分确定坐标,规则网格g的偏移量为{△pn|n=1,…,n},n=|g|,n表示将规则网格g划分成n份小网格,|g|表示划分过程在整个规则网格g中进行,不会超出规则网格g的范围,将整个网格g作为感受野输入到卷积核中,对规则网格g进行采样,按w加权的采样值进行求和,对于任意位置切点pi,输出的特征图f(pi);

16、步骤2.2,为了实现准确的采样,本发明使用双线性插值方法对具体采样位置进行处理,f(pi)被分解成两个维度,分别得到dh和dv两个一维内核。

17、由于全景图像具有高像素值和大量扭曲的特点,使用普通的卷积操作提取到的图像特征信息十分有限,难以完成对全景图像的特征提取任务,从而难以实现后续的修复任务,本发明将普通的卷积替换成核变换模块,可以更好的适应全景图像存在大量扭曲的特点,让修复结果更加合理,鲁棒性更好。

18、进一步地,所述步骤2.1中输出的特征图f(pi)为:

19、

20、其中,x(·)表示待提取特征的区域,w(pi)表示切点pi的加权参数,pn表示离散的整数位置,而δpn是相对于pn的小数偏移量,这里的偏移△pn通常是一个小数值,表示相对于pn的微小位移。

21、进一步地,所述步骤2.2中,两个一维内核如下:

22、

23、g(a,b)=max(0,1-|a-b|)

24、其中,k表示一个任意的分数位置,由p0、pn和△pn组成,其中,p0表示初始位置,pn表示离散的整数位置,而δpn是相对于pn的小数偏移量,在水平方向上,通过一维内核dh考虑水平位置kh和水平小数偏移量ph对插值结果的影响,在垂直方向上,通过一维内核dv考虑垂直位置kv和垂直小数偏移量pv对插值结果的影响,g(a,b)表示基于参数a、b取相应的最大值操作,a和b分别代表kh和ph,或kv和pv,提取到的不用维度的特征信息作为步骤三的输入。

25、进一步地,所述步骤三中,roi池化与核变换配合设置,将h*w的网格划分成h*w的roi子窗口,再将每个子窗口的值最大池化到相应的输出网格单元中,其中,roi池化分为上下两个分支;上分支中,特征图经3*3卷积操作后输入roi池化层,roi池化单独应用于每个特征图的通道,用于获取归一化的偏移量下分支中,特征图经过3*3卷积操作后与上分支的输出进行一个逐通道乘操作,得到真实偏移量△pi,j,最后经3*3反卷积操作后输出roi特征图。

26、进一步地,所述步骤四中,图像特征信息首先被变换到两个结构相同的特征空间f、g,便于后续的转置和乘积操作,对每个空间逐通道计算注意力:

27、f(x)=wfx,g(x)=wgx

28、

29、其中,xi表示特征空间的第i区域,xj表示特征空间的第j区域,tij表示特征空间f中i区域的转置乘以特征空间g中的j区域,fj,i表示在合成第j个区域时多头自注意力模块关注第i区域的程度,c表示通道数,l表示前一个隐藏层特征的特征位置数,注意力层的输出为o={o1,o2,…,oj,…,ol}∈rc*l,其中:

30、

31、h(xi)=whxi

32、其中,h(xi)表示特征空间中i区域乘以wh参数的结果,v.fj,ih(xi)/表示特征空间中i区域乘以wv参数的结果,wg∈rc*c,wf∈rc*c,wh∈rc*c,wv∈rc*c均为学习到的权重矩阵,他们被实现为1*1卷积,最终输出结果作为下一步掩膜引导归一化的输入。

33、进一步地,所述步骤五中,将所述一对待修复全景图像在步骤四的输出分别作为输入特征图fin和掩模特征图fm,即所述待修复全景图像x′经步骤四输出输入特征图fin,所述待修复全景图像经步骤四输出掩模特征图fm,将掩膜特征图fm叠加到输入特征图fin上得到选择性特征图f′;掩膜中遮挡区域的值为0,由如下公式得到:

34、f′=fin*fm

35、选择性特征图f′在神经网络中传递,在网络的浅层先进行批归一化,在每个批次中对每个特征维度进行归一化,通过减去均值并除以标准差来规范化输入数据得到f′bn,在进入下一阶段前,特征向量基于像素区域进行归一化,必须恢复特征图的删除区域,在神经网络的深层使用层归一化对网络层输出,它不依赖于批次内的统计信息,而是使用每个样本在特定层上的统计信息进行归一化,可以使网络对每个样本的输入更加稳定,有助于处理小批次或单个样本的情况,将掩膜应用于每个样本的计算过程中,以排除无效区域的影响,两阶段的操作得到的掩膜引导归一化后的特征图fmn如下:

36、

37、

38、其中,分别表示特征图f′、fm在(n,c,i,j)处的像素值,n表示规则划分的第n个网格,c表示第c个空间通道,i、j表示像素值的长宽坐标,表示批归一化输出的中间结果,表示层归一化后输出的中间结果,γbn和γln表示尺度参数,βbn和βln表示平移参数,和表示待学习的权重参数,∈用于避免分母为0,μbn、μln和的定义如下所示:

39、

40、其中,ru表示未被掩膜遮挡的区域,由如下公式表示:

41、

42、进一步地,所述步骤六中通过损失函数进行训练,包括高感受野感知损失函数、对抗损失函数和l1损失函数;

43、高感受野感知损失,通过预训练网络评估预测图像和真实图像之间的特征距离,用于比较预测图像和真实图像之间高级特征结构的相似性,定义如下:

44、

45、其中,表示真实图像的特征信息,表示预测图像特征信息,img表示真实图像,表示预测图像,n表示图像特征的数量;

46、对抗损失的定义如下:

47、

48、其中,eimg[]表示图像的期望函数,eimg,m[]表示图像掩模的期望函数,⊙表示逐元素相乘,d()表示图像的方差函数,m表示掩膜;

49、l1损失的定义如下:

50、

51、总体的损失函数定义如下:

52、ltotal=l1+λplp+λadvladv

53、其中,λp表示高感受野感知损失的系数,λadv表示对抗损失的系数。

54、本发明的优势和有益效果在于:

55、本发明的一种基于核变换和掩膜引导归一化全景图像修复方法,通过将普通的卷积替换成核变换模块,可以更好的适应全景图像存在大量扭曲的特点,让修复结果更加合理,鲁棒性更好;通过用全连接的自注意力模块和位置编码来学习全景图像中的长程特征信息;通过掩膜引导归一化,对归一化过程进行自适应调整,灵活指示哪些样本或特征应该参与归一化过程,同时对于输入数据存在缺失的情况,掩膜引导归一化可以通过忽略缺失值的计算或将其视为无效样本,从而更好地处理缺失数据的情况,这有助于提高模型在存在缺失值的情况下的鲁棒性。

本文地址:https://www.jishuxx.com/zhuanli/20240905/289147.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。