一种基于自适应层实例归一化GAN的演唱会拍摄方法与流程

2022-02-19 23:46:13 来源：中国专利 TAG：

一种基于自适应层实例归一化gan的演唱会拍摄方法
技术领域
1.本发明涉及无监督机器学习的人工智能算法领域，具体涉及一种基于自适应层实例归一化gan的演唱会拍摄方法。

背景技术：

2.大型演唱会相较于眼镜式框架式演出舞台，常常设计种类繁多、总数庞大的灯具来呈现氛围感极佳的音乐现场，除了常规的观众灯、回光灯以及叠加效果的激光灯、led灯以外，还会布置摇头图案灯、染色灯来打光束和调焦。根据自动控制系统命令，灯具会伴随歌曲的节奏感做上、下、左、右、转动、交叉式等姿势的改变，自我调节粗细和亮度，展现演出和故事情节所必须的灯光明暗交界线、高低、颜色、图样等变化，相比于较亮的舞台，观众席往往处于较暗的环境中。好的灯光效果为大型演唱会建立了牢靠的硬件条件，烘托了舞美，衬托了氛围，但是变化不定的舞台灯光会造成局部强烈的照度，而舞台后区仍然光线不足，给现场拍摄带来了一定的挑战性。在现场拍摄过程中，由于舞台某个瞬间的光线不足或者逆光拍摄常常导致曝光现象，甚至出现“大黑脸”的情况，或者由于机顶闪光灯太过生硬、光圈镜头使用不当、演唱者舞步跳脱，增加了图像的噪声和曝光量，让测光点之外的区域形成过曝或者欠曝。在演唱会现场的拍摄无法补光、相机参数也无法调整的情况下，后期就只能调整优化曝光量、高光、阴影、对比度等，过程繁琐且效果差强人意。

技术实现要素：

3.本发明的目的在于提供一种基于自适应层实例归一化gan的演唱会拍摄方法，来解决演唱会现场拍摄的影像由于光线问题出现的过曝、欠曝问题。首先图像经过下采样模块、残差块，得到编码后的特征图；然后编码后的特征图分两路，一路通过辅助分类器，得到包含每个特征图的权重信息，该权重与另外一路编码后的特征图相乘，得到有注意力的特征图；接着注意力特征图依然分两路，一路经过1
×
1卷积和激活函数层得到a1...an特征图，并通过全连接层得到解码器中adaptive layer
‑
instance normalization层的gamma和beta，另外一路作为解码器的输入，经过一个自适应的残差块(含有adaptive layer
‑
instance normalization)以及上采样模块得到生成结果。其中解码器的残差网络部分用adailn，upsample上采样部分用iln，iln中的所有超参数是可学习的，同样的attention操作作用于判别器。
4.为实现上述目的，本发明的技术方案是：一种基于自适应层实例归一化gan的演唱会拍摄方法，包括如下步骤：
5.步骤s1、分别采集演唱会舞台现场处于两种曝光强度下的、成像效果差的图像和视频数据集；
6.步骤s2、搭建自适应层实例归一化的无监督生成对抗网络ugatit网络模型，确定模型参数，神经网络的损失函数，将模型性能优化至最佳；
7.步骤s3、根据训练结果，优化ugatit网络模型，减小冗余度；
8.步骤s4、使用设置好参数的专业相机和变焦镜头，以此获得画质较好的影像，提高ugatit图像转换的效果，最大限度地发挥ugatit网络模型的性能。
9.在本发明一实施例中，所述步骤s1具体实现如下：
10.步骤s11、收集演唱会舞台现场拍摄过程中光线过曝的图像；
11.步骤s12、收集昏暗的观众席拍摄到的欠曝的图像。
12.在本发明一实施例中，步骤s1中数据集收集所使用到的影像器材，包括照相机、摄像机、闪光灯、摄像灯、变焦镜头、定焦镜头、滤色镜、柔光箱、反光板、摄影灯、石英灯、快门线、相机滤镜、引闪器。
13.在本发明一实施例中，所述步骤s2具体实现如下：
14.步骤s21、ugatit网络模型的生成器采用新的注意力机制，即采用全局和平均池化下的类激活图cam来实现；
15.在position attention module中，通过ugatit网络的encode编码阶段得到的特征图a(c
×
h
×
w)，特征图首先通过卷积层得到3个特征图b，c，d，然后reshape为c
×
n，其中n＝h
×
w，之后将reshape后的b的转置与reshape后的c相乘再通过softmax得到spatial attention map s(n
×
n)，接着把s的转置与d做乘积再乘以尺度系数a再reshape为原来形状，最后与a相加得到最后的输出e；其中a初始化为0，并逐渐的学习分配到更大的权重；e的每个位置的值是原始特征每个位置的加权求和得到的；
16.步骤s22、ugatit网络模型采用的新的正则化方式，即自适应图层实例归一化adalin，它是将自适应layer norm与instance norm结合起来；
17.首先in和ln的归一化公式如下：
[0018][0019]
然后将in和ln的归一化公式合并得到adalin的归一化公式：
[0020][0021]
最后，为防止adalin的学习参数超出[0，1]的范围，对参数进行了区间裁剪：
[0022]
ρ
←
clip
[0，1]
(ρ
‑
τδρ)步骤s23、ugatit网络模型采用的判别器采用条件概率判别模型，即基于统计特性的判别方法，通过训练图像的特征获得条件概率分布，即样本x属于类别y的p(y|x)概率分布，随后输入图像的特征属于各个类别的条件概率，概率最大的那个类别就是该图像所属的类别；u
‑
gatit网络模型的判别器采用全局判别器和局部判别器的结合，通过extend将全局判别器和局部判别器的结果进行连接。
[0023]
在本发明一实施例中，所述步骤s3具体实现如下：
[0024]
步骤s31、ugatit网络模型对于图像到图像转换的损失函数有四个，包括对抗损失、循环一致性损失、身份损失、cam损失即交叉熵损失；
[0025]
步骤s32、去除ugatit网络模型的cycle部分，将ugatit网络模型简化成一个生成器和一个判别器配套使用；
[0026]
步骤s33、根据训练的结果调整特征值的权重，在ugatit网络模型中，生成器g用relu做激活，判别器d用leaky relu(slope＝0.2)激活；训练时，对lr前500个iterations固定1e
‑
4，然后线性衰减，共1000k个iterations，对权重的正则化项系数取0.02。
[0027]
在本发明一实施例中，所述步骤s4具体实现如下：
[0028]
步骤s41、选用高感好的单反相机，提高感光度，增强进光量来缩短快门时间去凝固舞蹈动作的瞬间性；
[0029]
步骤s42、根据摄影席距离舞台中区的距离来决定变焦镜头选择的焦段，采用两只变焦镜头配合拍摄，选择70mm
‑
200mm镜头拍摄演出，同时配合24mm
‑
70mm镜头拍摄花絮；
[0030]
步骤s43、设置相机的参数来获取理想的曝光，快门不低于320，iso平衡在2000左右，使用大光圈来求得最大进光量，使用raw格式，采取点测光看曝光卡尺，开启自动白平衡。
[0031]
相较于现有技术，本发明具有以下有益效果：本发明通过使用全局平均池化下的类激活图(cam)来得到注意力机制，使用新的正则化方式自适应层实例归一化函数adalin来结合adain和ln的优点，通过注意力机制特征图得到解码器中的adalin的gamma和beta，提高了网络的图像转换性能，使得过曝和欠曝的图像能够更好地被修复。
附图说明
[0032]
图1是本发明实施例过程中所使用的ugatit网络结构示意图。
[0033]
图2是本发明实施例过程中所使用的adalin结构示意图。
具体实施方式
[0034]
下面结合附图，对本发明的技术方案进行具体说明。
[0035]
本发明提供了一种基于自适应层实例归一化gan的演唱会拍摄方法，包括如下步骤：
[0036]
步骤s1、分别采集演唱会舞台现场处于两种曝光强度下的、成像效果差的图像和视频数据集，包括昏暗的观众席拍摄到的欠曝的影像，以及灯光强烈且变换快速的舞台周围拍摄到的过曝的影像；
[0037]
步骤s2、搭建自适应层实例归一化的无监督生成对抗网络ugatit网络模型，确定模型参数，神经网络的损失函数，将模型性能优化至最佳；
[0038]
步骤s3、根据训练结果，优化ugatit网络模型，减小冗余度；
[0039]
步骤s4、使用设置好参数的专业相机和变焦镜头，以此获得画质较好的影像，提高ugatit图像转换的效果，最大限度地发挥网络的性能。
[0040]
图1是本发明实施例过程中所使用的ugatit网络结构示意图。
[0041]
图2是本发明实施例过程中所使用的adalin结构示意图。
[0042]
在本发明一实施例中，所述步骤s1具体实现如下：
[0043]
步骤s11、演唱会的舞台周围至少有两台摇臂摄像机，一台放置在台前，用于拍摄台上的演唱歌手，另一台主要拍摄现场现场的观众的反应镜头，摇臂的升高拉远可以实现长镜头运用，必要时还可以铺设轨道实现跟踪拍摄；
[0044]
步骤s12、摄影席中的观众、摄影师或者记者媒体常使用五棱镜取景器单镜头反光照相机、120胶卷双镜头反光照相机(底片大成像质量好，但是取景不便视差较大)拍摄；
[0045]
步骤s13、数据集所使用到的各种的影像器材，包括照相机、摄像机、闪光灯、摄像灯、变焦镜头、定焦镜头、滤色镜、柔光箱、反光板、摄影灯、石英灯、快门线、相机滤镜、引闪
器。
[0046]
在本发明一实施例中，所述步骤s2具体实现如下：
[0047]
步骤s21、ugatit网络的生成器采用新的注意力机制，相比于计算全图的权重作为关注，本发明的网络采用全局和平均池化下的类激活图(class activation map
‑
cam)来实现，能够引导生成器g关注哪些区分源域和目标域的更重要的区域，帮助模型知道在何处进行密集转换，从而使得生成器g的性能可以得到更好的发挥，同时对图像整体的改变有更好的处理能力。
[0048]
在positionattention module中，图像经过一个下采样模块，然后经过一个残差块，通过网络的encode编码阶段得到的特征图a(c
×
h
×
w)，特征图首先通过卷积层得到3个特征图b,c,d，然后reshape为c
×
n，其中n＝h
×
w，之后将reshape后的b的转置与reshape后的c相乘再通过softmax得到spatial attention map s(n
×
n)，接着把s的转置与d做乘积再乘以尺度系数a再reshape为原来形状，最后与a相加得到最后的输出e。其中a初始化为0，并逐渐的学习分配到更大的权重。可以看出e的每个位置的值是原始特征每个位置的加权求和得到的。
[0049]
注意力特征图依然是分两路，一路经过一个1
×
1卷积和激活函数层得到黄色的a1...an特征图，然后黄色特征图通过全连接层得到解码器中adaptive layer
‑
instance normalization层的gamma和beta，另外一路作为解码器的输入，经过一个自适应的残差块(含有adaptivelayer
‑
instance normalization)以及上采样模块得到生成结果。
[0050]
步骤s22、ugatit采用的新的正则化方式，即自适应图层实例归一化adalin，它是将自适应layer norm与instance norm结合起来，其作用是帮助注意力引导模型灵活控制形状和纹理的变化量，这是本发明的创新点。
[0051]
首先in和ln的归一化公式如下：
[0052][0053]
然后将in和ln的归一化公式合并得到adalin的归一化公式：
[0054][0055]
最后，为了防止adalin的学习参数超出[0，1]的范围，对参数进行了区间裁剪：
[0056]
ρ
←
clip
[0，1]
(ρ
‑
τδρ)
[0057]
步骤s23、ugatit采用的判别器多采用条件概率判别模型，这是一种基于统计特性的判别方法，通过训练图像的特征获得条件概率分布，即样本x属于类别y的p(y|x)概率分布，随后输入图像的特征属于各个类别的条件概率，概率最大的那个类别就是该图像所属的类别。
[0058]
u
‑
gat
‑
it判别器采用了全局判别器和局部判别器的结合，全局判别器相较于局部判别器，对输入图像进行了更深层次的特征压缩，即感受野作用范围超过了图像。最后，通过extend将全局判别器和局部判别器的结果进行了连接。判别器中加入的cam虽然没有作域的分类，但是注意力图通过关注目标域中的真实图像和伪图像之间的差异来帮助进行微调，引入注意力模块对于最后判别图像的真伪是有益的。
[0059]
在本发明一实施例中，所述步骤s3具体实现如下：
[0060]
步骤s31、ugatit对于图像到图像转换的损失函数有四个，包括了对抗损失、循环一致性损失、身份损失、cam损失即交叉熵损失；
[0061]
步骤s32、整个完整的ugatit模型复杂度较大，训练起来耗时，由于本发明仅从a风格转换成b风格，因此去除ugatit的cycle部分，模型简化成一个生成器和一个判别器配套使用；
[0062]
步骤s33、根据训练的结果调整特征值的权重，在网络中，g用relu做激活，d用leaky relu(slope＝0.2)激活。训练的时候，对学习率lr前500个iterations固定1e
‑
4，然后线性衰减，共1000k个iterations。对权重的正则化项系数取0.02。
[0063]
在本发明一实施例中，所述步骤s4具体实现如下：
[0064]
步骤s41、在条件允许的情况下，首先选用高感好的单反相机，提高感光度，增强进光量来缩短快门时间去凝固舞蹈动作的瞬间性。当提高感光度的同时，噪点也会随之出现，舞台上的光线变化多端，如果感光度设置在2000
‑
3200时，噪点的出现又能在接受范围之内，那么这就是一部所见即所得的高感好、画质好的相机；
[0065]
步骤s42、其次，根据摄影席距离舞台中区(大部分情况下，舞者活动范围在中区居多)的距离来决定选择什么焦段的变焦镜头，舞台底线常常在7m到25m不等，两只变焦镜头配合就可以覆盖大部分情况下的拍摄，选择70mm
‑
200mm镜头拍摄演出，同时配合24mm
‑
70mm镜头拍摄花絮；
[0066]
步骤s43、最后，设置相机的参数来获取理想的曝光，快门不低于320，iso平衡在2000左右，使用大光圈来求得最大进光量，尽可能使用raw格式以便后期弥补一定限度的曝光过度和曝光不足，采取点测光看曝光卡尺(定点光会因为舞台明暗对比强烈而造成明显的画面反差)，开启自动白平衡(awb)；
[0067]
步骤s44、此外，还有一些注意事项。禁止开闪光灯、禁止来回走动拍摄，禁止用显示屏取景(亮度会影响观众)，使用三脚架来减少摄影师动作幅度影响观众。
[0068]
以上是本发明的较佳实施例，凡依本发明技术方案所作的改变，所产生的功能作用未超出本发明技术方案的范围时，均属于本发明的保护范围。

再多了解一些

1/2 1 2 下一页尾页

本文用于企业家、创业者技术爱好者查询，结果仅供参考。

上一篇：返回列表
下一篇：一种页面渲染方法、装置、电子设备及存储介质与流程

一种基于自适应层实例归一化GAN的演唱会拍摄方法与流程

相关文献

最热文献