一种基于多尺度时空特征融合的暗光视频增强方法及系统

2022-11-16 12:34:41 来源：中国专利 TAG：

技术特征：
1.一种基于多尺度时空特征融合的暗光视频增强方法，其特征在于，包括训练和使用阶段；在训练阶段，使用暗光视频-正常光视频配对数据集迭代更新算法模型的参数字典；首先，在暗光视频-正常光视频配对的训练数据中，将暗光视频依照其不同的数据格式进行预处理，使不同像素依照色彩滤镜分离至不同通道；若已知相机曝光设定，进一步根据视频昏暗程度的不同，对视频亮度进行初步的线性提升，以该数据作为训练阶段的输入数据；随后，暗光视频增强算法根据输入的暗光视频产生一份增强后视频，并将其与真实正常光视频进行比对，计算损失函数并通过反向传播过程更新算法模型当中的各个参数；持续遍历训练数据集当中的成对数据，并重复执行上述步骤，直到达到预设的终止条件；在使用阶段，根据在训练阶段的模型结构与模型参数，构建暗光视频增强模型，将待处理的暗光视频经过数据预处理后作为输入数据送入模型当中进行暗光增强，最后，将模型输出的增强视频数据进行存储；若已有可参考的真实正常光下视频，通过评估方法衡量增强视频与正常光下真实视频的差异度，从而实现客观、定量地评估增强视频的质量，判断暗光视频增强模型的效果优劣。2.如权利要求1所述的一种基于多尺度时空特征融合的暗光视频增强方法，其特征在于，训练阶段具体实现方法如下：步骤1.1：对暗光视频数据，以逐帧图像的形式进行处理：将暗光视频依照其数据格式进行预处理，使不同像素依照色彩滤镜分离至不同通道，形成便于后续模型处理的指定空间分辨率的视频数据；在视频数据预处理之后，将暗光数据和正常光数据进行数据增广操作如果已知相机曝光设定，根据具体的设定值对暗光视频的亮度进行初步线性的增强；步骤1.2：从步骤1.1处理后的训练数据集中，随机选取一段指定帧数的暗光视频输入算法模型；算法模型对该数据进行增强处理，输出同样帧数的增强后视频，受数据格式和视频数据预处理过程的影响，输入数据的宽和高是输出数据的一半，或与输出数据相同；增强后的视频以逐帧形式进行输出；暗光视频增强算法模型包括编解码器主体结构、特征提取重建模块、时序-通道注意力模块；当预处理后的暗光视频数据输入算法模型后，首先经过编码器部分进行特征的初步提取；编码器部分包括四个层级，每个层级的构成相同，均是由用于特征提取的卷积操作、跳跃连接卷积操作、降采样卷积操作以及激活函数构成；各层级的编码器部分计算得到的特征张量有两个传递方向，一是经过降采样后传递至下一层级的编码器，作为其输入数据，二是传入特征提取重建模块当中，由特征提取重建模块进行下一步的特征处理过程；对于该部分，参数字典包括各个卷积操作中的参数；经过初步特征提取后，各个层级特征被传入同层级的特征提取重建模块之中；特征提取重建模块包括特征嵌入模块、连续3d swin-transformer块、特征重建模块，其中，特征嵌入模块用于分割来自编码器部分的特征图，特征图压缩转化为特征序列，使得特征序列中
包含全局的时空信息；连续3dswin-transformer块用于进一步处理具有全局时空信息的特征序列，由于3dswin-transformer块的结构特性，该过程不会引入过多的额外计算量；特征重建模块用于参考编码器特征，重建特征序列至指定大小的特征图，该特征图被进一步送至时序-通道注意力模块当中进行处理；时序-通道注意力模块的输入数据包括两部分：来自特征提取重建模块的重建特征和来自解码器某层级的解码特征；其中，时序-通道注意力模块首先将重建特征和解码特征在空间维度进行全局平均池化操作，产生维度等于通道数的向量gap1(fr)和向量gap1(fd)；随后，对两个向量相加取平均，再进行线性映射并通过relu引入非线性sigmoid构建注意力，得到注意力mask1；然后，对重建特征和解码特征在时间维度进行全局平均池化，产生维度等于帧数的向量gap2(fr)以及向量gap2(fd)；随后，同样对两向量相加取平均，再进行线性映射并通过sigmoid引入非线性，得到注意力mask2；最后，对重建特征施加mask1及mask2注意力，使其在通道维度和时间维度得到不同通道、时间序列的重要性，得到时空互补特征；解码器部分从整体结构上与编码器部分保持一致，都由四个不同层级的卷积操作和激活函数组成；不同之处在于，解码器部分是采用上采样增大空间分辨率，并且使用来自上一层级的解码特征和来自同一层级的自时序-通道注意力模块的拼接特征作为输入数据；在经过四个层级的特征重建后，解码器部分输出特定维度的特征图至一层像素混洗层，该层使得特征的通道纬度数据以可学习的方式减少至原来的四分之一，并重组至空间维度，实现通道数的缩减和空间维度的扩增；最终，该层输出的数据即为增强后的视频数据。3.如权利要求2所述的一种基于多尺度时空特征融合的暗光视频增强方法，其特征在于，在模型训练过程中，采用渐进式训练方式，包括以下步骤：第一步：仅对模型中的编解码器部分进行训练；该过程使用的损失函数为：其中，v
nl
、v
ll
分别代表正常光条件下的真值视频、暗光条件下的待处理视频，θ1为模型的可训练参数，代表仅包含编解码器的模型；第二步：训练包含编解码器主体结构、特征提取重建模块、时序-通道注意力模块的完整的暗光增强模型；在训练前，初始化编解码器部分的参数字典为第一步训练保存的结果；该过程使用的损失函数为：其中，v
nl
、v
nl
分别代表正常光条件下的真值视频、暗光条件下的待处理视频，(θ1,θ2)为模型的可训练参数，代表完整的暗光增强模型；重复步骤1.2中的第一步训练，直至满足设定的终止条件，保存网络的结构和模型参数；初始化编解码器部分的参数字典为第一步训练保存的结果，重复步骤1.2当中的第二步训练，直至满足设定的终止条件，保存网络的结构和模型参数。4.如权利要求2所述的一种基于多尺度时空特征融合的暗光视频增强方法，其特征在于，在训练过程中，不断随机地向模型输入暗光视频片段和正常光视频片段，直到训练达到预设的轮次数量或者评估指标满足的预设值时，训练过程停止，并保存模型结构和模型参
数。5.如权利要求1所述的一种基于多尺度时空特征融合的暗光视频增强方法，其特征在于，使用阶段的实现方法如下：首先将暗光视频依照模型输入数据要求进行预处理，若已知相机曝光设定，根据具体的设定值对暗光视频的亮度进行初步线性的增强；然后，读取步骤1训练得到的模型参数，并依照模型结构进行模型的创建与加载；之后，将已处理的暗光视频数据送入该模型当中，生成增强后的正常光视频；最后，保存该视频；如果存在暗光视频对应的真实正常光下视频，则评估增强视频的质量和效果，判断暗光增强模型的效果优劣。6.如权利要求5所述的一种基于多尺度时空特征融合的暗光视频增强方法，其特征在于，使用峰值信噪比psnr和结构相似性ssim计算增强视频和真值视频之间的客观差距；其中，峰值信噪比表示信号的最大功率和破坏性噪声功率之间的比值；峰值信噪比的单位常用分贝db表示，峰值信噪比的数值越高，表示图像、视频质量越高；峰值信噪比psnr的计算方法为：其中，n表示单通道单像素点的比特深度；mse表示均方误差，计算方式为：其中，h和w为图像的高与宽，i(i,j)、均表示在(i,j)位置上像素的值；采用结构相似性ssim作为结构的衡量指标，从结构上比较真值视频和增强视频之间的相似度；给定真值视频帧i与增强后的视频帧ssim的计算方式为：其中，μ
i
是i的平均值，是的平均值；是i的方差，是的方差，表示i与的协方差；c1＝(k1l)2，c2＝(k2l)2，c1、c2均是用于维持稳定的常数，k1、k2均为常数，用于调整c1、c2数值，使其远小于1；l是像素值的动态范围，l＝2
n-1，n表示单通道单像素点的比特深度；ssim的取值范围为[0，1]，值越接近1，说明两视频帧结构越相似。7.如权利要求6所述的一种基于多尺度时空特征融合的暗光视频增强方法，其特征在于，k1＝0.01，k2＝0.03。8.一种基于多尺度时空特征融合的暗光视频增强系统，其特征在于，包括数据预处理子系统、暗光增强模型子系统、损失函数计算子系统和结果评价子系统；其中，数据预处理子系统包括暗光视频预处理模块和数据增广模块；暗光视频预处理模块用于将暗光视频依照其数据格式进行预处理，将不同像素依照色彩滤镜分离至不同通道；数据增广模块用于将暗光视频和正常光视频进行旋转、翻转或中心对称变换，扩增可训练的数据集，从而增强暗光视频增强模型的泛化能力；暗光增强模型子系统包括编码器模块、解码器模块、特征提取重建模块、时序-通道注
意力模块；其中，编解码器模块是暗光增强模型子系统的主体部分，其包括四个层级，每个层级的构成相同，均由用于特征提取的卷积操作、跳跃连接卷积操作、下采样卷积操作以及激活函数构成，该部分用于对暗光视频特征进行初步的提取；具体地，特征提取重建模块包括特征嵌入模块、连续3dswin-transformer模块和特征重建模块；特征提取重建模块使用特征嵌入模块分割来自编码器部分的特征图，将特征图压缩转化为特征序列，随后送入3d swin-transformer模块，利用transformer的非局部信息聚合及全局视野进行时间-空间信息处理，处理后的特征序列由特征重建模块重建特征序列至指定大小的特征图；时序-通道注意力模块在时间和空间维度上构建注意力，从而将来自特征提取重建模块的重建特征和来自解码器模块某层级的解码特征，在通道维度和时间维度得到不同通道、时间序列的重要性，在更细粒度的时空维度上融合拼接，得到时空互补特征；损失函数计算子系统，包括编解码器损失函数计算模块和完整模型损失函数计算模块；其中，编解码器损失函数计算模块用于训练过程的第一阶段，对编解码器结构增强的到的增强暗光视频和真实暗光视频计算平均绝对误差，该损失将通过反向传播过程以及参数优化器，更新编解码器部分各个参数，从而不断优化编解码器的暗光增强表现；完整模型损失计算模块用于训练过程的第二阶段，对编解码器结构添加特征提取重建模块、时序-通道注意力模块，得到完整暗光视频增强模型，对完整暗光视频增强模型处理得到的增强视频和真实暗光视频计算平均绝对误差，并通过反向传播过程以及参数优化器，更新编解码器部分各个参数，从而不断优化完整模型的暗光增强表现；结果评价子系统，用于将增强视频和真实正常光下视频进行比对，计算psnr、ssim等客观评价指标，从而量化本系统所增强暗光视频的质量；上述组成系统之间的连接关系为：数据预处理子系统与暗光增强模块子系统、结果评价子系统分别相连，向暗光增强模块子系统提供经视频预处理和数据增广得到的处理后的、符合模型输入输出格式的暗光视频以及真实正常光下视频，向结果评价子系统提供真实正常光下视频；在数据预处理子系统中，暗光视频预处理模块和数据增广模块相连；其中，暗光视频预处理模块向数据增广模块提供符合数据增广格式要求的视频数据；暗光增强模型子系统与数据预处理子系统、损失函数计算子系统和结果评价子系统分别相连，其根据数据预处理子系统输入的暗光视频恢复出增强后的暗光视频至损失函数计算子系统和结果评价子系统；在暗光增强模型子系统中，编码器模块与解码器模块、特征提取重建模块相连；解码器模块与编码器模块、时序-通道注意力模块相连；在特征提取重建模块中，特征嵌入模块与3d swin-transformer模块相连；3d swin-transformer模块与特征嵌入模块以及特征重建模块相连；特征重建模块与3d swin-transformer模块相连；损失函数计算子系统与数据预处理子系统、暗光增强模型子系统相连；其从数据预处理子系统获取数据增广后的真实正常光视频，然后，从暗光增强模型子系统获取编解码器增强视频和完整模型增强结果；解码器增强视频和完整模型增强结果分别与真实正常光视频对比计算损失，并将该损失回传至暗光增强模型子系统，用于更新暗光增强模型子系统
中模型的参数；在损失函数计算子系统中，编解码器损失计算模块与完整模型损失计算模块独立工作，互不连接；结果评价子系统与数据预处理子系统、暗光增强模型子系统分别相连，其从数据预处理子系统中获取真实正常光下视频，从暗光增强模型子系统中获取增强后视频，通过将二者比对计算评价指标，量化地反映增强后视频的质量。9.如权利要求8所述的一种基于多尺度时空特征融合的暗光视频增强系统，其特征在于，系统的处理过程如下：步骤1：将暗光视频输入至数据预处理子系统，进行视频数据预处理、数据增广；步骤2：将暗光视频送入暗光增强模型子系统中的编解码器模块，暗光视频经由该部分处理，生成增强视频待使用；步骤3：损失函数计算子系统中的编解码器损失函数计算模块接收编解码器模块生成的增强视频以及数据预处理子系统生成的真实正常光下视频，计算损失值，并回传至编解码器模块中用于训练；步骤4：暗光增强模型子系统中的编解码器模块根据损失函数计算子系统中的编解码器损失函数计算模块传回的损失值，并利用优化器进行参数优化，完成一次训练迭代；步骤5：重复执行上述步骤1至4，每当对全部训练集遍历一次后，在结果评价子系统上使用验证集数据对当前参数下模型效果进行评估；若计算得到的量化指标已满足预设条件，或当前训练迭代次数达到预设上线，则停止训练，保存当前编解码器模块的参数字典，继续步骤6；步骤6：；将步骤5当中保存的编解码器模块的参数字典加载至完整模型中的编解码器模块部分，完成完整模型的初始化工作；步骤7：与步骤1相同，将暗光视频输入至数据预处理子系统，进行预处理、数据增广，处理后的视频数据将被暂存在内存当中；步骤8：将暗光视频送入暗光增强模型子系统中的完整模型，暗光视频经由该部分处理，生成增强视频待使用；步骤9：损失函数计算子系统中的完整模型损失函数计算模块接收完整模型生成的增强视频以及数据预处理子系统生成的真实正常光下视频，计算损失值，并回传至完整模型中用于训练；步骤10：暗光增强模型子系统中的完整模型根据损失函数计算子系统中的完整模型损失函数计算模块传回的损失值，并利用优化器进行参数优化，完成一次训练迭代；步骤11：重复执行上述步骤7至10，每当对全部训练集遍历一次后，在结果评价子系统上使用验证集数据对当前参数下模型效果进行评估；若计算得到的量化指标已满足预设条件，或当前训练迭代次数达到预设上线，则停止训练，保存当前完整模型的参数字典，继续步骤12；步骤12：采用步骤11保存的参数字典初始化完整模型，将目标暗光视频数据送入该模型中进行暗光增强，保存输出视频并采用结果评价子系统评估增强后视频的图形质量。

技术总结
本发明涉及一种基于多尺度时空特征融合的暗光视频增强方法及系统，属于计算机视觉技术领。在训练阶段将暗光视频依照其不同的数据格式进行预处理，使不同像素依照色彩滤镜分离至不同通道，采用暗光视频增强算法根据输入的暗光视频产生一份增强后视频，并将其与真实正常光视频进行比对，计算损失函数并通过反向传播过程更新算法模型中的各参数；当达到预设终止条件后，将模型结构与训练更新后的模型参数进行保存。在使用阶段，根据在训练阶段保存好的模型结构与模型参数构建暗光视频增强模型，将待处理的暗光视频送入模型当中进行暗光增强。本发明可以恢复暗光视频为评价指标优越、主观视觉感受良好的高质量正常光视频。主观视觉感受良好的高质量正常光视频。主观视觉感受良好的高质量正常光视频。

技术研发人员：梁瑛平曾宇航付莹
受保护的技术使用者：北京理工大学
技术研发日：2022.07.01
技术公布日：2022/11/15

再多了解一些

2/2 首页上一页 1 2

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：外参标定参数确定方法、装置、计算机设备和存储介质与流程

一种基于多尺度时空特征融合的暗光视频增强方法及系统

相关文献

最热文献