一种暗光场景下的非配对文本图像增强方法
- 国知局
- 2024-11-06 14:46:12
本发明涉及本发明涉及计算机机器学习、图像识别领域,特别涉及一种暗光场景下的非配对文本图像增强方法。
背景技术:
1、随着智慧城市的兴起,人们对能够准确捕捉夜间场景的需求越来越大。一些使用配对数据集进行训练的低光图像增强方法已经取得了一些进展。但挑战仍然存在:如,获取配对数据集极为困难,这严重限制了模型的泛化能力;传统的编码器-解码器结构难以有效增强极暗场景图像;在恢复图像中文本细节信息方面表现不佳。鉴于上述这些问题,低光文本图像增强技术仍亟待完善。
2、通常在低光条件下,环境限制和设备约束会影响所拍摄照片的质量,同时获取配对数据也非常困难。一般情况下,会通过增加低光条件下的曝光时间或减少正常光条件下的曝光时间以获取配对数据,但这种采集数据的方式效率低下,并且不同曝光时间可能导致自然低光下的图像映射与正常光下的真实图像之间存在偏差。
3、此前,有研究者提出了一种基于retinex理论的低光图像增强的方法,并取得了一定的良好效果,但该方法中输入配对数据集进行训练降低了模型的泛化能力。因此,enlightengan提出了一种无需配对数据训练的模型,由注意力引导的u-net生成器和全局-局部判别器组成,并在多个标准测试数据上取得了领先性能。尽管enlightengan相较传统方法取得了显著提升,但仍存在训练过程中易导致生成图像失真的问题,尤其对于较暗的低光图像,难以保留细节信息。因此,针对低光情况下的图像增强算法还有待改进。
4、目前,图像增强大多仅仅考虑图像的整体质量,这样的采样过程会引发特征丢失、噪声较大等现象,导致从原始图像中提取有效信息变得相当困难,尤其在低光下处理含有文本信息的图像时,现有的低光图像增强方法显露出一些不足之处。因此,恢复图像的局部区域是当前研究的重点,特别是对于场景中的文本区域,这一问题对于后续的文本检测任务至关重要。
技术实现思路
1、针对现有技术存在的上述问题,本发明要解决的技术问题是:如何提高暗光图像的图像质量,并且保留文本细节。
2、为解决上述技术问题,本发明采用如下技术方案:一种暗光场景下的非配对文本图像增强方法,包括如下步骤:
3、s1:获取多张低光图像,所有低光图像构成训练集。
4、s2:构建基于自注意力机制的非配对文本图像增强生成式对抗网络ut-gan,ut-gan包括生成器和双鉴别器,所述生成器由文本注意力模块tam和自注意力机制引导的agm-net网络组成,所述双鉴别器由全局鉴别器和局部鉴别器组成。
5、s3:ut-gan的训练:从训练集中低光图像先通过zero-dce网络进行初步增强,得到初步增强图像,将初步增强图像进行归一化处理得到空间注意力图,初步增强图像和空间注意力图共同引入agm-net网络,agm-net网络输出经过归一化处理得到自正则化注意力图,初步增强图像输入east文本检测方法得到文本注意力图。
6、将自正则化注意力图和文本注意力图共同输入tam后再与自正则化注意力图相乘,之后再与低光图像拼接得到低光图像对应的增强图像。
7、低光图像对应的增强图像输入全局鉴别器,全局鉴别器输出该低光图像的鉴别概率;
8、低光图像对应的增强图像随机裁剪为多张图块,多张图块输入局部鉴别器,低光图像对应的增强图像输出多张图块的鉴别概率;
9、计算ut-gan的损失ltotal,并根据ltotal采用更新ut-gan的参数,直至ltotal不再变化,则得到训练好的ut-gan。
10、s4:将一张低光图像输入训练好的ut-gan,由训练好的ut-gan中的生成器生成该低光图像对应的增强图像。
11、进一步的,所述s2中的agm-net以u-net为主干,在编译器和解码器中添加了额外的gatepost特征路径,同时在gatepost路径中使用双线性下采样,并在主干特征路径中使用像素重组作为下采样模块。
12、进一步的,所述ltotal的计算如下:
13、ltext=||i′-l′|| (1)
14、其中ltext为i′和l′之间的l1损失,i′和l′分别为文本注意力图和自正则化注意力图。
15、
16、中,为全局生成器损失函数,为局部生成器损失函数,为整张正常光图像的期望分布,为整张低光图像的期望分布,xr为从正常光图像的期望分布中采样的数据,xf为从低光图像的期望分布中采样的数据。为xf相对于xr的概率,为xr相对于xf的概率,为低光图像局部图块的期望分布,为正常光图像局部图块的期望分布;
17、
18、其中,局部图块自特征保留损失,il表示输入网络的局部图块,g(il)表示生成器输出的增强图像的局部图块,φi,j是在imagenet上预训练的vgg-16的特征图,i表示第i个最大池化,j表示i个最大池化层之后的第j个卷积层,wi,j和hi,j是局部图块特征图的维度;
19、
20、其中,il表示低光图像,g(il)表示生成器的对应生成图像,表示整张图像自特征保留损失,il表示输入网络的局部图块,g(il)表示生成器输出的增强图像,φi,j是在imagenet上预训练的vgg-16的特征图,i表示第i个最大池化,j表示i个最大池化层之后的第j个卷积层,wi,j和hi,j是提取到的增强图像特征图的维度。
21、
22、相对于现有技术,本发明至少具有如下优点:
23、1、针对配对数据集获取方式困难,模型的适用性差,本发明提出了一种针对文本区域的非配对图像增强生成式对抗网络方法,无需依赖于大量的配对数据作为监督信息,在保证图像质量的前提下,解决了配对数据集获取困难的问题。
24、2、低光图像本身含有极大的噪声影响,并且图像增强容易产生过曝光或欠曝光现象和棋盘效应,且输入图像的分辨率不唯一。本发明在u-net基础上提出了一种自注意力引导的agm-net网络模块,通过空间注意力图控制增强模块中的曝光现象,并通过额外的特征路径减少采样损失,从而生成理想的增强图像。
25、3、针对图像中文本区域增强问题,本发明提出了一种文本注意模块tam,通过采用通用文本检测方法获取图像中的文本信息作文本注意力图。通过对增强图像和文本注意力之间的约束,突出文本区域,提高文本检测的准确性。
26、4、现有技术训练过程中易导致生成图像失真,尤其对于较暗的低光图像,图像的局部信息丢失严重,难以保留文本区域等细节信息。本发明方法能够调整增强过程中的过曝光或欠曝光现象,并且通过对生成图像和文本注意力图之间的约束实现文本区域的恢复效果。
技术特征:1.一种暗光场景下的非配对文本图像增强方法,其特征在于:包括如下步骤:
2.如权利要求1所述的一种暗光场景下的非配对文本图像增强方法,其特征在于:所述s2中的agm-net以u-net为主干,在编译器和解码器中添加了额外的gatepost特征路径,同时在gatepost路径中使用双线性下采样,并在主干特征路径中使用像素重组作为下采样模块。
3.如权利要求2所述的一种暗光场景下的非配对文本图像增强方法,其特征在于:所述ltotal的计算如下:
技术总结本发明涉及一种暗光场景下的非配对文本图像增强方法,该方法无需成的训练数据,具有广泛适用性。首先构建了非配对文本图像增强生成式对抗网络UT‑GAN,UT‑GAN包括生成器由文本注意力模块TAM和自注意力机制引导的AGM‑Net网络组成的生成器,鉴别器由全局鉴别器和局部鉴别器组成的双鉴别器。AGM‑Net在没有分支结构的情况下实现了出色的增强效果,有效的保留了采样过程造成的特征丢失,并且提高了整体图像的增强效果。TAM通用文本检测方法EAST获取图像中文本信息作为文本注意力图。在模型训练过程中,通过约束AGM‑Net生成图像和文本注意力图之间的特征距离,实现了在极暗场景下有效保留文本区域的信息。技术研发人员:冯欣,冉冰艺,何正阳,黄丹受保护的技术使用者:重庆理工大学技术研发日:技术公布日:2024/11/4本文地址:https://www.jishuxx.com/zhuanli/20241106/324028.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。