技术新讯 > 计算推算,计数设备的制造及其应用技术 > 基于扩散的多模态图像融合的制作方法 > 正文

基于扩散的多模态图像融合的制作方法

国知局
2024-07-31 22:56:42

【】本发明涉及神经网络，特别涉及使用神经网络的图像融合。

背景技术

0、背景技术：

1、图像处理被广泛用于图像增强、图像混合、面部识别、光学字符识别(ocr)等任务，例如读取行驶中汽车的车牌，以及用于自主车辆防撞的物体跟踪。图像数据通常使用神经网络进行处理。

2、人工神经网络对于以复杂的方式处理大量数据特别有用，而这些数据很难用传统的计算机程序来处理。不是使用指令编程，而是将训练数据输入到神经网络并与预期输出进行比较，然后在神经网络内进行调整，再次处理训练数据并比较输出以产生对神经网络的进一步调整。在多次这样的训练周期之后，神经网络被改变成可以有效地处理类似训练数据和预期输出的数据。神经网络是机器学习的一个例子，因为神经网络学习如何为训练数据生成预期输出。然后可以将类似训练数据的真实数据输入到神经网络中，以处理实时数据。

3、图1显示一个现有技术的神经网络。输入节点802、804、806、808接收输入数据i1、i2、i3、...i4，而输出节点103、105、107、109输出神经网络运算的结果：输出数据o1、o2、o3、...o4。在这个神经网络中有三层运算。节点110、112、114、116、118中的每一个节点都从一个或多个输入节点102、104、106、108中获取输入，执行一些运算，诸如加、减、乘或更复杂运算，然后发送和输出到第二层的节点。第二层节点120、122、124、126、128、129也接收多个输入，合并这些输入以产生一个输出，并将输出发送到第三层节点132、134、136、138、139，类似地合并输入并产生输出。

4、每层的输入通常会被加权，因此在每个节点上都会产生加权和(或其他加权运算结果)。这些权重可以表示为w31、w32、w32、w33、...w41等，并在训练期间可以调整其值。通过试错或其他训练程序，最终可以将较高的权重分配给产生预期输出的路径，而将较小权重分配给不产生预期输出的路径。机器将学会哪些路径能产生预期输出，并为这些路径上的输入分配高权重。

5、这些权重可以存储在权重存储器100中。由于许多神经网络都具有多个节点，所以在权重存储器100中存储有多个权重。每个权重可能需要多个二进制比特来表示该权重的可能值的范围

6、深度神经网络具有多层节点，常用于物体分类、语音识别、情感分析、图像识别、面部检测和其他图形处理等应用。视频序列中的图像可以由这样的神经网络捕获和处理。

7、多模态图像融合结合了从不同相机拍摄的图像，例如从标准红绿蓝(rgb)相机拍摄的不同颜色的可见光，以及相机拍摄的红外(ir)光或热信号。虽然rgb相机擅长捕捉色彩、纹理和细节，但在恶劣照明条件下会受到影响，例如弱光条件、汽车前灯等强光的眩光、烟雾等微粒的遮挡、以及极端动态范围场景，例如在明亮的白天看向黑暗的隧道。

8、ir相机可捕获较长波长的红外线，通常可穿透烟雾等微粒。ir相机可以检测到可见光谱中较暗的人和车辆的热量。然而，红外图像通常对比度较低，缺乏rgb图像的色彩和文本信息。多模态图像融合技术可将rgb和红外图像融合在一起，提供具有rgb和红外图像细节的增强型融合图像。

9、图2a-2d显示了使用基于现有技术的编码器-解码器的卷积神经网络(convolution neural network，cnn)的图像融合。基于编码器-解码器cnn的图像融合方法(例如密集融合dense fuse)使用编码器-解码器架构在多个尺度上融合图像。可以使用相同的网络从rgb和ir图像中提取特征。然而，需要软件专家手动设计融合层权重组合方法，例如相加或l1，并且得到的图像质量可能不是很好。

10、图2a显示了有烟雾遮挡的输入rgb图像。图2b显示了输入红外图像，该图像可以透过烟雾看到烟雾后面的2个人和建筑物。然而，红外图像的对比度较差。图2c显示了使用密集融合(相加)方法的图像融合输出。图像太亮，将两个人中的一个隐藏在烟雾中。图2d显示了使用密集融合(l1)方法的图像融合输出。图像效果更好，显示出了烟雾中的两个人。

11、密集融合对rgb和红外图像的权重组合很敏感。为了获得最佳效果，需要手动选择权重组合。这种手动选择权重组合是不期望的，因为必须人工查看图像，并根据特定图像输入和场景选择能产生最佳效果的权重组合。融合图像的质量很大程度上取决于人工专家选择的权重。

12、图3a-3d显示了使用其他现有技术方法的图像融合。图3a显示了有烟雾遮挡的输入rgb图像。图3b显示了输入红外图像，该图像可以透过烟雾看到烟雾后面的2个人和建筑物。然而，红外图像的对比度较差。

13、图3c显示了手工制作的图像融合输出。人工专家从传统的图像融合方法中进行选择，以找到产生最佳输出的方法。这种手工制作方法可能需要大量时间才能获得最佳图像质量，因为测试的方法越多，找到产生良好图像结果的方法的可能性就越大。然而，不同的场景和照明条件，效果会有所不同。为看透烟雾而选择的方法可能不同于为看清黑暗隧道而选择的方法，可能也不同于强光车灯的眩光干扰视线时所选择的方法。

14、图3d显示了使用tardal方法的图像融合输出。图像效果更好，显示了烟雾中的两个人。但视觉质量较差，曝光、色彩、草地细节较差，在极端条件下可能会出现模式崩溃。tardal是一种生成对抗网络(generative adversarial network，gan)，它包含一个生成器神经网络和一个判别器神经网络，生成器神经网负责在多个尺度上融合图像，判别器神经网络负责控制融合图像的质量。然而，gan模型相对较难训练，而且可能会出现模式崩溃。生成结果的质量可能不稳定。生成器和判别器需要针对特定应用进行设计。

15、自动驾驶汽车等自主引导车辆必须具备不依赖人类专家来选择最适合特定场景的权重和方法的视觉系统，因为汽车在行驶过程中，场景会以高达100kph的速度变化，因此没有足够的时间进行人工干预。不稳定的方法在此类应用中是不可取的，因为图像故障可能会导致汽车驶入错误的路径，或撞到因不稳定检测到的物体。

16、期望有一种多模态图像融合方法，它不依赖人类专家来选择最适合特定场景或照明条件的方法或权重。使用神经网络生成稳定图像的融合方法是期望的。机器可视化和物体识别需要稳定和增强的融合图像。

技术实现思路

技术特征：

1.一种图像引导的多模态图像融合扩散网络，包括：

2.根据权利要求1所述的图像引导的多模态图像融合扩散网络，其中所述增强神经网络包括：

3.根据权利要求2所述的图像引导的多模态图像融合扩散网络，其中所述第一层、所述第二层和所述第三层各自包括：

4.根据权利要求3所述的图像引导的多模态图像融合扩散网络，其中所述增强神经网络还包括：

5.根据权利要求4所述的图像引导的多模态图像融合扩散网络，其中所述第一层和所述第二层还包括：

6.根据权利要求4所述的图像引导的多模态图像融合扩散网络，其中所述特征调制块包括：

7.根据权利要求3所述的图像引导的多模态图像融合扩散网络，其中所述一系列收缩层和所述一系列扩展层形成u-net卷积神经网络；

8.根据权利要求7所述的图像引导多模态图像融合扩散网络，其中对于每一层，来自所述一系列收缩层中的abr块的输出与来自所述一系列扩展层中的abr块的输出相拼接。

9.根据权利要求7所述的图像引导多模态图像融合扩散网络，其中所述abr块包括：

10.根据权利要求9所述的图像引导的多模态图像融合扩散网络，其中所述最后层和所述一个或多个中间层中的一个或多个归一化器包括自适应组归一化块；

11.根据权利要求10所述的图像引导的多模态图像融合扩散网络，其中每层还包括：

12.根据权利要求3所述的图像引导的多模态图像融合扩散网络，其中所述第一层将所述彩色图像、所述非可见光图像和所述高斯噪声图像拼接起来，以将所述输入驱动到所述一系列收缩层中的初始收缩层，进行初始迭代。

13.根据权利要求3所述的图像引导多模态图像融合扩散网络，其中所述彩色图像具有代表红色、绿色和蓝色的像素；

14.一种用于多模态图像融合的神经网络扩散框架，包括：

15.根据权利要求14所述的神经网络的扩散框架，其中所述abr块包括：第一层，其接收所述abr块的输入，所述第一层具有卷积层，其生成第一层输出，给到下一层；

16.根据权利要求15所述的神经网络的扩散框架，其中所述abr块中的一个或多个归一化器包括自适应组归一化块；

17.根据权利要求16所述的神经网络的扩散框架，其中所述去噪神经网络还包括：

18.根据权利要求17所述的神经网络扩散框架，其中所述增强神经网络还包括：

19.一种多模态图像融合器，包括：

20.根据权利要求19所述的多模态图像融合器，还包括：

技术总结图像引导扩散网络有两个卷积神经网络(CNN)。RGB图像和IR图像与高斯噪声图像拼接在一起，并输入到去噪神经网络，该网络会合并来自RGB和IR图像的信息，同时通过多次迭代去除噪声。然后，增强神经网络对超分辨率(SR)进行上采样，并进行卷积以生成条件向量，控制三个卷积层的全局特征调制(GFM)，从而生成SRGFM增强融合图像。在去噪网络中，使用自适应分组归一化块在自适应块残差(ABR)块内嵌入时间步，该网络是一个具有多个ABR层级的UNet；在增强网络中，在特征调制之前也使用这种嵌入方式。通过三次卷积图像输入到增强网络，检测全局图像特征，以生成控制三个卷积层上的特征调制块的条件向量。技术研发人员：王至函,火熖受保护的技术使用者：香港应用科技研究院有限公司技术研发日：技术公布日：2024/7/29