图像处理方法及装置、计算机可读存储介质与流程
- 国知局
- 2024-11-18 18:12:23
本公开涉及人工智能领域,特别涉及图像处理方法及装置、计算机可读存储介质。
背景技术:
1、在图像处理任务中,卷积神经网络(convolutional neural networks,cnn)和变换器模型(transformer)是两种主要的深度学习模型结构。
2、卷积神经网络利用一系列卷积层提取图像中的局部信息,并通过池化层进行下采样以减少计算量和提高模型的平移不变性。不同于卷积神经网络的局部感受野,transformer通过自注意力机制捕捉全局上下文信息,这使得transformer能更好地理解图像的整体结构和长距离依赖关系。
技术实现思路
1、根据本公开的第一方面,提供了一种图像处理方法,包括:利用局部信息提取网络,确定图像的局部信息,其中,所述局部信息表示图像中局部邻域之间的依赖关系,局部信息提取网络包括多头卷积网络;利用全局信息提取网络,确定图像的全局信息,其中,全局信息提取网络包括多头注意力网络,全局信息表示图像的全局依赖关系;根据图像的局部信息和图像的全局信息,利用处理网络,生成图像处理结果。
2、在一些实施例中,所述多头卷积网络包括多个卷积核,所述利用局部信息提取网络,确定图像的局部信息,包括:利用多头卷积网络的多个卷积核,并行地从图像中提取图像的局部信息。
3、在一些实施例中,所述利用多头卷积网络的多个卷积核,并行地从图像中提取图像的局部信息,包括:获取具有多个通道的第一特征图;利用多个卷积核的每个卷积核,对第一特征图的多个通道中的部分通道进行卷积,得到卷积结果,其中,不同的卷积核对应的所述部分通道不重复;根据多个卷积核的卷积结果,确定图像的局部信息。
4、在一些实施例中,所述根据多个卷积核的卷积结果,确定图像的局部信息,包括:沿通道维度拼接多个卷积核的卷积结果,得到图像的局部信息。
5、在一些实施例中,所述获取具有多个通道的第一特征图,包括:生成图像的卷积位置编码;根据图像和卷积位置编码,生成所述第一特征图。
6、在一些实施例中,所述根据图像的局部信息和图像的全局信息,利用处理网络,生成图像处理结果,包括:利用第一尺寸的卷积核,对图像的局部信息进行卷积,得到局部卷积结果,其中,图像的局部信息为第二尺寸的第二特征图,第一尺寸超过多头卷积网络中多个卷积核的尺寸,且第一尺寸不超过第二尺寸;根据局部卷积结果和图像的全局信息,生成图像处理结果。
7、在一些实施例中,处理网络包括门控单元,所述根据图像的局部信息和图像的全局信息,利用处理网络,生成图像处理结果,包括:利用处理网络,融合图像的局部信息和图像的全局信息,得到融合信息;在融合过程中,利用门控单元,自适应地放大局部信息和图像的全局信息的至少一项,或自适应地抑制图像的局部信息和图像的全局信息的至少一项;根据融合信息,生成图像处理结果。
8、在一些实施例中,所述根据图像的局部信息和图像的全局信息,生成图像处理结果,包括:对图像的全局信息进行逐点卷积,得到全局卷积结果;根据图像的局部信息和全局卷积结果,生成图像处理结果。
9、在一些实施例中,全局信息提取网络还包括动态卷积网络,所述利用全局信息提取网络,确定图像的全局信息,包括:利用动态卷积网络,对图像进行下采样,得到第一输入信息;根据第一输入信息,利用多头注意力网络,确定图像的全局信息。
10、在一些实施例中,局部信息提取网络还包括动态卷积网络,所述利用局部信息提取网络,确定图像的局部信息,包括:利用动态卷积网络,对图像进行下采样,得到第二输入信息;根据第二输入信息,利用多头卷积网络,确定图像的局部信息。
11、在一些实施例中,局部信息提取网络还包括第一前馈神经网络;全局信息提取网络还包括第二前馈神经网络和残差注意力网络。
12、在一些实施例中,第一前馈神经网络和第二前馈神经网络的至少一项依次包括第一线性层、激活层和第二线性层,第一线性层的输入通道数与第二线性层的输出通道数相同。
13、根据本公开的第二方面,提供了一种图像处理模型的训练方法,其中,所述图像处理模型包括局部信息提取网络、全局信息提取网络和处理网络,所述图像处理模型的训练方法包括:获取图像训练样本,其中,图像训练样本包括图像和标签;利用局部信息提取网络,确定图像的局部信息,其中,所述局部信息表示图像中局部邻域之间的依赖关系,所述局部信息表示图像中局部邻域之间的依赖关系;利用全局信息提取网络,确定图像的全局信息,其中,全局信息提取网络包括多头注意力网络,全局信息表示图像的全局依赖关系;利用处理网络,根据图像的局部信息和图像的全局信息,生成图像处理结果;根据图像处理结果和标签,训练图像处理模型。
14、根据本公开的第三方面,提供了一种图像处理装置,包括:局部确定模块,被配置为利用局部信息提取网络,确定图像的局部信息,其中,所述局部信息表示图像中局部邻域之间的依赖关系,所述局部信息提取网络包括多头卷积网络;全局确定模块,被配置为利用全局信息提取网络,确定图像的全局信息,其中,全局信息提取网络包括多头注意力网络,全局信息表示图像的全局依赖关系;生成模块,被配置为根据图像的局部信息和图像的全局信息,利用处理网络,生成图像处理结果。
15、根据本公开的第四方面,提供了一种图像处理模型的训练装置,其中,所述图像处理模型包括局部信息提取网络、全局信息提取网络和处理网络,所述图像处理模型的训练方法包括:获取模块,被配置为获取图像训练样本,其中,图像训练样本包括图像和标签;局部确定模块,被配置为利用局部信息提取网络,确定图像的局部信息,其中,所述局部信息表示图像中局部邻域之间的依赖关系,所述局部信息表示图像中局部邻域之间的依赖关系;全局确定模块,被配置为利用全局信息提取网络,确定图像的全局信息,其中,全局信息提取网络包括多头注意力网络,全局信息表示图像的全局依赖关系;生成模块,被配置为利用处理网络,根据图像的局部信息和图像的全局信息,生成图像处理结果;训练模块,被配置为根据所图像处理结果和标签,训练图像处理模型。
16、根据本公开的第五方面,提供了一种图像处理装置,包括:存储器;以及耦接至所述存储器的处理器,所述处理器被配置为基于存储在所述存储器的指令,执行根据本公开任一实施例所述的图像处理方法或根据本公开任一实施例所述的图像处理模型的训练方法。
17、根据本公开的第六方面,提供了一种计算机可读存储介质,其上存储有计算机程序指令,该指令被处理器执行时,实现根据本公开任一实施例所述的图像处理方法或根据本公开任一实施例所述的图像处理模型的训练方法。
18、根据本公开的第七方面,提供了一种计算机程序产品,包括计算机程序指令,该计算机程序指令被处理器执行时,实现根据本公开任一实施例所述的图像处理方法或根据本公开任一实施例所述的图像处理模型的训练方法。
技术特征:1.一种图像处理方法,包括:
2.根据权利要求1所述的图像处理方法,其中,所述多头卷积网络包括多个卷积核,所述利用局部信息提取网络,确定图像的局部信息,包括:
3.根据权利要求2所述的图像处理方法,其中,所述利用多头卷积网络的多个卷积核,并行地从图像中提取图像的局部信息,包括:
4.根据权利要求3所述的图像处理方法,其中,所述根据多个卷积核的卷积结果,确定图像的局部信息,包括:
5.根据权利要求3所述的图像处理方法,其中,所述获取具有多个通道的第一特征图,包括:
6.根据权利要求1所述的图像处理方法,其中,所述根据图像的局部信息和图像的全局信息,利用处理网络,生成图像处理结果,包括:
7.根据权利要求1所述的图像处理方法,其中,处理网络包括门控单元,所述根据图像的局部信息和图像的全局信息,利用处理网络,生成图像处理结果,包括:
8.根据权利要求1所述的图像处理方法,其中,所述根据图像的局部信息和图像的全局信息,生成图像处理结果,包括:
9.根据权利要求1所述的图像处理方法,其中,全局信息提取网络还包括动态卷积网络,所述利用全局信息提取网络,确定图像的全局信息,包括:
10.根据权利要求1所述的图像处理方法,其中,局部信息提取网络还包括动态卷积网络,所述利用局部信息提取网络,确定图像的局部信息,包括:
11.根据权利要求1所述的图像处理方法,其中:
12.根据权利要求1所述的图像处理方法,其中,第一前馈神经网络和第二前馈神经网络的至少一项依次包括第一线性层、激活层和第二线性层,第一线性层的输入通道数与第二线性层的输出通道数相同。
13.一种图像处理模型的训练方法,其中,所述图像处理模型包括局部信息提取网络、全局信息提取网络和处理网络,所述图像处理模型的训练方法包括:
14.一种图像处理装置,包括:
15.一种图像处理模型的训练装置,其中,所述图像处理模型包括局部信息提取网络、全局信息提取网络和处理网络,所述图像处理模型的训练方法包括:
16.一种图像处理装置,包括:
17.一种计算机可读存储介质,其上存储有计算机程序指令,该指令被处理器执行时,实现根据权利要求1至12任一项所述的图像处理方法或根据权利要求13所述的图像处理模型的训练方法。
18.一种计算机程序产品,包括计算机程序指令,该计算机程序指令被处理器执行时,实现根据权利要求1至12任一项所述的图像处理方法或根据权利要求13所述的图像处理模型的训练方法。
技术总结本公开涉及图像处理方法及装置、计算机可读存储介质,涉及人工智能领域。图像处理方法包括:利用局部信息提取网络,确定图像的局部信息,其中,所述局部信息表示图像中局部邻域之间的依赖关系,局部信息提取网络包括多头卷积网络;利用全局信息提取网络,确定图像的全局信息,其中,全局信息提取网络包括多头注意力网络,全局信息表示图像的全局依赖关系;根据图像的局部信息和图像的全局信息,利用处理网络,生成图像处理结果。根据本公开,提高了图像处理的准确性。技术研发人员:王国鑫,安山,曹旭阳,金语欣受保护的技术使用者:北京京东拓先科技有限公司技术研发日:技术公布日:2024/11/14本文地址:https://www.jishuxx.com/zhuanli/20241118/327591.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。