一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种黑夜场景图像语义分割方法、装置及计算机介质与流程

2023-09-22 02:56:48 来源:中国专利 TAG:


1.本发明属于图像处理技术领域,尤其涉及一种黑夜场景图像语义分割方法、装置及计算机介质。


背景技术:

2.传统图像语义分割技术已经取得了很不错的成绩。
3.经检索,相关技术中一种基于语义分割的待行区检测方法,涉及深度学习中的语义分割领域。本发明可用于对交通非现场执法影像中的左转待行区或右转待行区进行检测,该方法通过对图像进行像素级预测,得到代表待行区两侧曲线形式车道线的像素点,然后通过聚类及拟合算法得到曲线模型,最后连接曲线两端获得待行区区域。本发明对复杂环境下的待行区检测具有很好的效果,且对待行区检测的准确性较高。
4.经检索,相关技术中一种文档图像矫正方法、装置、存储介质及智能终端设备,属于计算机技术领域。所述方法应用于分布式文件系统,包括:获取原始文档图像,然后将所述原始文档图像输入至包括语义分割分支和边缘检测分支边缘检测模型中,得到所述原始文档图像对应的边缘概率图像,再从边缘概率图像中确定所述原始文档图像中文档边缘框的顶点坐标,基于原始文档图像中文档边缘框的顶点坐标计算出透视变换矩阵,最后基于所述透视变换矩阵对所述原始文档图像进行透视矫正,以得到包括畸变修复后的正视角文档图像的目标文档图像,方便了用户阅读以及文档存档,提升了用户体验。
5.但是,现有技术对夜晚场景下室内图像的任务都是寻求表达能力更强模型,或者对夜晚拍摄图片的修复,没有充分考虑到白天图像的数据对晚上图像数据的用处。
6.因此,有必要提供一种新的黑夜场景图像语义分割方法、装置及计算机介质解决上述技术问题。


技术实现要素:

7.本发明解决的技术问题是提供一种通过使用白天图像对夜晚图像进行样本混合的数据增强,依据领域自适应的思想将作用于源域的模型迁移到目标域,既扩充了样本多样性,又增强了模型鲁棒性,提升了黑夜场景下图片语义分割的效果的黑夜场景图像语义分割方法、装置及计算机介质。
8.为解决上述技术问题,本发明提供的黑夜场景图像语义分割方法包括以下步骤:
9.s1.通过u-net建立网络模型,模型由3层encoder 3层decoder组成,记一个3x3的卷积核 一个re l u为变换l ayer,一个maxpoo l为池化l ayer,一个2x2的up-conv为上采样l ayer,每一个encoder层由2个变换l ayer 1个池化l ayer组成,而每一个decoder层由2个变换l ayer 1个上采样l ayer组成;
10.s2.将白天场景图片数据集送入上述网络模型中,对图片每一个像素输出隐藏表示h,而采用交叉熵对h进行多分类操作输出像素每一个类别的概率,然后对概率进行argmax得到像素的最终分类,反向传播 梯度下降,反复迭代得到教师模型mt;
11.s3.使用教师模型mt对黑夜场景图片进行语义分割推理,然后采用se l f-trai nn i ng技术,对最高概率《阈值α的,不采纳其推理结果,>或=的推理类别视为其标签,即伪标签,伪标签与黑夜场景图片一一对应,构成黑夜场景训练样本;
12.s4.采用上述黑夜场景训练样本,与白天场景训练样本进行fmi x样本混合,使用混合样本训练处一个学生模型ms,;
13.s5.使用学生模型ms对黑夜场景训练样本进行语义分割。
14.作为本发明的进一步方案,所述学生模型的模型设计参照步骤s1所述的设计。
15.作为本发明的进一步方案,所述图像语义分割是图像处理和是计算机视觉技术中关于图像理解的重要一环,也是a i领域中一个重要的分支。
16.作为本发明的进一步方案,所述语义分割即是对图像中每一个像素点进行分类,确定每个点的类别(如属于背景、人或车等),从而进行区域划分。
17.作为本发明的进一步方案,一种黑夜场景图像语义分割装置,包括fmi x样本混合模块,所述fmi x样本混合模块用于初始生成白天和黑夜场景样本混合,可以从傅里叶空间动态采样地生成mask区域,生成更加均衡的混合样本;
18.教师模型训练模块,所述教师模型训练模块用于训练一个对白天场景图片语义分割良好的u-net模型;
19.学生模型训练模块,所述学生模型训练模块用于训练一个带有白天场景的先验知识,以及白天场景、黑夜场景的共性,同时兼顾黑夜场景的特性的模型,这里是领域自适应的设计思想的集中体现;
20.黑夜场景图片语义分割推理模块,所述黑夜场景图片语义分割推理模块在得到学生模型后,进行下一步完全的黑夜场景图片语义分割,推理出每一个像素分类的结果。
21.作为本发明的进一步方案,一种终端设备,所述终端设备包括:存储器、处理器以及存储在存储器上并可在处理器上运行的黑夜场景语义分割任务的运行程序,所述语义分割运行程序被处理器执行时实现如上述的语义分割任务方法的步骤。
22.作为本发明的进一步方案,所述终端设备可以是配置有wi ndows8/10/11操作系统的pc(persona l computer,个人计算机),所述终端设备还可以是手机、平板等可移动终端设备或者配置有其他操作系统的pc、服务器等固定式终端设备。
23.作为本发明的进一步方案,一种计算机介质,所述计算机可读存储介质上存储有黑夜场景语义分割任务的运行程序,所述语义分割任务被处理器执行时实现如上述语义分割方法的步骤。
24.与相关技术相比较,本发明提供的黑夜场景图像语义分割方法、装置及计算机介质具有如下有益效果:
25.1、本发明通过使用白天图像对夜晚图像进行样本混合的数据增强,依据领域自适应的思想将作用于源域的模型迁移到目标域,既扩充了样本多样性,又增强了模型鲁棒性,提升了黑夜场景下图片语义分割的效果;
26.2、本发明通过从领域自适应的思路出发,将同一摄像头拍摄的白天图片与夜晚图片分为两个数据集,显然白天数据集与夜晚数据集有着非常丰富的共性,也有着很显著的区别,因此可以视为源域和目标域,依据领域自适应的思想将白天数据集和夜晚数据集进行样本融合,从而通过白天数据集来提升夜晚数据集的效果。
附图说明
27.为了便于本领域技术人员理解,下面结合附图对本发明作进一步的说明。
28.图1为本发明实施例所涉及的硬件运行环境的终端设备的结构示意图;
29.图2为本发明语义分割方法的第一实施方案的流程示意图;
30.图3为本发明语义分割方法的第二实施方案的流程示意图;
31.图4为本发明语义分割方法的第一实施方案所涉及的基于u-net的网络模型示意图;
32.图5为本发明语义分割方法的第二实施例所涉及的fmi x样本混合流程示意图;
33.图6为本发明语义分割方法的第二实施例所涉及的fmi x样本混合流程文字描述;
34.图7为本发明语义分割方法所涉及的功能模块示意图;
35.图8为本发明自适应方案示意图。
具体实施方式
36.黑夜场景图像语义分割方法包括以下步骤:
37.s1.通过u-net建立网络模型,模型由3层encoder 3层decoder组成,记一个3x3的卷积核 一个re l u为变换l ayer,一个maxpoo l为池化l ayer,一个2x2的up-conv为上采样l ayer,每一个encoder层由2个变换l ayer 1个池化l ayer组成;而每一个decoder层由2个变换l ayer 1个上采样l ayer组成;
38.s2.将白天场景图片数据集送入上述网络模型中,对图片每一个像素输出隐藏表示h,而采用交叉熵对h进行多分类操作输出像素每一个类别的概率,然后对概率进行argmax得到像素的最终分类,反向传播 梯度下降,反复迭代得到教师模型mt;
39.s3.使用教师模型mt对黑夜场景图片进行语义分割推理,然后采用se l f-trai nn i ng技术,对最高概率《阈值α的,不采纳其推理结果,>或=的推理类别视为其标签,即伪标签,伪标签与黑夜场景图片一一对应,构成黑夜场景训练样本;
40.s4.采用上述黑夜场景训练样本,与白天场景训练样本进行fmi x样本混合,使用混合样本训练处一个学生模型ms,;
41.s5.使用学生模型ms对黑夜场景训练样本进行语义分割。
42.所述学生模型的模型设计参照步骤s1所述的设计。
43.所述图像语义分割是图像处理和是计算机视觉技术中关于图像理解的重要一环,也是ai领域中一个重要的分支。
44.所述语义分割即是对图像中每一个像素点进行分类,确定每个点的类别(如属于背景、人或车等),从而进行区域划分。
45.一种黑夜场景图像语义分割装置,包括fmi x样本混合模块,所述fmi x样本混合模块用于初始生成白天和黑夜场景样本混合,可以从傅里叶空间动态采样地生成mask区域,生成更加均衡的混合样本;
46.教师模型训练模块,所述教师模型训练模块用于训练一个对白天场景图片语义分割良好的u-net模型;
47.学生模型训练模块,所述学生模型训练模块用于训练一个带有白天场景的先验知识,以及白天场景、黑夜场景的共性,同时兼顾黑夜场景的特性的模型,这里是领域自适应
的设计思想的集中体现;
48.黑夜场景图片语义分割推理模块,所述黑夜场景图片语义分割推理模块在得到学生模型后,进行下一步完全的黑夜场景图片语义分割,推理出每一个像素分类的结果。
49.一种终端设备,所述终端设备包括:存储器、处理器以及存储在存储器上并可在处理器上运行的黑夜场景语义分割任务的运行程序,所述语义分割运行程序被处理器执行时实现如上述的语义分割任务方法的步骤。
50.所述终端设备可以是配置有wi ndows 8/10/11操作系统的pc(persona l computer,个人计算机),所述终端设备还可以是手机、平板等可移动终端设备或者配置有其他操作系统的pc、服务器等固定式终端设备。
51.一种计算机介质,所述计算机可读存储介质上存储有黑夜场景语义分割任务的运行程序,所述语义分割任务被处理器执行时实现如上述语义分割方法的步骤。
52.语义分割:
53.图像语义分割(semant i c segmentat i on)是图像处理和是计算机视觉技术中关于图像理解的重要一环,也是ai领域中一个重要的分支。语义分割即是对图像中每一个像素点进行分类,确定每个点的类别(如属于背景、人或车等),从而进行区域划分,目前,语义分割已经被广泛应用于自动驾驶、无人机落点判定等场景中,cnn虽然在图像分类上效果显著,但是不适合像素级的图像语义分割任务,目前比较流行的模型包括fcn(fu l l y convo l ut i ona l networks)和u-net网络及其变种。
54.常见的语义分割模型往往对图片质量有比较高的要求,比如相同模型,对白天场景的语义分割效果比较好,而对黑夜、雨天、雾天等场景的语义分割效果急剧下降。
55.领域自适应:
56.领域自适应是一种迁移学习(transfer learn i ng)技术,在经典的机器学习中,我们往往假设训练集和测试集分布一致,但是在实际的问题中,测试环境往往与训练的数据有较大的差异,这样就会出现过拟合问题:在训练集上训练结构较好,但是在测试集上的效果不好,因此出现了迁移学习技术,迁移学习的思路是将不同领域(如两个不同的数据集)的数据特征映射到同一个特征空间,使其在该空间中的距离尽可能近,比如特征空间中对source domai n训练的目标函数,就可以迁移到target domai n上,提高target domai n上的准确率。
57.源域(source domai n):与测试样本不同的领域,但是有丰富的监督信息目标域(target domai n):测试样本所在的领域,无标签或者只有少量标签。源域和目标域往往属于同一类任务,但是分布不同。
58.混合样本数据增强(mixed samp l e data augmentat ion,msda):
59.msda由于其实现简单且对性能提升确实有帮助,因此在图像识别、声音识别、gan、半监督学习等领域均有广泛的应用,msda的代表性算法是mixup,最早出现在i clr2018的论文“mi xup:beyond empi r ica l ri sk mi nimi zat ion”中。
60.mixup算法的核心思想是按一定的比例随机混合两个训练样本及其标签,这种混合方式不仅能够增加样本的多样性,并且能够使不同类别的决策边界过渡更加平滑,减少了一些难例样本的误识别,模型的鲁棒性得到提升,训练时也比较稳定,在mixup之后,又陆续提出了cutmix和fmix,cutmix对两个图片进行剪切混合,fmix则在cutmix之上进一步发
展,它允许任意形状的剪切,通过mask机制实现,在c i far-10上效果已经超过了mixup和cutmix。
61.在本发明中,混合样本的数据增强即为领域自适应思想的实现方式,将源域和目标域数据进行混合增强,提高目标域的语义分割效果。
62.受限于光线不足,夜晚场景的图像语义分割往往效果不好,本发明从领域自适应的思路出发,将同一摄像头拍摄的白天图片与夜晚图片分为两个数据集,显然白天数据集与夜晚数据集有着非常丰富的共性,也有着很显著的区别,因此可以视为源域和目标域,依据领域自适应的思想将白天数据集和夜晚数据集进行样本融合,从而通过白天数据集来提升夜晚数据集的效果。
63.本发明目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明,应当理解,此处所描述的具体实施例仅仅用以解释本发明,并不用于限定本发明。
64.请参照图1,图1为本发明实施例方案涉及的硬件运行环境的终端设备结构示意图。
65.本发明实施例终端设备可以是配置有wi ndows 8/10/11操作系统的pc(persona l computer,个人计算机),当然,该终端设备具体还可以是手机、平板等可移动终端设备或者配置有其他操作系统的pc、服务器等固定式终端设备。
66.如图1所示,该终端设备可以包括:处理器1001,例如中央处理器(centra l process i ng un it,cpu),通信总线1002、用户接口1003,网络接口1004和存储器1005,所述通信总线1002用于实现这些组件之间的连接通信,所述用户接口1003可以包括显示屏(di sp l ay)和输入单元比如键盘(keyboard),所述用户接口1003还包括标准的有线接口和无线接口,所述网络接口1004包括标准的有线接口和无线接口(如无线保真(wi re l ess-f i de l ity,wi-f i)接口),所述存储器1005可以是高速的随机存取存储器(random access memory,ram)存储器,也可以是稳定的非易失性存储器(non-vo l at i l ememory,nvm),例如磁盘存储器,所述存储器1005可选的还可以是独立于前述处理器1001的存储装置。
67.本领域技术人员可以理解,图1中示出的结构并不构成对终端设备的限定,可以包括比图示更多或更少的部件,或者组合某些部件,或者不同的部件布置。
68.如图1所示,作为一种存储介质的存储器1005中可以包括操作系统、数据存储模块、网络通信模块、用户接口模块以及视觉问答的运行程序。
69.在图1所示的终端设备中,所述网络接口1004主要用于与其他设备进行数据通信,所述用户接口1003主要用于与用户进行数据交互,本发明终端设备中的处理器1001和存储器1005可以设置在终端设备中,所述终端设备通过处理器1001调用存储器1005中存储的领域自适应的黑夜场景语义分割的运行程序,并执行本发明实施例提供的语义分割任务方法。
70.基于上述终端设备,提供本发明语义分割方法的各个实施例。
71.请参照图2和图7为本发明语义分割方法的第一实施例的流程示意图。
72.应当理解的是,虽然在流程图中示出了逻辑顺序,但是在某些情况下,本发明黑夜常见语义分割方法当然也可以以不同于此处的顺序执行所示出或描述的步骤:
73.步骤a10:基于u-net进行模型设计,模型由3层encoder 3层decoder组成,如图4所
示,记一个3x3的卷积核 一个re l u为一个变换l ayer,一个maxpoo l为一个池化l ayer,一个2x2的up-conv为一个上采样l ayer,每一个encoder层由2个变换l ayer 1个池化l ayer组成,而每一个decoder层由2个变换l ayer 1个上采样l ayer组成,将有标注的白天场景图片样本输入到模型中,输出每个图片的隐藏表示h;
74.步骤a20:获取到标签和隐藏表示h,采用交叉熵来对图片每一个像素进行多分类,构造l oss如下:
[0075][0076][0077]
其中n是图像中像素数,k是标签类别数,y是标签,如果类别是j,那么=1,否则=0,是隐藏表示h的第i行,表示第i个元素的隐藏表示,是神经网络的输出,即是类别i的概率;
[0078]
步骤30:基于上述损失,进行反向传播 梯度下降进行模型参数优化,最终模型收敛,得到一个可用于白天场景图片语义分割的教师模型mt。
[0079]
进一步地,基于上述本发明语义分割方法的第一实施例,在此提出本发明语义分割方法的第二实施例。
[0080]
请参照图3,图3为本发明语义分割方法第二实施例的流程示意图。
[0081]
基于图3所示的本发明语义分割的方法第一实施例,在上述步骤a30之后,本发明语义分割的方法还可以包括:
[0082]
步骤b10:将黑夜图片输入到教师模型mt中,输出对每一个像素的类别预测;
[0083]
在本实施例中,黑夜图片与白天图片来自同一拍摄设备在同一位置的取景,数据本身有着除光照之外的的大量共性;
[0084]
步骤b20:采用se l f-trann i ng的半监督方式对上述类别预测进行筛选,高于阈值的才采纳,视为伪标签;
[0085]
在本实施例中,模型会输出像素对k个类别的概率,通过argmax求出其中最高概率的类别,se l f-trann i ng方式是指对最高概率有一个阈值判断,如果最高概率《阈值,则认为本次预测置信度低,不予采纳,本实施例中,阈值取0.5;
[0086]
步骤b30:将白天场景图片和黑夜场景图片按fmi x的方式进行样本混合。
[0087]
本实施例中此处请参照图5和图6,分别为fmi x样本混合的流程示意图与描述,在样本混合的同时,对应图像标签也要进行混合,即取对应位置像素原来的标签或伪标签作为混合后标签;
[0088]
示例性的,图6中的贝塔分布采用α=1,β=5的贝塔分布,傅里叶空间中采样指的是指定图像尺寸从傅里叶空间得到一个离散采样频率,然后通过傅里叶反变换从频域变换到空间域,得到一个低频图像,其尺寸与图像尺寸相同。在本实施例中,图像尺寸为384
×
510,采用的傅里叶变换算法及反傅里叶变换为快速傅里叶变换(fft)算法在numpy中的实现ap i np.fft.fftfreqnd和np.fft.i rfftn。
[0089]
步骤b40:将上述混合样本输入另一个模型中训练,得到学生模型ms;
[0090]
在本步骤中,学生模型初始化需要继承教师模型的网络参数,训练完成得到的ms
既有教师模型对白天场景图片的分割能力,又具备对黑夜场景图片的分割能力。
[0091]
步骤b50:将黑夜场景图片送入学生模型ms中进行推理,输出黑夜场景图片的语义分割预测结果;
[0092]
在本实施例中,从步骤10一直到步骤50并不仅仅是一次流程,而是需要不断迭代,即学生模型ms需要重新作为教师模型对黑夜场景图片进行预测,鉴于学生模型往往对黑夜场景推理能力优于教师模型,每一次迭代得到的伪标签都更加准确。最后当预测结果趋于稳定,即连续两次迭代,对整张图片黑夜场景所有像素推理结果变化《5%,或者迭代次数达到最大迭代次数,即终止迭代。本实施例设置最大迭代次数为20。
[0093]
本发明提出了一种领域自适应的黑夜图片语义分割的方法、装置、终端设备及计算机介质,将白天图片和黑夜图片视为源域与目标域,目的是通过白天图片来增强黑夜图片的语义分割效果。
[0094]
将白天图片送入基于u-net神经网络结构设计的模型中,训练得到一个能够对白天图片进行良好语义分割的教师模型mt,采用教师模型mt对黑夜图片进行预测,通过se l f-trai nn i ng的方式对预测结果进行过滤,将置信度大于阈值的预测结果作为伪标签,使用带伪标签的黑夜图片和带真实标签的白天图片按fmi x的方式进行样本混合,混合之后的样本训练一个学生模型ms。
[0095]
学生模型ms与教师模型mt进行参数共享,然后教师模型继续对黑夜图片进行预测得到伪标签,伪标签的黑夜图片与真实标签白天图片进行fmi x样本混合,混合后样本训练学生模型ms,反复迭代直到收敛或达到最大迭代次数,之后就可以拿学生模型ms来对黑夜场景图片进行语义分割,得到最优结果。
[0096]
本发明使用白天图像对夜晚图像进行样本混合的数据增强,依据领域自适应的思想将作用于源域的模型迁移到目标域,既扩充了样本多样性,又增强了模型鲁棒性,提升了黑夜场景下图片语义分割的效果。
[0097]
以上所述,仅为本发明较佳的具体实施方式,但本发明的保护范围并不局限于此,任何熟悉本技术领域的技术人员在本发明揭露的技术范围内,根据本发明的技术方案及其发明构思加以等同替换或改变,都应涵盖在本发明的保护范围之内。
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表