自动驾驶场景下语义分割方法、存储介质及电子设备
- 国知局
- 2024-09-14 14:55:18
本发明涉及图像处理领域,特别是涉及一种自动驾驶场景下语义分割方法、存储介质及电子设备。
背景技术:
1、语义分割在自动驾驶中扮演者至关重要的角色。深度学习在语义分割领域取得了重大进展,但现有的方法仍然存在一些问题。例如,语义信息不够丰富、准确性不高、计算效率低下等。因此,新的技术和方法的研究对于改善这些问题具有重大的意义。
技术实现思路
1、基于此,有必要针对上述技术问题,提供一种基于混合transformer与多尺度超图的自动驾驶场景下语义分割方法、存储介质及电子设备。该方法有利于模型训练,提高模型精度。
2、第一方面,本发明提供一种自动驾驶场景下语义分割方法,所述方法包括:
3、获取汽车视角的道路彩色图像,并进行预处理获得图像x;
4、基于混合transformer的编码器,获得图像x不同尺度的语义特征;
5、利用图卷积提取图像x不同尺度的语义特征的空间信息,通过节点消息传递获得每个尺度的空间语义特征;
6、使用超图的概念,将每个尺度的图结构看作一个超图,求出其超边表示,利用超边实现不同尺度信息交互,得到多尺度空间混合语义信息;
7、通过混合解码器,融合多尺度空间语义信息,获得分割结果。
8、通过上述设计,能够有效的利用不同尺度的语义特征,采取多尺度特征交互的方式,更有利于网络模型的训练,提升训练精度。
9、在其中一个实施例中,所述预处理包括将获取的每一幅道路彩色图像进行归一化,将其像素值统一到[0,1],再将所有图像的宽、高统一设置为w、h得到所述图像x。
10、在其中一个实施例中,所述混合transformer的编码器包括四个重复堆叠的transformer编码块,第一尺度的transformer编码块的输入来自所述图像x,后一尺度的transformer编码块的输入是前一尺度的transformer编码块的输出。采用四个重复堆叠的编码块,能增加模型的深度,使得模型能够学习复杂的特征,能够多次对输入数据进行特征提取和表示学习,使模型具有更好的表现能力和泛化能力。
11、在其中一个实施例中,所述transformer编码块包括一个卷积块、一个窗口多头自注意层、一个滑动窗口多头自注意层、四个层归一化层和两个多层感知机。卷积块可以帮助模型捕获输入数据的空间信息和局部模式,它对输入数据进行初步的特征提取,使得后续的自注意层能够更好地关注到不同位置的特征。窗口多头自注意层可以帮助模型捕获全局信息,有助于模型理解输入数据中的全局模式和关联信息,从而提高模型对整体语境的理解能力。滑动窗口多头自注意层是可以处理较大尺寸的输入,同时减少计算复杂度,捕获更多的上下文信息。层归一化层可以帮助模型在训练过程中更快地收敛,并且有助于缓解梯度消失和梯度爆炸问题,从而提高模型的训练稳定性。多层感知机能对特征进行非线性变换和组合,增加模型的表征能力。
12、在其中一个实施例中,获得图像x不同尺度的语义特征包括:
13、s21:将所述图像x分别进行三个不同的卷积操作得到xq、xk、xv,将xq、xk进行交互得到全局注意力权重特征后与xv进行加权,得到全局注意力加权特征xs1:
14、
15、其中,a表示可学习参数,t表示矩阵转置,+表示对应元素相加,frelu(·)表示relu激活函数,fsoft(·)表示softmax函数,表示矩阵乘法;
16、将xs1进行序列化得到x's1,并输入第一尺度的transformer编码块获得一尺度语义特征fs1,
17、x'l1=w-msa(ln(conv(x's1))
18、xl1=mlp(ln(x'l1+x's1))+x'l1
19、x'l2=sw-msa(ln(xl1))
20、fs1=mlp(ln(xl'2+xl1))+xl'2
21、其中,conv(·)表示卷积操作,w-msa(·)表示基于窗口的多头自注意力机制,sw-msa(·)表示基于滑动窗口的多头自注意力机制,ln(·)表示层归一化操作,mlp(·)表示多层感知机;
22、s22:将一度尺度语义特征fs1通过patchmerging模块进行下采样操作,并调整通道数,随后重复步骤s21得到二尺度语义特征fs2;
23、s23:利用二尺度语义特征fs2,重复步骤s22得到三尺度语义特征fs3,再利用三尺度语义特征fs3,重复步骤s22得到四尺度特征fs4。
24、在其中一个实施例中,所述图像x进行的三个不同的卷积操作的卷积核为3*3,步长为1,填充为1,随机生成初始化权重。
25、在其中一个实施例中,利用图卷积提取图像x不同尺度的语义特征的空间信息,通过节点消息传递获得每个尺度的空间语义特征包括:
26、基于fs1、fs2、fs3构建图结构得到各尺度图结构分别通过三个图卷积操作,公式表达如下:
27、
28、其中,gcn(·)表示图卷积方法,σ(·)激活函数。
29、在其中一个实施例中,使用超图的概念,将每个尺度的图结构看作一个超图,求出其超边表示,利用超边实现不同尺度信息交互,得到多尺度空间混合语义信息包括:
30、s41:利用超图的概念,将基于fs1、fs2、fs3构建的图结构用一个超边进行关联,得到超边如下:
31、
32、其中,m∈(1,2,3),hm表示第m尺度的超边,表示第m尺度的第n个节点的特征,⊙表示矩阵各元素对应相乘;
33、获得的超边h1、h2、h3,其维度大小分别为(d1,1)、(d2,1)、(d3,1);
34、s42:将每条超边都与其他两条进行交互,具体包括:将h1分别与h2、h3进行矩阵乘法得到超边特征矩阵f1-2、f1-3,
35、
36、其中,f1-2、f1-3的维度分别为(d1,d2)、(d1,d3);
37、对f1-2、f1-3分别进行1×d2、1×d3的卷积操作,得到混合交互后的超边特征h1-2、h1-3,利用h1-2、h1-3对原超边h1进行加权处理,得到h'1-2、h'1-3,
38、
39、s43:对h'1-2进行3次不同的卷积操作,得到对h'1-3进行两次不同的卷积操作,得到
40、利用进行注意力交互操作,得到再使用进行注意力交互操作,得到新的超边h'1,
41、
42、其中,a表示可学习参数,frelu(·)表示relu激活函数,fsoft(·)表示softmax函数,表示矩阵乘法,t表示矩阵转置;
43、s44:根据步骤s42、s43,将h2与h1、h3进行混合交互得到h'2,将h3与h1、h2进行混合交互得到h3',并将新的超边的信息赋给对应尺度的图结构上,公式表达如下:
44、
45、
46、
47、其中,表示广播加法,将获得的各尺度图结构进行图像重构,得到多尺度空间混合语义信息;
48、在其中一个实施例中,h'1-2进行3次不同的卷积操作的卷积核为3*3,步长为1,填充为1,随机生成初始化权重;
49、和/或,h'1-3进行两次不同的卷积操作的卷积核为3*3,步长为1,填充为1,随机生成初始化权重。
50、在其中一个实施例中,所述混合解码器包括三个重复堆叠的解码器,优选地,所述解码器包括上采样层、卷积层、归一化层、激活层。重复堆叠解码器的主要目的之一是对编码器中提取的特征进行逐步重建,将抽象的特征表示逐渐转换为输入图像空间中的语义特征。解码器通过上采样和跳跃连接等操作,可以促进低层特征和高层特征之间的信息传递,从而帮助模型集成多尺度的特征信息,帮助模型还原输入图像中的细节信息,同时保持语义信息的一致性。从而提高模型在语义分割任务上的性能表现。
51、在其中一个实施例中,通过混合解码器,融合多尺度空间语义信息,获得分割结果包括:
52、s51:将四尺度特征fs4进行上采样,再将其与gs3进行拼接后,依次进行卷积、归一化、激活操作得到解码器1的输出,公式表达如下:
53、f'u1=concat(upsample(fs4),gs3)
54、fu1=frelu(ln(conv(f'u1)))
55、其中upsample(·)表示上采样操作,concat(·)表示通道拼接;
56、s52:将解码器1的输出进行上采样,并与gs2进行拼接,作为解码器2的输入,依次进行卷积、归一化、激活操作得到解码器2的输出;
57、s53:将解码器2的输出进行上采样,与gs1进行拼接,作为解码器3的输入,依次进行卷积、归一化、激活操作,由此得到分割结果。
58、第二方面,本发明还提供一种存储介质,其上存储有计算机程序,其中,所述程序被执行时实现本发明第一方面所述的方法。
59、第三方面,本发明实施例提供一种电子设备,包括:
60、一个或多个处理器;
61、存储装置,其上存储有一个或多个程序;
62、当所述一个或多个程序被所述一个或多个处理器执行时,使得所述一个或多个处理器实现本发明第一方面所述的方法。
63、本发明提出基于混合transformer与多尺度超图的自动驾驶场景下语义分割方法能够更有效的提取图像的局部和全局特征,并获得多尺度的图像语义特征,利用不同尺度语义特征的相互作用,使得模型能够学习到不同尺度之间注意力关系,更有利于模型训练和提升模型精度。
本文地址:https://www.jishuxx.com/zhuanli/20240914/296376.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表