技术新讯 > 计算推算,计数设备的制造及其应用技术 > 一种多任务三维点云分割方法及装置 > 正文

一种多任务三维点云分割方法及装置

国知局
2024-10-09 14:49:07

本发明涉及三维点云分割，特别是涉及一种多任务三维点云分割方法及装置。

背景技术：

1、三维点云分割依据点云的类别语义以及形状纹理对点云场景进行划分。三维点云分割技术领域涉及众多子任务，包括但不局限于三维点云实例分割、语义分割、全景分割、交互式分割、参考分割、开放词汇语义分割任务。其中，三维实例分割、语义分割与全景分割致力于分割训练集中标注的目标类别与目标个体。三维点云交互式分割致力于根据用户输入的视觉提示分割指定的三维点云个体。三维点云参考分割致力于依据用户输入的文本描述分割出被描述的三维点云个体。三维点云分割是三维场景理解领域的基本问题，多任务三维点云分割技术具备广泛而实际的应用前景。

2、现有的三维点云分割方法通常将三维点云划分为体素以便于后续处理，但体素采用人为预设的固定的体素大小将三维点云划分为规则排列的三维栅格，忽略了三维点云中实例个体的的边缘纹理。另外，现有的三维点云分割方法通常针对单一三维点云分割任务进行设计，例如queryformer致力于实现优异的三维点云实例分割性能，octformer则致力于实现优异的三维点云语义分割性能。针对单一任务设计的三维点云分割方法在应用于智能家居等多任务场景时，需要针对多个任务分别运行单一任务点云分割方法，这对算力资源以及存储资源提出了较大的需求。因此，设计多任务三维点云分割方法，并研究利用三维点云的边缘纹理信息有着十分重要的应用价值。

3、鉴于此，克服该现有技术所存在的缺陷是本技术领域亟待解决的问题。

技术实现思路

1、本发明要解决的技术问题是提供一种多任务三维点云分割方法。

2、本发明采用如下技术方案：

3、第一方面，本发明提供了一种多任务三维点云分割方法，包括：

4、提取三维点云特征；将输入点云划分为超点，对超点内的点云进行特征池化，将池化后的特征作为超点特征；

5、对于交互式分割任务，依据用户输入的视觉提示信息，从超点特征中采样获得编码视觉提示信息的视觉提示特征；对于参考分割任务，采用文本编码器提取用户输入的文本提示信息的文本提示特征；

6、将超点特征、视觉提示特征和文本提示特征输入掩膜解码器，获得多任务掩膜，实现多任务三维点云分割；

7、采用知识蒸馏技术用交互式分割任务的输出信息约束实例分割、语义分割、参考分割任务的训练过程；

8、采用对比学习技术约束视觉提示特征与文本提示特征相互对齐。

9、优选的，所述提取三维点云特征，具体包括：

10、读取输入场景的三维点云数据其中n为三维点云包含的三维点个数，每个三维点由三维坐标x，y，z以及三通道颜色r，g，b进行描述；采用三维点云骨干网络提取三维点云特征其中din为三维点云特征的特征深度。

11、优选的，所述将输入点云划分为超点，对超点内的点云进行特征池化，将池化后的特征作为超点特征，具体包括：

12、依据点云的纹理信息将三维点云划分为m个超点，对每个超点内所包含三维点云的三维点特征进行特征池化，获得超点特征其中

13、优选的，所述对于交互式分割任务，依据用户输入的视觉提示信息，从超点特征中采样获得编码视觉提示信息的视觉提示特征，具体包括：

14、采样包含视觉提示信息对应的三维坐标的超点的超点特征作为视觉提示特征

15、所述对于参考分割任务，采用文本编码器提取用户输入的文本提示信息的文本提示特征，具体包括：

16、提取用户输入的文本提示信息，将文本提示信息送入tokenizer获得文本对应的token，表示为其中l表示输入文本的长度，c表示token的维度；将文本token送入文本编码器获得文本特征应用mlp将文本特征的特征深度映射为从而获得特征深度为的文本特征ft。

17、优选的，所述将超点特征、视觉提示特征和文本提示特征输入掩膜解码器，获得多任务掩膜，实现多任务三维点云分割，具体包括：

18、采用query统一表征超点特征、视觉提示特征与文本提示特征，具体的：

19、从超点特征fs中随机采样m个超点特征组成超点query，表示为在训练阶段设定m<m从而降低计算消耗，在推理阶段设定m＝m从而为每个超点进行类别预测；将视觉提示特征与文本提示特征直接作为视觉提示query与文本提示query，分别表示为其中kp为用户输入的视觉提示的数量，kt为用户输入的文本提示的数量；

20、为引导模型区分超点query、视觉提示query与文本提示query，设计任务

21、″′

22、embedding，表示为eu、ep、et；其中，qu＝qu+eu,qp＝qp+ep,qt＝qt+et,其中分别为超点query embedding、视觉提示queryembedding和文本提示query embedding；在query与embedding相加时，超点queryembedding、视觉提示query embedding和文本提示query embedding的特征形状分别被广播为

23、选取视觉transformer作为掩膜解码器，将叠加任务embedding的超点query、视觉提示query、文本提示query输入掩膜解码器进行三维点云分割预测。

24、优选的，所述选取视觉transformer作为掩膜解码器，将叠加任务embedding的超点query、视觉提示query、文本提示query输入掩膜解码器进行三维点云分割预测，具体包括：

25、计算掩膜解码器的输出特征fout＝maskdecoder(q＝concat(qu,qp,qt)；k＝fs；v＝fs),其中为掩膜解码器的输出特征，dout为特征深度；其中，视觉transformer由交叉注意力层以及自注意力层组成，自注意力层对输入query进行特征交互，交叉注意力层对输入query不进行特征交互；视觉提示query与文本提示query仅被送入视觉transformer中的交叉注意力层，超点query被送入视觉transformer的交叉注意力层与自注意力层；

26、将类别信息编码为类别embedding，模型预测类别embedding实现类别预测；其中类别embedding的提取是通过将类别名称文本依次送入文本编码器与mlp得到的；对于类别embedding，mlp的输出特征深度为dout；将类别embedding表示为kv为类别名称数量，模型输出掩膜maskpred与类别预测结果clspred通过以下公式获得：

27、

28、其中mlp将特征深度投影为dout，与分别代表第i个预测掩膜以及第i个类别预测结果；所述预测掩膜与类别预测结果均为超点的分割结果，为获得三维点云分割结果，将超点反向投影至三维点云，超点所包含的三维点的分割结果与该超点一致。

29、优选的，所述采用知识蒸馏技术用交互式分割任务的输出信息约束实例分割、语义分割、参考分割任务的训练过程，具体包括：

30、采用知识蒸馏技术优化三维点云分割精度，具体的：

31、超点query的输出结果表示为采用一对一匹配算法建立predu与视觉提示分割任务的标签的一对一匹配，将匹配上的输出结果划分为正样本，表示为

32、视觉提示分割的掩膜预测结果可被表示为从预测掩膜中选取置信度最高的k％的像素点的像素坐标作为学习区域

33、

34、应用bce损失函数采用视觉提示分割任务的掩膜预测结果约束超点query的掩膜预测结果：

35、

36、其中maskpos(r)与maskp(r)分别为正样本预测掩膜与视觉提示分割任务预测掩膜在学习区域r的预测值；

37、将指代相同实例个体的视觉提示query与文本提示query的类别预测结果分别表示为clsp与clst，应用bce损失函数采用视觉提示分割任务的类别预测结果约束参考分割任务的类别预测结果，具体的：

38、

39、应用与优化三维点云分割精度。

40、优选的，所述采用对比学习技术约束视觉提示特征与文本提示特征相互对齐，具体包括：

41、采用对比学习技术优化三维点云分割精度，具体的：

42、定义指代同一实例个体的视觉提示信息与文本提示信息为一组视觉-文本提示对，将b组视觉-文本提示对的提示特征投影为视觉embedding与文本embedding，分别表示为与其中，所述b组视觉-文本提示对为当前训练批次的视觉-文本提示对；

43、对比学习损失函数与用公式表示为：其中σ为可学习参数，用于控制对比学习损失的大小；

44、将第i个视觉embedding与第j个文本embedding进行向量点乘作为视觉embedding与文本embedding的相似度度量结果，表示为si,j；设计排序规则si,i>si,j，得到排序损失函数用公式表示为：

45、

46、应用对比学习损失函数与排序损失函数优化三维点云分割精度。

47、第二方面，本发明还提供了一种多任务三维点云分割装置，用于实现第一方面所述的多任务三维点云分割方法，所述装置包括：

48、至少一个处理器；以及，与所述至少一个处理器通信连接的存储器；其中，所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述处理器执行，用于执行第一方面所述的多任务三维点云分割方法。

49、第三方面，本发明还提供了一种非易失性计算机存储介质，所述计算机存储介质存储有计算机可执行指令，该计算机可执行指令被一个或多个处理器执行，用于完成第一方面所述的方法。

50、第四方面，提供了一种芯片，包括：处理器和接口，用于从存储器中调用并运行存储器中存储的计算机程序，执行如第一方面的方法。

51、第五方面，提供了一种包含指令的计算机程序产品，当该指令在计算机或处理器上运行时，使得计算机或处理器执行如第一方面的方法。

52、本发明通过利用三维点云的边缘纹理信息，理解用户输入的视觉提示与文本提示，从而实现了多任务三维点云分割，如实例分割、语义分割、全景分割、交叉式分割、参考分割和开放词汇语义分割中的一种或多种，减少在多任务情况下的算力资源和存储资源占用，拓展了三维点云分割算法在智能家居等多任务场景的应用前景。本发明可以基于单个模型实现多种点云分割任务，并通过知识蒸馏与对比学习技术建立任务间的相关性以提高模型在多个任务上的分割精度。本实施例还能够利用三维点云的边缘纹理信息，由于三维点云具有无序性，实例个体的边缘分布不规则，利用三维点云的边缘纹理信息有助于三维点云分割任务；并且可以基于单个模型实现多任务点云分割，有效拓展三维点云分割方法在多任务场景中的应用价值。