技术新讯 > 计算推算,计数设备的制造及其应用技术 > 一种基于输入数据引导的单样本泛化目标分割方法、装置和介质与流程 > 正文

一种基于输入数据引导的单样本泛化目标分割方法、装置和介质与流程

国知局
2024-12-06 12:51:44

本发明涉及一种基于输入数据引导的单样本泛化目标分割方法、装置和介质，属于单样本泛化。

背景技术：

1、随着机器学习技术的快速发展，单样本泛化成为了一个备受关注的研究领域。单样本泛化是指机器学习模型在面对之前未见过的数据类别时，仍能保持一定的预测准确性。这种能力在处理新类别数据，特别是缺乏训练数据的情况下显得尤为重要。在现有的单样本泛化技术方案中，主要有以下几种策略：

2、利用语义信息：包括使用属性来描述每个类别，并通过这些属性来推断未见过的类别。例如，在动物分类任务中，使用“有羽毛”、“会飞”等属性来描述鸟类。通过文本描述来表达类别的特性，模型学习从文本到视觉特征的映射，从而对新类别进行识别。

3、共享特征空间：将视觉特征与语义特征（如属性向量或文本嵌入）映射到同一个空间中，使得模型能够根据语义信息对未见过的类别进行预测。结合图像、文本等不同模态的信息，使模型能够从多个角度理解数据，增强模型的泛化能力。

4、跨模态学习：通过在不同模态之间共享信息来增强模型的泛化能力。在训练过程中同时考虑多种模态的数据，以提高模型的泛化性能。

5、然而，尽管这些技术在一定程度上解决了单样本泛化的问题，但仍存在一些显著的局限性和挑战：

6、关于依赖于语义信息，属性描述可能不够准确或者无法完全捕捉到类别的所有关键特征，导致模型在未见过的类别上表现不佳。如果文本描述质量不高，模型可能无法正确学习到语义信息，进而影响预测准确性。

7、关于特征空间的对齐问题，视觉特征和语义特征可能分布在不同的空间中，导致对齐变得困难。在高维特征空间中，对齐过程可能变得复杂且计算成本高昂。

8、关于跨模态学习的挑战，不同模态之间的关联性可能不够强，影响模型的学习效果。图像和文本描述之间可能存在不一致的情况，导致模型学习到错误的关联。

技术实现思路

1、本发明目的是提供了一种基于输入数据引导的单样本泛化目标分割方法、装置和介质，通过数据引导的方式提高模型在零样本场景下的分割性能。

2、本发明为实现上述目的，通过以下技术方案实现：

3、一种基于输入数据引导的单样本泛化目标分割方法，包括以下步骤：

4、采集训练集数据，并进行预处理；

5、构建并训练单样本泛化目标分割模型，所述单样本泛化目标分割模型包括目标分割框架、解码器；所述目标分割框架选取删除mlp head的vision transformer模型，所述vision transformer模型输出特征经过全连接层输入解码器；

6、调整提示图片及其对应的mask数据，并生成与训练图片同样大小的随机向量作为引导数据；

7、将引导数据与提示图片组合后输入单样本泛化目标分割模型，获取训练好的引导数据；

8、采集待检测图片，预处理后将已训练好的引导数据与待检测图片拼接后输入单样本泛化目标分割模型，模型输出基于引导数据的目标分割结果。

9、优选的，所述vision transformer模型通过imagenet数据集预训练，将训练完成的模型参数作为目标分割框架的参数。

10、优选的，所述解码器为3层上采样解码器，通过转置卷积恢复空间分辨率，其输出分辨率与训练集的mask大小对应。

11、优选的，所述单样本泛化目标分割模型的损失函数如下：

12、，

13、,

14、，

15、

16、其中，为图像中所有像素的位置集合，表示类别索引，为像素处的真实标签向量中的第个元素，为模型预测的概率向量中的第个元素，为根据边缘的重要性加权的系数，为模型预测的概率，为尺度集合是在尺度上的损失函数，是在尺度上的损失函数，是对应尺度的重要性权重，和为超参数。

17、优选的，通过单样本泛化目标分割模型获取训练好的引导数据，具体方式如下：

18、将引导数据与提示图片组合后输入单样本泛化目标分割模型，计算模型输出与提示图片mask的损失函数；采用梯度下降法调整引导数据的值，直至损失小于设定值，得到训练好的引导数据。

19、优选的，所述设定值为0.0001。

20、优选的，所述预处理方式如下：将尺寸小的数据通过上采样和双线性插值预处理，将尺寸大的数据通过下采样和双线性插值预处理，将所有数据集和mask统一维度。

21、一种基于输入数据引导的单样本泛化目标分割装置，包括处理器和存储有程序指令的存储器，所述处理器被配置为在运行所述程序指令时，执行所述的基于输入数据引导的单样本泛化目标分割方法。

22、一种计算机可读存储介质，其上存储有计算机程序，该程序被处理器所述的基于输入数据引导的单样本泛化目标分割方法。

23、本发明的优点在于：

24、本发明通过直接利用输入数据（即提示图片及其对应的mask数据）作为引导，减少了对外部语义信息的依赖，提高了模型的泛化能力和鲁棒性。通过利用visiontransformer（vit）模型强大的特征提取能力，结合基于输入数据引导的训练策略，有效改善了特征空间的对齐问题，提高了模型对未见类别的预测准确性。将待检测目标直接作为提示数据，简化了跨模态学习的复杂性，避免了模态间不一致性的问题，使得模型更容易从输入数据中学习到有效的特征表示。

25、本发明在损失函数设计中引入了边缘敏感损失和多尺度损失，使得模型在分割任务中更加注重边缘像素的准确性和多尺度信息的保留。这种设计有效提高了分割结果的精度和边缘敏感性，使得分割结果更加准确和细致。

26、与基于文本提示的单样本泛化技术相比，本发明不依赖于复杂的prompt编写技巧，将prompt的步骤数字化、固定化，大大降低了对提示词的依赖。同时，模型参数规模较小，更有利于实际应用中的部署和优化。

27、综上所述，本发明提出的基于输入数据引导的单样本泛化目标分割方法，在减少语义信息依赖、增强特征空间对齐能力、简化跨模态学习复杂性、提高分割精度和边缘敏感性、减少模型参数等方面均表现出显著的有益效果。

技术特征：

1.一种基于输入数据引导的单样本泛化目标分割方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的基于输入数据引导的单样本泛化目标分割方法，其特征在于，所述vision transformer模型通过imagenet数据集预训练，将训练完成的模型参数作为目标分割框架的参数。

3.根据权利要求1所述的基于输入数据引导的单样本泛化目标分割方法，其特征在于，所述解码器为3层上采样解码器，通过转置卷积恢复空间分辨率，其输出分辨率与训练集的mask大小对应。

4.根据权利要求1所述的基于输入数据引导的单样本泛化目标分割方法，其特征在于，所述单样本泛化目标分割模型的损失函数如下：

5.根据权利要求1所述的基于输入数据引导的单样本泛化目标分割方法，其特征在于，通过单样本泛化目标分割模型获取训练好的引导数据，具体方式如下：

6.根据权利要求5所述的基于输入数据引导的单样本泛化目标分割方法，其特征在于，所述设定值为0.0001。

7.根据权利要求5所述的基于输入数据引导的单样本泛化目标分割方法，其特征在于，所述预处理方式如下：将尺寸小的数据通过上采样和双线性插值预处理，将尺寸大的数据通过下采样和双线性插值预处理，将所有数据集和mask统一维度。

8.一种基于输入数据引导的单样本泛化目标分割装置，包括处理器和存储有程序指令的存储器，其特征在于，所述处理器被配置为在运行所述程序指令时，执行如权利要求1-7任一所述的基于输入数据引导的单样本泛化目标分割方法。

9.一种计算机可读存储介质，其特征在于，其上存储有计算机程序，该程序被处理器执行时实现如上述权利要求1-7任一所述的方法。

技术总结本发明提供了一种基于输入数据引导的单样本泛化目标分割方法、装置和介质，属于单样本泛化技术领域。所述方法包括：采集训练集数据，并进行预处理；构建并训练单样本泛化目标分割模型，所述单样本泛化目标分割模型包括目标分割框架、解码器；调整提示图片及其对应的mask数据，并生成与训练图片同样大小的随机向量作为引导数据；将引导数据与提示图片组合后输入单样本泛化目标分割模型，获取训练好的引导数据；采集待检测图片，通过模型输出基于引导数据的目标分割结果。本发明利用了VIT的强上下文关联与推理能力，强化了模型特征提取能力；通过直接利用输入数据作为引导，减少了对外部语义信息的依赖，提高了模型的泛化能力和鲁棒性。技术研发人员：曲荣芳,许宝祥,张文韩,田文博受保护的技术使用者：山东未来网络研究院（紫金山实验室工业互联网创新应用基地）技术研发日：技术公布日：2024/12/2