一种图像训练数据的合成方法、装置与流程
- 国知局
- 2024-07-31 22:36:33
本发明涉及人工智能领域,特别地,涉及一种图像训练数据的合成方法。
背景技术:
1、现有的人工智能比较依赖大量的数据进行训练,这些作为样本数据的训练数据通常通过数据采集、数据筛选、数据标注等流程而获得,样本数量有限,所需时间较长。
2、采用数据合成是获取训练数据的方式之一,目前数据合成仅仅是将前景随机贴入到背景中,其中,前景、背景的获取都是基于人工筛选的图像,这使得训练数据的合成效率低下。
技术实现思路
1、本发明提供了一种图像训练数据的合成方法,以提高图像训练数据的合成效率。
2、本技术实施例第一方面提供了一种图像训练数据的合成方法,该方法包括:
3、获取当前的纯背景图像数据集、以及纯前景图像数据集,
4、从纯背景图像数据集提取纯背景图像数据,从纯前景图像数据集提取纯前景图像数据,
5、将所提取的纯背景图像数据和所提取纯前景图像数据进行组合粘贴,得到包括合成图像数据的第一合成图像数据集,
6、其中,
7、所述纯背景图像数据集、以及纯前景图像数据集以如下方式获得:
8、利用标注数据集、以及第一合成图像数据集中的数据,对用于图像分割的第一机器学习模型进行训练,得到训练后的第一机器学习模型,其中,标注数据集用于训练过程中进行监督学习,
9、基于训练后的第一机器学习模型,对未标注图像数据进行图像分割,得到图像分割结果,
10、基于图像分割结果,从未标注图像数据中获取纯前景图像数据、以及纯背景图像数据,
11、将纯前景图像数据增加至纯前景图像数据集中,将纯背景图像数据增加至纯背景图像数据集中。
12、较佳地,所述图像分割结果包括所分割出的前景图像数据、以及该前景图像数据的置信度,
13、所述利用图像分割结果,从未标注图像数据中获取纯前景图像数据、以及纯背景图像数据,包括:
14、根据置信度确定纯前景图像数据、以及疑似前景图像数据,
15、从未标注图像数据中裁剪出所确定纯前景图像数据,并增加至纯背景图像数据集中,
16、从未标注图像数据中去除疑似前景图像、以及纯背景图像,得到缺失图像,对缺失图像进行图像补全处理,得到补全图像,将补全图像增加至纯背景图像数据集中。
17、较佳地,该方法进一步包括:
18、判断当前的纯背景图像数据集、和/或者纯前景图像数据集中的数据量是否满足设定的数量阈值,
19、如果不满足,则反复执行所述获取当前纯背景图像数据集、以及纯前景图像数据集的步骤,
20、如果满足,则根据任务需求,从当前的纯背景图像数据集提取纯背景图像数据,从纯前景图像数据集提取纯前景图像数据,将所提取的纯背景图像数据和所提取的纯前景图像数据进行组合粘贴,得到用于满足任务训练数据的第二合成图像数据集。
21、较佳地,所述根据置信度确定纯前景图像、以及疑似前景图像,包括:
22、在置信度大于设定的第一阈值、且小于设定的第二阈值的情况下,则判定该置信度所对应的前景图像为疑似前景图像,
23、在置信度大于第二阈值的情况下,则判定该置信度所对应的前景图像为纯前景图像;
24、其中,第一阈值小于第二阈值。
25、较佳地,其特征在于,所述对缺失图像进行图像补全处理,包括:
26、基于缺失图像,生成该缺失图像的第一掩码图像,
27、将缺失图像、以及第一掩码图像输入至训练后的用于图像补全的第二机器学习模型,得到纯背景图像;
28、或者,
29、以纯前景图像的轮廓所界定的区域,随机地在未标注图像进行区域抠除,通过训练后的用于图像补全的第三机器学习模型,对区域抠除后的未标注图像进行图像补全。
30、较佳地,所述将所提取的纯背景图像数据和所提取纯前景图像数据进行组合粘贴之后,进一步包括:对粘贴图像数据进行图像一致化处理,
31、其中,图像一致化处理包括:
32、基于粘贴图像数据,生成该粘贴图像数据的第二掩码图像数据,
33、将第二掩码图像数据、以及粘贴图像数据输入至训练后的用于图像一致化处理的第四机器学习模型。
34、较佳地,所述将所提取的纯背景图像数据和所提取纯前景图像数据进行组合粘贴之后,进一步包括:对粘贴图像数据进行图像一致化处理,
35、其中,
36、图像一致化处理包括:
37、利用训练后的用于图像一致性处理的第五机器学习模型,对粘贴图像数据进行图像一致性处理,
38、第五机器学习模型以如下方式进行训练:
39、调整纯前景区域的色度、亮度、对比度中的至少之一,得到调整后的纯前景图像,将调整后的纯前景图像数据输入至第五机器学习模型,将调整前的纯前景图像作为监督标签,对第五机器学习模型进行训练。
40、较佳地,所述将所提取的纯背景图像数据和所提取纯前景图像数据进行组合粘贴,包括:
41、根据设定的组合规则,将所提取的纯背景图像数据和所提取纯前景图像数据进行组合粘贴;
42、或者,
43、所述将所提取的纯背景图像数据和所提取纯前景图像数据进行组合粘贴,进一步包括:
44、利用训练后的用于贴图合理性评估的第六机器学习模型,对粘贴图像数据进行评估,并根据评估结果,对粘贴图像数据进行筛选,
45、其中,
46、第六机器学习模型以如下方式进行训练:
47、基于设定的粘贴规则,合成合理性差的图像作为负样本,
48、利用实际图像或者合成合理的图像作为正样本,
49、利用正样本和负样本对第六机器学习模型进行训练。
50、本技术的第二方面提供一种图像训练数据的合成装置,该装置包括:
51、获取模块,用于获取当前的纯背景图像数据集、以及纯前景图像数据集,
52、合成模块,用于从纯背景图像数据集提取纯背景图像数据,从纯前景图像数据集提取纯前景图像数据,将所提取的纯背景图像数据和所提取纯前景图像数据进行组合粘贴,得到包括合成图像数据的第一合成图像数据集,
53、图像分割训练模块,用于利用标注数据集、以及第一合成图像数据集中的数据,对用于图像分割的第一机器学习模型进行训练,得到训练后的第一机器学习模型,其中,标注数据集用于训练过程中进行监督学习,
54、图像分割模块,基于训练后的第一机器学习模型,对未标注图像数据进行图像分割,得到图像分割结果,
55、数据集处理模块,用于基于图像分割结果,从未标注图像数据中获取纯前景图像数据、以及纯背景图像数据,
56、将纯前景图像数据增加至纯前景图像数据集中,将纯背景图像数据增加至纯背景图像数据集中。
57、本技术第三方面提供一种计算机可读存储介质,所述存储介质内存储有计算机程序,所述计算机程序被处理器执行时实现任一所述图像训练数据的合成方法的步骤。
58、本技术实施例提供的图像训练数据的合成方法,以半监督学习的方式从未标注数据中获取纯背景图像和纯前景图像,大大减少了人工操作,实现了纯背景图像数据集、纯前景图像数据集的自动化扩无限充,既提高了图像训练数据的合成效率,又丰富了纯背景图像数据集、纯前景图像数据集的多样性,为图像训练数据的合成提供了丰富的素材,进而有利于提高图像训练数据的合成质量,可广泛用于根据纯背景图像数据集中的数据、纯前景图像数据集中的数据对神经网络进行训练,并基于训练后的神经网络进行图像分类、语义分割、目标检测、实例分割等应用。
本文地址:https://www.jishuxx.com/zhuanli/20240731/193837.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表