一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

数据的标注方法、装置和可读存储介质与流程

2022-02-20 05:07:53 来源:中国专利 TAG:


1.本发明涉及数据标注技术领域,具体而言,涉及一种数据的标注方法、装置和可读存储介质。


背景技术:

2.数据标注是对未处理的初级数据,包括语音、图片、文本、视频等进行加工处理,并转换为机器可识别信息的过程。原始数据一般通过数据采集获得,随后的数据标注相当于对数据进行加工,然后输送到人工智能算法和模型里完成调用。
3.当前人工智能数据集标注,存在以下问题:
4.(1)标注格式不统一,使用时需要格式转换,需要一定的代码量和手动工作量,标注策略框架、标签模板复用过程繁琐。
5.(2)数据标注、训练和模型验证过程分离,无法做到自动化。
6.(3)在大数据量数据集场景下,数据标注和模型训练的性能不佳。
7.(4)非结构化数据如何存储,以及性能问题。


技术实现要素:

8.本发明旨在解决或改善上述技术问题的至少之一。
9.为此,本发明的第一目的在于提供一种数据的标注方法。
10.本发明的第二目的在于提供一种数据的标注方法。
11.本发明的第三目的在于提供一种数据的标注方法。
12.本发明的第四目的在于提供一种数据的标注方法。
13.本发明的第五目的在于提供一种数据的标注装置。
14.本发明的第六目的在于提供一种可读存储介质。
15.为实现本发明的第一目的,本发明的技术方案提供了一种数据的标注方法,用于客户端侧,包括:发出创建数据集请求至数据服务;上传文件至对象存储服务;基于文件和标注信息上传至对象存储服务后,发出数据验证请求至数据服务。
16.本实施例中,文件的上传过程不涉及代码,可以采用图形化、向导式的形式,简化操作过程,用户无需掌握其他知识,实现低门槛,基于固定流程的向导式交互,针对起步晚,基础差的传统行业用户,更为简洁和友好,更好的提升了用户体验。
17.另外,本发明提供的技术方案还可以具有如下附加技术特征:
18.上述技术方案中,上传文件至对象存储服务,具体包括:选择上传文件夹,向数据服务批量请求上传预签名链接后,上传文件至对象存储服务。
19.本实施中,首先选择上传文件夹,然后向数据服务批量请求上传预签名链接后,再上传文件至对象存储服务,通过预签名链接,可以更好的校验身份,保证数据的安全,满足多租户场景下数据的安全性的需求。
20.上述任一技术方案中,数据的标注方法还包括:向数据服务批量请求数据集标注
信息和文件下载预签名链接;接收数据服务返回的下载链接;根据下载链接,并行下载文件;基于文件和标注信息,分批次对模型进行训练。
21.本实施例中,在获取到文件和标注信息,可以直接分批次对模型进行训练,数据标注与模型训练无缝集成,实现一体化的数据标注、训练和模型验证。
22.为实现本发明的第二目的,本发明的技术方案提供了一种数据的标注方法,用于数据服务侧,包括:接收创建数据集请求,根据数据集名称保存元数据信息至数据库;接收到客户端发出的数据验证请求,对对象存储服务中存储的文件进行数据集验证;接收标注平台发出的未标注文件列表请求,根据元数据信息,查找未标注文件,得到未标注集文件,将未标注集文件返回至标注平台。
23.本实施例中,数据服务实现对象存储服务中存储的文件的数据集验证,可以将第三方格式标注信息转换为自有格式标注信息,操作简单,实现一定程度的自动化操作。
24.另外,本发明提供的技术方案还可以具有如下附加技术特征:
25.上述技术方案中,对对象存储服务中存储的文件进行数据集验证,具体包括:验证文件是否存在;基于文件和标注信息存在,检查文件是否包括可交换图像文件格式信息;基于文件包括可交换图像文件格式信息,删除文件的可交换图像文件格式信息;建立第三方标注信息与被标注文件的映射关系,基于映射关系,将第三方标注信息转换为自有格式标注信息。
26.本实施例通过建立映射关系,自动进行转换与标注,针对起步晚,基础差的传统行业用户,更为友好。
27.上述任一技术方案中,将第三方标注信息转换为自有格式标注信息,具体包括:启动后台定时任务框架作业,将第三方格式标注信息转换为自有格式标注信息。
28.本实施例中,定时任务框架作业采用quartz,采用定时任务框架可以对任务进行有效管理,包括任务的启动时间,任务的唯一性,任务失败后的策略等。并且,采用定时任务框架还可以对大数据集进行任务拆分,并行验证。
29.上述任一技术方案中,数据的标注方法还包括:接收数据集标注信息和文件下载预签名链接请求,根据元数据信息,得到数据集对应路径下的文件和标注文件列表,生成下载链接,将下载链接返回至客户端。
30.本实施例通过预签名链接方式,可以更好的校验身份,保证数据的安全,满足多租户场景下数据的安全性的需求。
31.为实现本发明的第三目的,本发明的技术方案提供了一种数据的标注方法,用于对象存储服务侧,包括:接收并存储元数据信息;接收并存储文件;接收并存储标注信息。
32.本实施例中,对象存储服务可以选用目前主流的开源框架minio(开源分布式文件存储系统)。
33.另外,本发明提供的技术方案还可以具有如下附加技术特征:
34.上述技术方案中,接收并存储标注信息,具体包括:通过数据库批量查询,对标注信息所对应文件进行验证后,保存标注信息。
35.本实施例中,先对标注信息所对应文件进行验证后,验证通过后,保存标注信息,本实施例通过数据库批量查询实现上述过程,方法简单,便于实施。
36.为实现本发明的第四目的,本发明的技术方案提供了一种数据的标注方法,用于
标注平台侧,包括:向数据服务请求未标注文件列表;接收并验证数据服务返回的标注集文件,解析标注集文件,适配标注格式,对标注集文件进行标注;将标注信息发送至对象存储服务。
37.本实施例中,标注平台具有高兼容性的特点,支持目前主流标注格式。
38.为实现本发明的第五目的,本发明的技术方案提供了一种数据的标注装置,包括:存储器和处理器,存储器存储有程序或指令,处理器执行程序或指令;其中,处理器在执行程序或指令时,实现如本发明任一技术方案的数据的标注方法的步骤。
39.本技术方案提供的数据的标注装置实现如本发明任一技术方案的数据的标注方法的步骤,因而其具有如本发明任一技术方案的数据的标注方法的全部有益效果,在此不再赘述。
40.为实现本发明的第六目的,本发明的技术方案提供了一种可读存储介质,可读存储介质存储有程序或指令,程序或指令被执行时,实现上述任一技术方案的数据的标注方法的步骤。
41.本技术方案提供的可读存储介质实现如本发明任一技术方案的数据的标注方法的步骤,因而其具有如本发明任一技术方案的数据的标注方法的全部有益效果,在此不再赘述。
42.本发明的附加方面和优点将在下面的描述部分中变得明显,或通过本发明的实践了解到。
附图说明
43.本发明的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:
44.图1为根据本发明一个实施例的数据的标注方法流程图之一;
45.图2为根据本发明一个实施例的数据的标注方法流程图之二;
46.图3为根据本发明一个实施例的数据的标注方法流程图之三;
47.图4为根据本发明一个实施例的数据的标注方法流程图之四;
48.图5为根据本发明一个实施例的数据的标注方法流程图之五;
49.图6为根据本发明一个实施例的数据的标注方法流程图之六;
50.图7为根据本发明一个实施例的数据的标注方法流程图之七;
51.图8为根据本发明一个实施例的数据的标注方法流程图之八;
52.图9为根据本发明一个实施例的数据的标注方法流程图之九;
53.图10为根据本发明一个实施例的数据的标注方法流程图之十;
54.图11为根据本发明一个实施例的数据的标注装置示意框图;
55.图12为根据本发明一个实施例的数据的标注示意图之一;
56.图13为根据本发明一个实施例的数据的标注示意图之二。
57.其中,图11至图13中附图标记与部件名称之间的对应关系为:
58.100:浏览器工作坊,102:数据服务,104:对象存储服务,106:minio,108:oss,110:mysql,112:标注平台,114:python sdk,200:数据的标注装置,210:存储器,220:处理器。
具体实施方式
59.为了能够更清楚地理解本发明的上述目的、特征和优点,下面结合附图和具体实施方式对本发明进行进一步的详细描述。需要说明的是,在不冲突的情况下,本技术的实施例及实施例中的特征可以相互组合。
60.在下面的描述中阐述了很多具体细节以便于充分理解本发明,但是,本发明还可以采用其他不同于在此描述的其他方式来实施,因此,本发明的保护范围并不受下面公开的具体实施例的限制。
61.下面参照图1至图13描述本发明一些实施例的数据的标注方法、装置和可读存储介质。
62.实施例1:
63.如图1所示,本实施例提供了一种数据的标注方法,用于客户端侧,包括以下步骤:
64.步骤s102,发出创建数据集请求至数据服务;
65.步骤s104,上传文件至对象存储服务;
66.步骤s106,基于文件和标注信息上传至对象存储服务后,发出数据验证请求至数据服务。
67.本实施例中,客户端发出创建数据集请求至数据服务,数据服务接收创建数据集请求,根据数据集名称保存元数据信息至对象存储服务,客户端上传文件至对象存储服务,基于文件和标注信息上传至对象存储服务后,发出数据验证请求至数据服务,数据服务接收到客户端发出的数据验证请求,对对象存储服务中存储的文件进行数据集验证。
68.本实施例中,文件支持所有非结构化数据,包括不限于:图片,视频,音频,文本等,可以对海量非结构化数据进行存储和管理。
69.本实施例中,文件的上传过程不涉及代码,可以采用图形化、向导式的形式,简化操作过程,用户无需掌握其他知识,实现低门槛,基于固定流程的向导式交互,针对起步晚,基础差的传统行业用户,更为简洁和友好,更好的提升了用户体验。
70.本实施例中,文件的处理过程可以并行进行,实现更高效的数据标注。
71.实施例2:
72.如图2所示,本实施例提供了一种数据的标注方法,除上述实施例的技术特征以外,本实施例进一步地包括了以下技术特征:
73.上传文件至对象存储服务,具体包括以下步骤:
74.步骤s202,选择上传文件夹,向数据服务批量请求上传预签名链接后,上传文件至对象存储服务。
75.本实施中,首先选择上传文件夹,然后向数据服务批量请求上传预签名链接后,再上传文件至对象存储服务,通过预签名链接,可以更好的校验身份,保证数据的安全,满足多租户场景下数据的安全性的需求。
76.实施例3:
77.如图3所示,本实施例提供了一种数据的标注方法,除上述实施例的技术特征以外,本实施例进一步地包括了以下技术特征:
78.数据的标注方法还包括以下步骤:
79.步骤s302,向数据服务批量请求数据集标注信息和文件下载预签名链接;
80.步骤s304,接收数据服务返回的下载链接;
81.步骤s306,根据下载链接,并行下载文件;
82.步骤s308,基于文件和标注信息,分批次对模型进行训练。
83.本实施例中,在对数据进行标注完成后,可以向数据服务批量请求数据集标注信息和文件下载预签名链接,并且在接收数据服务返回的下载链接,然后下载文件,下载文件后,分批次对模型进行训练。其中,本实施例通过预签名链接的方式,可以更好的校验身份,保证数据的安全,满足多租户场景下数据的安全性的需求。本实施例中,在获取到文件和标注信息,可以直接分批次对模型进行训练,数据标注与模型训练无缝集成,实现一体化的数据标注、训练和模型验证,实现自动化。并且,在大数据量数据集场景下,数据标注和模型训练满足海量数据在标注和训练场景下的性能要求。
84.本实施例在短时间内即可应用到模型训练,形成真正的ai商业价值。
85.实施例4:
86.如图4所示,本实施例提供了一种数据的标注方法,用于数据服务侧,包括以下步骤:
87.步骤s402,接收创建数据集请求,根据数据集名称保存元数据信息至数据库;
88.步骤s404,接收到客户端发出的数据验证请求,对对象存储服务中存储的文件进行数据集验证;
89.步骤s406,接收标注平台发出的未标注文件列表请求,根据元数据信息,查找未标注文件,得到未标注集文件,将未标注集文件返回至标注平台。
90.本实施例中,客户端发出创建数据集请求至数据服务,数据服务接收创建数据集请求,根据数据集名称保存元数据信息至对象存储服务的数据库,客户端发出数据验证请求至数据服务,数据服务接收到客户端发出的数据验证请求,对对象存储服务中数据库存储的文件进行数据集验证,标注平台向数据服务请求未标注文件列表,数据服务接收标注平台向发出的未标注文件列表请求,根据元数据信息,查找未标注文件,得到未标注集文件,将未标注集文件返回至标注平台。
91.本实施例中,数据服务实现对象存储服务中数据库存储的文件的数据集验证,可以将第三方格式标注信息转换为自有格式标注信息,操作简单,实现一定程度的自动化操作。
92.实施例5:
93.如图5所示,本实施例提供了一种数据的标注方法,除上述实施例的技术特征以外,本实施例进一步地包括了以下技术特征:
94.对对象存储服务中存储的文件进行数据集验证,具体包括以下步骤:
95.步骤s502,验证文件是否存在;
96.步骤s504,基于文件和标注信息存在,检查文件是否包括可交换图像文件格式信息;
97.步骤s506,基于文件包括可交换图像文件格式信息,删除文件的可交换图像文件格式信息;
98.步骤s508,建立第三方标注信息与被标注文件的映射关系,基于映射关系,将第三方标注信息转换为自有格式标注信息;
99.步骤s510,统计数据集标签数量;
100.步骤s512,基于文件为图片或视频,添加图片或视频的缩略图。
101.本实施例中,对于对象存储服务中数据库存储的文件进行数据集验证,包括验证文件是否存在,检查文件是否包括可交换图像文件格式信息,文件如果有标注信息,此时的标注信息为第三方标注信息,可能不满足自有格式的要求,可以建立第三方标注信息与被标注文件的映射关系,然后基于映射关系,将第三方标注信息转换为自有格式标注信息,其中部分数据可以有自动化标注能力,在面向营销、采购、办公、hr管理、供应链、财务、制造等企业运营场景时,通过建立映射关系,自动进行转换与标注,针对起步晚,基础差的传统行业用户,更为友好。
102.本实施例中,在建立第三方标注信息与被标注文件的映射关系,基于映射关系,将第三方标注信息转换为自有格式标注信息后,还可以统计数据集标签数量,通过统计数据集标签数量,判断数据集每种标签的数量是否均衡,避免训练数据不均衡。
103.本实施例中还可以添加生成图片和视频的缩略图等,缩略图用于数据集详情页的文件详情展示。
104.实施例6:
105.如图6所示,本实施例提供了一种数据的标注方法,除上述实施例的技术特征以外,本实施例进一步地包括了以下技术特征:
106.将第三方标注信息转换为自有格式标注信息,具体包括以下步骤:
107.步骤s602,启动后台定时任务框架作业,将第三方格式标注信息转换为自有格式标注信息。
108.本实施例中,定时任务框架作业采用quartz,采用定时任务框架可以对任务进行有效管理,包括任务的启动时间,任务的唯一性,任务失败后的策略等。并且,采用定时任务框架还可以对大数据集进行任务拆分,并行验证。
109.实施例7:
110.如图7所示,本实施例提供了一种数据的标注方法,除上述实施例的技术特征以外,本实施例进一步地包括了以下技术特征:
111.数据的标注方法还包括以下步骤:
112.步骤s702,接收数据集标注信息和文件下载预签名链接请求,根据元数据信息,得到数据集对应路径下的文件和标注文件列表,生成下载链接,将下载链接返回至客户端。
113.本实施例中,数据服务在接收数据集标注信息和文件下载预签名链接请求后,根据元数据信息,得到数据集对应路径下的文件和标注文件列表,生成下载链接,将下载链接返回至客户端,便于客户端进行下载,其中,通过预签名链接方式,可以更好的校验身份,保证数据的安全,满足多租户场景下数据的安全性的需求。
114.实施例8:
115.如图8所示,本实施例提供了一种数据的标注方法,用于对象存储服务侧,包括以下步骤:
116.步骤s802,接收并存储元数据信息;
117.步骤s804,接收并存储文件;
118.步骤s806,接收并存储标注信息。
119.本实施例中,对象存储服务可以选用目前主流的开源框架minio(开源分布式文件存储系统),该框架支持s3(s3 simple storage service,简单存储服务)标注协议,可以与s3/oss(object storage service,阿里云提供的海量、安全、低成本、高持久的云存储服务)无缝适配。minio是世界上速度最快的对象存储服务的服务器,非常适合对安全要求严格的大型私有云环境,在各工作负载下可保证高可用,其中,minio为开源免费服务,oss为收费服务,采用minio可以有效减少成本。
120.本实施例中,对象存储服务还可以包括mysql(关系型数据库管理系统),用于数据存储。
121.实施例9:
122.如图9所示,本实施例提供了一种数据的标注方法,除上述实施例的技术特征以外,本实施例进一步地包括了以下技术特征:
123.接收并存储标注信息,具体包括以下步骤:
124.步骤s902,通过数据库批量查询,对标注信息所对应文件进行验证后,保存标注信息。
125.本实施例中,先对标注信息所对应文件进行验证后,验证通过后,保存标注信息,本实施例通过数据库批量查询实现上述过程,方法简单,便于实施。
126.实施例10:
127.如图10所示,本实施例提供了一种数据的标注方法,用于标注平台侧,包括以下步骤:
128.步骤s1002,向数据服务请求未标注文件列表;
129.步骤s1004,接收并验证数据服务返回的未标注集文件,解析未标注集文件,适配标注格式,对未标注集文件进行标注;
130.步骤s1006,将标注信息发送至对象存储服务。
131.本实施例中,标注平台具有高兼容性的特点,支持目前主流标注格式,包括但不限于:voc(visual object classes)、coco(common objects in context,微软团队提供的可以用来进行图像识别的数据集)、labelme(label me)、vott(visual object tagging tool)等。
132.本实施例可以实现数据集并行标注和任务管理,满足海量数据在标注场景下的性能要求,实现更高效的数据标注。
133.实施例11:
134.如图11所示,本实施例提供了一种数据的标注装置200,包括:存储器210和处理器220,存储器210存储有程序或指令,处理器220执行程序或指令;其中,处理器220在执行程序或指令时,实现如本发明任一实施例的数据的标注方法的步骤。
135.实施例12:
136.本实施例提供了一种可读存储介质,可读存储介质存储有程序或指令,程序或指令被处理器执行时,实现上述任一实施例的数据的标注方法的步骤。
137.具体实施例:
138.本实施提出了一种数据的标注方法,通过低门槛、可视化和向导式手段,实现大规模数据的并行标注以及任务管理,在短时间内即可应用到模型训练,形成真正的ai商业价
值。
139.本实施例拟解决以下至少一个关键问题:
140.(1)如何存储和管理海量非结构化数据,包括但不限于图片、视频、语音、文本;
141.(2)如何对数据集并行标注和任务管理;
142.(3)如何满足海量数据在标注和训练场景下的性能要求;
143.(4)如何满足多租户场景下数据的安全性。
144.本实施例的数据的标注方法,通过标注平台实现,标注平台为低门槛非结构化存储数据标注平台,包括客户端、数据服务和对象存储服务,可以实现数据集导入和数据标注的完整实现流程。
145.数据的标注方法具体包括:
146.(1)数据集导入:如图12所示,从浏览器工作坊100(或者客户端)发出创建数据集请求,数据服务102根据数据集名称保存元数据信息(保存至mysql110(关系型数据库管理系统))。浏览器工作坊100选择上传文件夹,向数据服务102批量请求上传url(预签名链接,presigned url),然后直接上传文件到对象存储服务104。
147.对象存储服务选用目前主流的开源框架minio106(开源分布式文件存储系统),该框架支持s3(s3 simple storage service,简单存储服务)标注协议,可以与s3/oss108无缝适配。minio是世界上速度最快的对象存储服务的服务器,非常适合对安全要求严格的大型私有云环境,在各工作负载下可保证高可用。
148.(2)数据集验证:如图12所示,所有文件上传后,用户在客户端点击验证数据集按钮。数据服务102收到请求后,启动后台quartz(定时任务框架,opensymphony开源组织在job scheduling领域的开源项目)作业,开始将第三方格式标注信息,转换为自有格式标注信息。
149.数据集验证内容如下:
150.1)验证文件是否存在。
151.2)删除图片exif信息,并且检查文件的签名判断是否是图片。
152.3)转换第三方标注为自有格式标注,建立第三方标注和被标注文件的映射关系。
153.4)统计数据集标签数量。
154.5)基于文件为图片或视频,添加图片或视频的缩略图。
155.(3)标注流程:如图13所示,标注平台112(标注服务)向数据服务102请求未标注文件列表。数据服务102根据数据集元数据信息,查找未标注文件,返回给标注平台112。对外,验证接收标注集文件,文件集名称等参数。对内,解析标注集文件,适配标注格式。通过数据库批量查询,验证标注信息所对应文件是否存在,保存标注信息。
156.(4)模型训练流程:如图13所示,python sdk114(软件开发工具包)向数据服务102批量请求数据集标注信息和文件下载url(预签名链接)。数据服务102根据数据集元数据信息,列出数据集对应路径下的文件和标注文件列表,生成下载链接,返回给python sdk114。python sdk114可以将返回的结果打散,并行下载文件,分批次进行模型训练。
157.本实施例中不涉及代码,数据集导入过程、数据集验证过程、数据标注的过程均为图形化和向导式,本实施例采用零代码、图形化、向导式数据集导入和标注过程。相比画布式交互的自由布局,基于固定流程的向导式交互,针对起步晚,基础差的传统行业用户,更
为简洁和友好。
158.本实施例中的标注平台具有高兼容性的特点,支持目前主流标注格式,包括但不限于:voc、coco、labelme、vott等。
159.本实施例中部分数据标注自动化能力,面向营销、采购、办公、hr管理、供应链、财务、制造等企业运营场景。
160.本实施例支持所有非结构化数据,包括不限于:图片,视频,音频,文本等。
161.本实施例中数据标注与模型训练无缝集成。
162.综上,本实施例的有益效果为:
163.1.本实施例中,文件支持所有非结构化数据,包括不限于:图片,视频,音频,文本等,可以对海量非结构化数据进行存储和管理。
164.2.本实施例中,文件的上传过程不涉及代码,可以采用图形化、向导式的形式,简化操作过程,用户无需掌握其他知识,实现低门槛,基于固定流程的向导式交互,针对起步晚,基础差的传统行业用户,更为简洁和友好,更好的提升了用户体验。
165.3.本实施例中,标注过程可以并行进行,实现更高效的数据标注。
166.在本发明中,术语“第一”、“第二”、“第三”仅用于描述的目的,而不能理解为指示或暗示相对重要性;术语“多个”则指两个或两个以上,除非另有明确的限定。术语“安装”、“相连”、“连接”、“固定”等术语均应做广义理解,例如,“连接”可以是固定连接,也可以是可拆卸连接,或一体地连接;“相连”可以是直接相连,也可以通过中间媒介间接相连。对于本领域的普通技术人员而言,可以根据具体情况理解上述术语在本发明中的具体含义。
167.本发明的描述中,需要理解的是,术语“上”、“下”、“左”、“右”、“前”、“后”等指示的方位或位置关系为基于附图所示的方位或位置关系,仅是为了便于描述本发明和简化描述,而不是指示或暗示所指的装置或单元必须具有特定的方向、以特定的方位构造和操作,因此,不能理解为对本发明的限制。
168.在本说明书的描述中,术语“一个实施例”、“一些实施例”、“具体实施例”等的描述意指结合该实施例或示例描述的具体特征、结构、材料或特点包含于本发明的至少一个实施例或示例中。在本说明书中,对上述术语的示意性表述不一定指的是相同的实施例或实例。而且,描述的具体特征、结构、材料或特点可以在任何的一个或多个实施例或示例中以合适的方式结合。
169.以上仅为本发明的优选实施例而已,并不用于限制本发明,对于本领域的技术人员来说,本发明可以有各种更改和变化。凡在本发明的精神和原则之内,所作的任何修改、等同替换、改进等,均应包含在本发明的保护范围之内。
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献