技术新讯 > 计算推算,计数设备的制造及其应用技术 > 一种训练数据集版本管理方法及系统与流程  >  正文

一种训练数据集版本管理方法及系统与流程

  • 国知局
  • 2024-11-21 12:19:29

本发明公开一种训练数据集版本管理方法及系统,涉及数据管理。

背景技术:

1、随着人工智能技术的飞速发展和大数据时代的到来,训练数据集作为机器学习模型的基石,其规模日益庞大,复杂度也显著提升。然而目前存在训练数据集版本控制不严格、版本信息缺失、更新效率低下、回溯困难等问题。这些问题不仅增加了数据管理的复杂度,还可能导致数据一致性问题频发,进而影响模型训练的结果和可靠性。同时,由于缺乏有效的版本控制机制,不同版本之间的数据差异难以准确追踪,历史版本数据也往往难以恢复。更为严重的是,在数据传输、存储和处理过程中,数据的完整性可能会受到破坏,如数据被篡改、丢失或损坏等,这也直接影响模型训练的结果和可靠性。

技术实现思路

1、本发明针对现有技术的问题,提供一种训练数据集版本管理方法及系统,显著降低数据管理的复杂度,提升版本管理的效率和准确性,从而保障模型训练的质量和可靠性。

2、本发明提出的具体方案是:

3、本发明提供一种训练数据集版本管理方法,包括:

4、步骤1:建立用于模型训练的数据集,为数据集生成唯一标识,唯一标识采用通用唯一识别码uuid,

5、步骤2:管理数据集版本:

6、步骤21:建立数据集版本,

7、步骤22:利用公式v = d + t + s,生成数据集版本标识,v为数据集版本标识,d为数据集唯一标识,t为时间戳,s为顺序编号,用于区分统一时间戳下多个数据集版本;

8、步骤23:根据数据集版本,创建所选数据集的静态快照,静态快照保存的元数据包括数据集版本标识v,创建时间、数据集包含的文件对象列表、对象索引以及每个文件对象的版本标识;

9、步骤24:根据静态快照,检查数据集中将发生内容变动的文件对象是否包含在静态快照中,是则在内容变动前将文件对象的当前版本拷贝到静态快照的对应存储中,并更新静态快照的元数据的对象索引,再进行数据集的变动操作,

10、步骤25:校验数据集完整性:根据数据集版本,明确数据集的边界,确定哪些文件对象被包含在当前的数据集版本之中,采用哈希算法对数据集中每个文件对象进行哈希值计算并记录哈希值,当数据集被调度用于执行训练任务前,遍历数据集中所有文件对象,使用相同的哈希算法重新计算每个文件对象的哈希值,并将新计算的哈希值与记录哈希值进行比对,若所有哈希值都匹配,则校验通过,否则触发警报。

11、进一步,所述的一种训练数据集版本管理方法的步骤1中还对数据集中文件对象进行分类管理,包括:根据当前数据集所包含文件的扩展名类型识别文件对象类型,文件对象类型包括图片、视频、音频和文本,并将文件对象类型与数据集中文件对象的保存路径作为元数据保存于数据库中。

12、进一步,所述的一种训练数据集版本管理方法的步骤21中建立数据集版本包括两种方式,一种方式为基于数据集中原始文件对象内容捕捉数据的静态快照,建立数据集版本并发布;另一种方式为基于已发布的数据集版本,在已有的数据集版本的文件对象内容基础上变更文件对象内容,生成新的数据集版本并发布。

13、进一步,所述的一种训练数据集版本管理方法的步骤25中校验数据集完整性,包括:

14、引入数据签名机制,利用哈希值记录文件记录每个文件对象的哈希值,使用私钥对哈希值记录文件加密,生成数字签名,

15、当数据集被调度用于执行训练任务前,使用对应的公钥对数字签名进行解密,获得原始的哈希值记录文件,并遍历数据集中所有文件对象,使用相同的哈希算法重新计算每个文件对象的哈希值,并将新计算的哈希值与哈希值记录文件中记录的哈希值进行比对,若所有哈希值都匹配,则校验通过,否则触发警报。

16、本发明还提供一种训练数据集版本管理系统,包括数据集管理模块、版本管理模块和完整性校验模块,

17、数据集管理模块建立用于模型训练的数据集,为数据集生成唯一标识,唯一标识采用通用唯一识别码uuid,

18、版本管理模块管理数据集版本:

19、建立数据集版本,

20、利用公式v = d + t + s,生成数据集版本标识,v为数据集版本标识,d为数据集唯一标识,t为时间戳,s为顺序编号,用于区分统一时间戳下多个数据集版本;

21、根据数据集版本,创建所选数据集的静态快照,静态快照保存的元数据包括数据集版本标识v,创建时间、数据集包含的文件对象列表、对象索引以及每个文件对象的版本标识;

22、根据静态快照,检查数据集中将发生内容变动的文件对象是否包含在静态快照中,是则在内容变动前将文件对象的当前版本拷贝到静态快照的对应存储中,并更新静态快照的元数据的对象索引,再进行数据集的变动操作;

23、完整性校验模块校验数据集完整性:根据数据集版本,明确数据集的边界,确定哪些文件对象被包含在当前的数据集版本之中,采用哈希算法对数据集中每个文件对象进行哈希值计算并记录哈希值,当数据集被调度用于执行训练任务前,遍历数据集中所有文件对象,使用相同的哈希算法重新计算每个文件对象的哈希值,并将新计算的哈希值与记录哈希值进行比对,若所有哈希值都匹配,则校验通过,否则触发警报。

24、进一步,所述的一种训练数据集版本管理系统的数据集管理模块还对数据集中文件对象进行分类管理,包括:根据当前数据集所包含文件的扩展名类型识别文件对象类型,文件对象类型包括图片、视频、音频和文本,并将文件对象类型与数据集中文件对象的保存路径作为元数据保存于数据库中。

25、进一步,所述的一种训练数据集版本管理系统的版本管理模块建立数据集版本包括两种方式,一种方式为基于数据集中原始文件对象内容捕捉数据的静态快照,建立数据集版本并发布;另一种方式为基于已发布的数据集版本,在已有的数据集版本的文件对象内容基础上变更文件对象内容,生成新的数据集版本并发布。

26、进一步,所述的一种训练数据集版本管理系统的完整性校验模块校验数据集完整性,包括:

27、引入数据签名机制,利用哈希值记录文件记录每个文件对象的哈希值,使用私钥对哈希值记录文件加密,生成数字签名,

28、当数据集被调度用于执行训练任务前,使用对应的公钥对数字签名进行解密,获得原始的哈希值记录文件,并遍历数据集中所有文件对象,使用相同的哈希算法重新计算每个文件对象的哈希值,并将新计算的哈希值与哈希值记录文件中记录的哈希值进行比对,若所有哈希值都匹配,则校验通过,否则触发警报。

29、本发明方法的有益之处是:

30、通过版本控制和智能化的数据处理机制,实现了对训练数据集版本的高效追踪与管理。不仅解决了数据集管理上面临的诸多问题,如版本混乱、数据丢失、篡改风险等问题,还为机器学习模型的训练与迭代提供了强有力的支持。

31、采用多层次版本控制策略和精细化管理,能够精确捕捉数据集的每一个变化,并生成唯一的版本标识,确保了数据集的版本清晰可追溯,同时减少了人工干预和错误率,大大提高了数据集管理的精确性和效率。用户能够轻松查询、比较和回滚到任意历史版本,从而加速机器学习模型的调试和优化过程。

32、流程自动化地管理和监控数据集的创建、修改、发布到使用整个过程,提升了数据集管理效率、保障数据完整性与安全性,并能够促进团队协作与数据共享。

本文地址:https://www.jishuxx.com/zhuanli/20241120/335206.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。