一种训练数据获取方法、系统及计算机程序产品与流程
- 国知局
- 2024-07-31 22:50:25
本说明书涉及模型训练领域,特别涉及一种训练数据获取方法、系统及计算机程序产品。
背景技术:
1、大模型训练需要的数据量非常大。在进行模型训练前,用于一次训练大模型的计算资源有限,通常需要对原始数据进行筛选,选取具有代表性、质量高、平衡性好、多样性丰富的数据集作为模型训练的数据集。但由于模型训练的数据量一般来说是非常巨大的,会导致数据筛选的成本较高且效率较低。
2、因此,本发明提出了一种训练数据获取方法,可以提高数据筛选效率的同时能够降低数据筛选成本。
技术实现思路
1、本说明书一个或多个实施例提供一种训练数据获取方法。所述训练数据获取方法包括获取数据评估模型,所述数据评估模型基于第一数据集训练第一机器学习模型确定;将所述数据评估模型发送至所述分布式系统的各计算节点;利用各个计算节点,获取第二数据集,各个计算节点获取的第二数据集中的样本不同;使用所述数据评估模型对第二数据集中的每个样本进行评估以确定初始评估结果;对初始评估结果进行处理以预测每个样本的最终评估结果;以及根据最终评估结果确定所述第二数据集中的目标样本,所述目标样本构成第二机器学习模型的训练数据。
2、在一些实施例中,所述第一数据集包括正样本和负样本,所述正样本的质量高于所述负样本的质量。
3、在一些实施例中,所述数据评估模型包括线性分类器。
4、在一些实施例中,对所述初始评估结果进行处理以预测所述每个样本的最终评估结果包括利用采样算法对所述初始评估结果进行处理以预测所述最终评估结果。
5、在一些实施例中,所述采样算法包括gumbel采样算法。
6、在一些实施例中,对所述初始评估结果进行处理以预测所述每个样本的最终评估结果包括:利用训练后的第三机器学习模型对所述初始评估结果进行处理以预测所述最终评估结果。
7、在一些实施例中,根据所述最终评估结果确定所述第二数据集中的目标样本包括:对所述最终评估结果进行排序以确定满足条件的样本;以及将所述满足条件的样本指定为所述目标样本。
8、本说明书一个或多个实施例提供一种训练数据获取系统,包括多个计算节点,多个计算节点包括计算设备以及管理器。管理器被配置为用于获取数据评估模型,所述数据评估模型由第一数据集训练第一机器学习模型得到;将所述数据评估模型发送至所述多个计算节点的每个计算节点。多个计算节点中的每个计算节点被配置用于获取第二数据集,各个计算节点获取的第二数据集中的样本不同;使用所述数据评估模型对所述第二数据集中的每个样本进行评估以确定初始评估结果;对初始评估结果进行处理以预测每个样本的最终评估结果;以及根据最终评估结果确定第二数据集中的目标样本,目标样本构成第二机器学习模型的训练数据。
9、本说明书一个或多个实施例提供一种训练数据获取系统,包括获取模块、发送模块和评估模块;所述获取模块用于获取数据评估模型,所述数据评估模型由第一数据集训练第一机器学习模型得到;所述发送模块用于将所述数据评估模型发送至分布式系统中的多个计算节点的每个计算节点;所述评估模块用于使所述多个计算节点中的每个计算节点:获取第二数据集,各个计算节点获取的所述第二数据集中的样本不同;使用所述数据评估模型对所述第二数据集中的每个样本进行评估以确定初始评估结果;对所述初始评估结果进行处理以预测所述每个样本的最终评估结果;以及根据所述最终评估结果确定所述第二数据集中的目标样本,所述目标样本构成第二机器学习模型的训练数据。
10、本说明书一个或多个实施例提供一种训练数据获取装置,包括处理器,所述处理器用于执行训练数据获取方法。
11、本说明书一个或多个实施例提供一种计算机可读存储介质,所述存储介质存储计算机指令,当计算机读取存储介质中的计算机指令后,计算机执行训练数据获取方法。
12、本说明书一个或多个实施例提供一种计算机程序产品,包括计算机程序或计算机可执行指令,其特征在于,所述计算机程序或计算机可执行指令被处理器执行时,实现训练数据获取方法。
技术特征:1.一种基于分布式系统的训练数据获取方法,包括:
2.如权利要求1所述的训练数据获取方法,其中,所述第一数据集包括正样本和负样本,所述正样本的质量高于所述负样本的质量。
3.如权利要求1所述的训练数据获取方法,其中,所述数据评估模型包括线性分类器。
4.如权利要求1所述的训练数据获取方法,其中,对所述初始评估结果进行处理以预测所述每个样本的最终评估结果包括:
5.如权利要求4所述的训练数据获取方法,其中,所述采样算法包括gumbel采样算法。
6.如权利要求1所述的训练数据获取方法,其中,对所述初始评估结果进行处理以预测所述每个样本的最终评估结果包括:
7.如权利要求1所述的训练数据获取方法,其中,根据所述最终评估结果确定所述第二数据集中的目标样本包括:
8.一种用于训练数据获取的分布式系统,包括:
9.一种训练数据获取系统,包括获取模块、发送模块和评估模块;
10.一种计算机程序产品,包括计算机程序或计算机可执行指令,其特征在于,所述计算机程序或计算机可执行指令被处理器执行时,实现权利要求1至7任一项所述的训练数据获取方法。
技术总结本说明书实施例提供一种训练数据获取方法、系统及计算机程序产品。该方法包括分布式系统的各个计算节点获取由第一数据集训练获得的数据评估模型并使用数据评估模型对获取的第二数据集中的样本进行评估以确定初始评估结果。各个计算节点进一步对初始评估结果进行处理以预测每个样本的最终评估结果以及根据最终评估结果确定第二数据集中的目标样本以构成训练数据。通过利用分布式系统对训练数据进行筛选可以提高数据处理效率,同时各个计算节点对局部评估结果进行处理预测全局评估结果并基于全局评估结果筛选训练数据,可以避免将所有样本的初始评估结果进行汇总和比较以筛选目标样本所需要的计算节点之间的通信,从而降低通信成本。技术研发人员:韩景涛受保护的技术使用者:上海稀宇科技有限公司技术研发日:技术公布日:2024/7/29本文地址:https://www.jishuxx.com/zhuanli/20240730/194922.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。