一种大模型数据集的清洗方法、装置、设备及介质与流程
- 国知局
- 2025-01-10 13:15:35
本申请涉及数据清洗领域,具体提供一种大模型数据集的清洗方法、装置、设备及介质。
背景技术:
1、在数据科学和人工智能领域,根据要解决的问题,需要收集与该问题对应的领域的数据,并利用该数据进行数据分析和模型训练。为保证数据分析和模型的准确性,一般在数据分析和模型训练前,需要对收集的数据进行数据清洗。其中,数据清洗是指对收集的原始数据进行清理、整理、转换和扩展的过程,以使其适用于数据分析和模型训练。
2、现有技术中,通常需要采集数据,并对采集的数据进行标注,得到带标签的数据集,并利用该数据集对构建的模型进行训练,得到预训练模型,然后利用预训练的模型,对通过爬虫获取的数据进行分类,以得到目标数据集,从而实现对爬虫获取的数据进行数据清洗。该方法在一定程度上可以实现数据清洗,但是利用构建的模型对爬虫获取的数据进行数据清洗后,目标数据集中仍存在较多非法数据,这导致了数据清洗准确性低的技术问题。
技术实现思路
1、为了克服上述缺陷,提出了本申请,以解决或至少部分地解决数据清洗中数据清洗准确性低的技术问题。
2、在第一方面,本申请提供一种大模型数据集的清洗方法,包括:
3、获取待清洗数据集;
4、根据第一预训练模型,对所述待清洗数据集进行分类处理,以得到正样本数据集和负样本数据集;
5、将所述正样本数据集和所述负样本数据集分别进行聚类处理,得到正样本聚类数据集和负样本聚类数据集;
6、根据所述正样本聚类数据集和负样本聚类数据集中每个分类数据集对应的正样本比例,对所述每个分类数据集进行采样处理,以得到第一数据集;其中所述每个分类数据集对应的正样本比例由对所述正样本聚类数据集和负样本聚类数据集中的每个分类数据集进行校验处理得到。
7、在上述的一种大模型数据集的清洗方法的一个技术方案中,所述方法还包括:
8、在第i轮次中,根据所述第一预训练模型,对第i数据集进行分类处理,以得到第i正样本数据集和第i负样本数据集;
9、分别对所述第i正样本数据集和所述第i负样本数据集进行聚类处理,得到第i正样本聚类数据集和第i负样本聚类数据集;
10、根据所述第i正样本聚类数据集和所述第i负样本聚类数据集中的每个分类数据集对应的第i正样本率,对所述每个分类数据集进行采样处理,以得到第i+1数据集;其中,所述每个分类数据集对应的第i正样本率是由对所述第i正样本聚类数据集和所述第i负样本聚类数据集中的每个分类数据集进行校验处理得到;
11、其中所示1≤i≤i,其中i对应于第i轮次后得到的每个分类数据集对应的第i正样本率的平均值大于预设平均值。
12、在上述的一种大模型数据集的清洗方法的一个技术方案中,获取所述第一预训练模型,包括:
13、获取预设领域的数据集;
14、根据预设条件,对所述预设领域的数据集进行筛选处理,得到训练数据集;
15、根据所述训练数据集,对预设模型进行训练处理,得到所述第一预训练模型。
16、在上述的一种大模型数据集的清洗方法的一个技术方案中,所述获取待清洗数据集,包括:
17、获取数据集;
18、根据预设规则,对所述数据集进行筛选和去重处理,得到初筛数据集;
19、根据第二预训练模型对所述初筛数据集进行分类处理,获取所述待清洗数据集。
20、在上述的一种大模型数据集的清洗方法的一个技术方案中,所述将所述正样本数据集和所述负样本数据集分别进行聚类处理,得到正样本聚类数据集和负样本聚类数据集,包括:
21、根据预设类别数量、预设参数和预设聚类模型,对所述正样本数据集和所述负样本数据集分别进行聚类处理,得到正样本聚类数据集和负样本聚类数据集。
22、在上述的一种大模型数据集的清洗方法的一个技术方案中,所述每个分类数据集对应的正样本比例由对所述正样本聚类数据集和负样本聚类数据集中的每个分类数据集进行校验处理得到,包括:
23、从所述第一正样本聚类数据集和第一负样本聚类数据集中的每个分类数据集中抽取样本数据;
24、基于对所述每个分类数据集对应的样本数据进行校验处理,得到每个分类数据集对应的正样本比例。
25、在上述的一种大模型数据集的清洗方法的一个技术方案中,所述预设领域的数据集的来源,包括:
26、论坛、新闻、视频网站、书籍。
27、第二方面,本申请提供一种数据清洗装置,包括:
28、获取模块,用于获取待清洗数据集;
29、分类模块,用于根据第一预训练模型,对所述待清洗数据集进行分类处理,以得到正样本数据集和负样本数据集;
30、聚类模块,用于将所述正样本数据集和所述负样本数据集分别进行聚类处理,得到正样本聚类数据集和负样本聚类数据集;
31、采样模块,用于根据所述正样本聚类数据集和负样本聚类数据集中每个分类数据集对应的正样本比例,对所述每个分类数据集进行采样处理,以得到第一数据集。
32、第三方面,本申请提供一种电子设备,包括至少一个处理器和存储器;其中,
33、所述存储器存储计算机执行指令;
34、所述至少一个处理器执行所述存储器存储的计算机执行指令,使得所述至少一个处理器执行如第一方面中任一项所述的方法。
35、第四方面,本申请提供一种计算机可读存储介质,其中存储有多条程序代码,所述程序代码适于由处理器加载并运行以执行如第一方面中任一项所述的方法。
36、本申请提供一种大模型的数据集的清洗方法、装置、设备及介质,该方法具体为:获取待清洗数据集;根据第一预训练模型,对所述待清洗数据集进行分类处理,以得到正样本数据集和负样本数据集;将所述正样本数据集和所述负样本数据集分别进行聚类处理,得到正样本聚类数据集和负样本聚类数据集;根据所述正样本聚类数据集和负样本聚类数据集中每个分类数据集对应的正样本比例,对所述每个分类数据集进行采样处理,以得到第一数据集;其中所述每个分类数据集对应的正样本比例由对所述正样本聚类数据集和负样本聚类数据集中的每个分类数据集进行校验处理得到,以实现对数据集进行数据清洗后,清洗后的数据集中包含极少量负样本,提高了数据清洗的准确性。
技术特征:1.一种大模型数据集的清洗方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述方法还包括:
3.根据权利要求1所述的方法,其特征在于,获取所述第一预训练模型,包括:
4.根据权利要求1所述的方法,其特征在于,所述获取待清洗数据集,包括:
5.根据权利要求1所述的方法,其特征在于,所述将所述正样本数据集和所述负样本数据集分别进行聚类处理,得到正样本聚类数据集和负样本聚类数据集,包括:
6.根据权利要求1所述的方法,其特征在于,所述每个分类数据集对应的正样本比例由对所述正样本聚类数据集和负样本聚类数据集中的每个分类数据集进行校验处理得到,包括:
7.根据权利要求3所述的方法,其特征在于,所述预设领域的数据集的来源,包括:
8.一种数据清洗装置,其特征在于,包括:
9.一种电子设备,其特征在于,包括至少一个处理器和存储器;其中,
10.一种计算机可读存储介质,其中存储有多条程序代码,其特征在于,所述程序代码适于由处理器加载并运行以执行权利要求1至7中任一项所述的方法。
技术总结本申请涉及数据清洗领域,具体提供一种大模型数据集的清洗方法、装置、设备及介质,旨在解决数据清洗准确率低的问题。为此目的,本申请包括:获取待清洗数据集;根据第一预训练模型,对所述待清洗数据集进行分类处理,以得到正样本数据集和负样本数据集;将所述正样本数据集和所述负样本数据集分别进行聚类处理,得到正样本聚类数据集和负样本聚类数据集;根据所述正样本聚类数据集和负样本聚类数据集中每个分类数据集对应的正样本比例,对所述每个分类数据集进行采样处理,以得到第一数据集;其中所述每个分类数据集对应的正样本比例由对所述正样本聚类数据集和负样本聚类数据集中的每个分类数据集进行校验处理得到。技术研发人员:鲁鑫受保护的技术使用者:北京宏瓴科技发展有限公司技术研发日:技术公布日:2025/1/6本文地址:https://www.jishuxx.com/zhuanli/20250110/351957.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表