样本去重方法、装置及电子设备与流程
- 国知局
- 2024-08-30 15:05:06
本申请属于人工智能,具体涉及一种样本去重方法、装置及电子设备。
背景技术:
1、目前,在对模型进行预训练的过程中,可以采用丰富度较高的样本集,对模型进行预训练,以使得训练后的模型对于各种类型数据都可以进行较好的处理。通常,在对模型进行预训练之前,为了避免样本集中样本的重复导致模型只是简单记忆而没有形成泛化能力,会对样本集进行去重处理,旨在从样本集中移除重复的样本,以确保样本的准确性和可靠性。
2、然而,在样本去重时,通常是将样本集中内容相同或相似的样本随机进行删除。如此,可能会导致去重后的样本集丰富度下降,从而导致去重后的样本集质量较差。
技术实现思路
1、本申请实施例的目的是提供一种样本去重方法、装置及电子设备,能够使得去重后的样本集中样本分布更为全面合理且质量更高的丰富度,训练模型的效果更优,提高了去重后的样本集的质量。
2、第一方面,本申请实施例提供了一种样本去重方法,该方法包括:计算第一样本集中每个样本的样本重要度,第一样本集包括至少一个样本;基于每个样本的样本重要度和第一样本集的去重比例,对第一样本集进行去重处理,得到第二样本集;其中,样本的样本重要度是根据以下至少一项确定的:样本类别重要程度,样本内容重要程度、样本复杂程度、样本质量评分、样本多样性指标。
3、第二方面,本申请实施例提供了一种样本去重装置,该装置包括:处理模块,用于计算第一样本集中每个样本的样本重要度,第一样本集包括至少一个样本;以及,用于基于每个样本的样本重要度和第一样本集的去重比例,对第一样本集进行去重处理,得到第二样本集;其中,样本的样本重要度是根据以下至少一项确定的:样本类别重要程度,样本内容重要程度、样本复杂程度、样本质量评分、样本多样性指标。
4、第三方面,本申请实施例提供了一种电子设备,该电子设备包括处理器和存储器,所述存储器存储可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如第一方面所述的方法的步骤。
5、第四方面,本申请实施例提供了一种可读存储介质,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如第一方面所述的方法的步骤。
6、第五方面,本申请实施例提供了一种芯片,所述芯片包括处理器和通信接口,所述通信接口和所述处理器耦合,所述处理器用于运行程序或指令,实现如第一方面所述的方法。
7、第六方面,本申请实施例提供一种计算机程序产品,该程序产品被存储在存储介质中,该程序产品被至少一个处理器执行以实现如第一方面所述的方法。
8、在本申请实施例中,可以先计算第一样本集中每个样本的样本重要度,第一样本集包括至少一个样本;然后再基于每个样本的样本重要度和第一样本集的去重比例,对第一样本集进行去重处理,得到第二样本集;其中,样本的样本重要度是根据以下至少一项确定的:样本类别重要程度,样本内容重要程度、样本复杂程度、样本质量评分、样本多样性指标。通过该方案,由于可以基于样本的样本类别重要程度,样本内容重要程度、样本复杂程度、样本质量评分以及样本多样性指标中的至少一项,确定样本的样本重要度。因此,在样本去重的过程中,可以按照样本的重要度进行删除,以保留重要度较高的样本,从而使得去重后的样本集中样本分布更为全面合理且质量更高的丰富度,训练模型的效果更优,进而提高了去重后的样本集的质量。
技术特征:1.一种样本去重方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述第一样本集包括n类样本,每类样本包括至少一个样本,n为正整数;
3.根据权利要求2所述的方法,其特征在于,所述基于所述n类样本中每类样本的样本数量与所述n类样本中每类样本的平均样本数量间的比值,以及所述第一样本集的初始去重比例,确定所述每类样本的去重比例,包括:
4.根据权利要求3所述的方法,其特征在于,所述基于所述第i类样本的样本数量与所述平均样本数量间的比值,调小所述第一样本集的初始去重比例,包括:
5.根据权利要求2至4任一项所述的方法,其特征在于,所述基于所述n类样本中每类样本的样本数量与所述n类样本中每类样本的平均样本数量间的比值,以及所述第一样本集的初始去重比例,确定所述每类样本的去重比例,包括:
6.根据权利要求2所述的方法,其特征在于,所述基于所述每类样本中的每个样本的样本重要度和所述每类样本的去重比例,对所述第一样本集进行去重处理,得到第二样本集,包括:
7.根据权利要求2所述的方法,其特征在于,所述基于所述每类样本中的每个样本的样本重要度和所述每类样本的去重比例,对所述第一样本集进行去重处理,得到第二样本集,包括:
8.根据权利要求7所述的方法,其特征在于,所述基于所述第i类样本对应的至少一个保留样本集对应的保留样本序列,确定所述第i类样本对应的保留样本,包括:
9.根据权利要求7所述的方法,其特征在于,所述基于所述第i类样本对应的至少一个保留样本集对应的保留样本序列,确定所述第i类样本对应的保留样本,包括:
10.一种样本去重装置,其特征在于,所述装置包括:
11.根据权利要求10所述的装置,其特征在于,所述第一样本集包括n类样本,每类样本包括至少一个样本,n为正整数;
12.根据权利要求11所述的装置,其特征在于,所述处理模块,具体用于:
13.根据权利要求12所述的装置,其特征在于,所述处理模块,具体用于基于所述第i类样本的样本数量与所述平均样本数量间的比值,计算所述第i类样本对应的调小去重比例因子,并将所述调小去重比例因子与所述第一样本集的初始去重比例相乘,得到所述第i类样本的去重比例,所述调小去重比例因子小于1;
14.根据权利要求11至13任一项所述的装置,其特征在于,所述处理模块,具体用于根据去重比例确定公式,确定所述第i类样本的去重比例;
15.根据权利要求11所述的装置,其特征在于,所述处理模块,具体用于:
16.根据权利要求11所述的装置,其特征在于,所述处理模块,具体用于:
17.根据权利要求16所述的装置,其特征在于,所述处理模块,具体用于将至少一个所述保留样本序列输入文本处理模型训练,输出每个保留样本序列对应的训练损失值,并将训练损失值最小的保留样本序列作为所述第i类样本对应的保留样本。
18.根据权利要求16所述的装置,其特征在于,所述处理模块,具体用于:
19.一种电子设备,其特征在于,包括处理器和存储器,所述存储器存储可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如权利要求1至9任一项所述的样本去重方法的步骤。
技术总结本申请公开了一种样本去重方法、装置及电子设备,属于人工智能技术领域,该方法包括:计算第一样本集中每个样本的样本重要度,第一样本集包括至少一个样本;基于每个样本的样本重要度和第一样本集的去重比例,对第一样本集进行去重处理,得到第二样本集;其中,样本的样本重要度是根据以下至少一项确定的:样本类别重要程度,样本内容重要程度、样本复杂程度、样本质量评分、样本多样性指标。技术研发人员:邹红建受保护的技术使用者:维沃移动通信有限公司技术研发日:技术公布日:2024/8/27本文地址:https://www.jishuxx.com/zhuanli/20240830/285428.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表