数据质量检测方法、装置、电子设备及存储介质与流程
- 国知局
- 2024-07-31 22:47:46
本技术涉及计算机,尤其涉及一种数据质量检测方法、装置、电子设备及存储介质。
背景技术:
1、随着信息时代的到来,人工智能已经成为了时代的趋势,各种人工智能遍布在我们生活的各个角落,如:车牌识别、智能语音识别,智能家居,风险预测,视频行为识别等等,人工智能给人们的生活带来了极大的便利。
2、在人工智能技术领域,可以利用带标签的数据对人工智能算法模型进行训练,以提高人工智能算法模型的识别率,该数据的质量是影响算法模型的识别率的重要因素。
3、一般的,数据是通过人工的方式衡量数据质量,这会导致人力成本高、效率低。
技术实现思路
1、本技术实施例公开了一种数据质量检测方法、装置、电子设备及存储介质,能够实现数据集质量检测的智能化,减少人力资源,提高效率。
2、第一方面,本技术实施例提供一种数据质量检测方法,该方法包括:
3、从原始数据集中获取n组数据集,所述n组数据集中的每组数据集均包括训练集和测试集,且所述n组数据集中的任意两组数据集对应的训练集和测试集均不同,所述n为正整数;获取n组数据集分别对应预测结果,所述预测结果是将对应数据集中的测试集输入到训练好的分类模型中预测得到的,所述训练好的分类模型是基于所述对应数据集中的训练集训练得到的;根据所述n组数据集分别对应的预测结果确定所述原始数据集的质量。
4、本技术实施例中,可以从原始数据集中获取n组数据集,该n组数据集中包含的数据可以相同,也可以不同。分别将n组数据集中的每组数据集中的数据划分为训练集和测试集,且n组数据集中的任意两组数据集对应的训练集和测试集均不同。分别利用该n组数据集对分类模型进行训练与测试,从而获取到n组数据集分别对应的预测结果。综合该n组数据集分别对应的预测结果,获得衡量数据集质量的指标,从而实现数据集质量检测的智能化,能够减少人力资源,提高效率。
5、在一种可能的实现方式中,所述原始数据集包括m个数据子集,所述n组数据集中每组数据集对应的训练集包括x个数据子集,所述n组数据集中每组数据集对应的测试集所包括y个数据子集,所述x个数据子集与所述y个数据子集的并集为所述m个数据子集;其中,所述m、所述x、所述y为正整数,且所述m大于或等于所述n。
6、本技术实施例中,每组数据集对应的训练集包括的数据子集的数量相同,且任意两组数据集对应的训练集所包含的数据子集不完全相同。每组数据集对应的测试集包括的数据子集的数量相同,且任意两组数据集对应的测试集所包含的数据子集不完全相同。每组数据集中的数据与原始数据集相同,即每组数据集中的训练集与测试集组成原始数据集。即利用原始数据集中的数据对分类模型进行n次训练与测试,都充分利用该原始数据集中的数据,从而提高衡量数据集质量的指标的可靠性。
7、在一种可能的实现方式中,所述n组数据集包括第一组数据集和第二组数据集,所述第一组数据集包括第一训练集和第一测试集,所述第二组数据集包括第二训练集和第二测试集;其中,所述第一训练集包括第一数据子集,所述第一测试集包括第二数据子集,所述第二训练集包括所述第二数据子集以及所述第一训练集中除了所述第一数据子集之外的其他数据子集,所述第二测试集包括所述第一数据子集以及所述第一测试集中除了所述第二数据子集之外的其他数据子集。
8、本技术实施例中,可以通过将第一训练集中的第一数据子集划分为第二测试集,以及将第一测试集中的第二数据子集划分为第二训练集,从而使得获取到的第二组数据集与第一组数据集对应的训练集与测试集均不同。即通过平滑的方式,更新训练集和测试集,能够快速获取n组数据集,且使得n组数据集中每组数据集对应训练集和测试集不同。
9、在一种可能的实现方式中,所述n组数据集分别对应预测结果包括所述第一数据子集的s个预测标签,所述s为小于或等于所述y的正整数;所述方法还包括:
10、基于所述s个预测标签确定所述第一数据子集的目标标签;在所述目标标签与所述第一数据子集的原始标签不一致的情况下,基于所述目标标签更新所述第一数据子集的标签。
11、本技术实施例中,第一数据子集包含在s组数据集对应的测试集中,该s组数据集包含在该n组数据集中。利用该n组数据集对分类模型进行训练与测试之后,获取到的n组数据集对应的预测结果中包括第一数据子集的s个预测标签。基于该s个预测标签可以确定第一数据子集的目标标签,在该目标标签与第一数据子集的原始标签不一致的情况下,利用该目标标签对第一数据子集进行重标签,即将该第一数据子集的标签更新为该目标标签,能够纠正该第一数据子集的标签,而无需进行人工筛查和纠正,减少人工操作,实现样本标签纠正的智能一体化。
12、在一种可能的实现方式中,述基于所述s个预测标签确定所述第一数据子集的目标标签,包括:
13、将所述s个预测标签中重复次数最多的预测标签确定为所述第一数据子集的目标标签。
14、本技术实施例中,将s个预测标签中重复次数最多的预测标签确定为第一数据子集的目标标签,使得该第一数据子集的目标标签更合理、可靠。
15、在一种可能的实现方式中,所述方法还包括:
16、在所述s个预测标签中任意预测标签的重复次数均小于第一阈值的情况下,从所述原始数据集中删除所述第一数据子集,所述第一阈值由所述s确定。
17、本技术实施例中,第一阈值与s成正比,即s越大,第一阈值越大。在s个预测标签中任意预测标签的重复次数均小于第一阈值的情况下,表示利用训练好的分类模型对第一数据子集进行s次识别测试得到的预测标签不相同的概率大,表明该第一数据子集的质量不佳。在该种情况下,可以舍弃第一数据子集,即从原始数据集中删除该第一数据子集,能够提高该原始数据集的质量。
18、在一种可能的实现方式中,所述根据所述n组数据集分别对应的预测结果确定所述原始数据集的质量,包括:
19、获取所述n组数据集分别对应的预测结果对应的准确率与召回率;利用所述准确率与所述召回率对所述原始数据集的质量进行评估。
20、本技术实施例中,可以分别利用n组数据集对分类模型进行训练以及测试,从而得到n组数据集对应的n个预测结果每个预测结果对应的准确率和召回率,再计算该n个预测结果的平均准确率和召回率。或者,利用n组数据集对分类模型进行训练以及测试之后,获得n个预测结果,再计算n个预测结果对应的准确率和召回率。利用n个预测结果对应的准确率和召回率对原始数据集的质量进行评估,保证了得到的原始数据集的质量的可靠性。
21、第二方面,本技术实施例提供一种数据质量检测装置,包括:
22、第一获取单元,用于从原始数据集中获取n组数据集,所述n组数据集中的每组数据集均包括训练集和测试集,且所述n组数据集中的任意两组数据集对应的训练集和测试集均不同,所述n为正整数;
23、第二获取单元,用于获取n组数据集分别对应预测结果,所述预测结果是将对应数据集中的测试集输入到训练好的分类模型中预测得到的,所述训练好的分类模型是基于所述对应数据集中的训练集训练得到的;
24、第一确定单元,用于根据所述n组数据集分别对应的预测结果确定所述原始数据集的质量。
25、在一种可能的实现方式中,所述原始数据集包括m个数据子集,所述n组数据集中每组数据集对应的训练集包括x个数据子集,所述n组数据集中每组数据集对应的测试集所包括y个数据子集,所述x个数据子集与所述y个数据子集的并集为所述m个数据子集;其中,所述m、所述x、所述y为正整数,且所述m大于或等于所述n。
26、在一种可能的实现方式中,所述n组数据集包括第一组数据集和第二组数据集,所述第一组数据集包括第一训练集和第一测试集,所述第二组数据集包括第二训练集和第二测试集;其中,所述第一训练集包括第一数据子集,所述第一测试集包括第二数据子集,所述第二训练集包括所述第二数据子集以及所述第一训练集中除了所述第一数据子集之外的其他数据子集,所述第二测试集包括所述第一数据子集以及所述第一测试集中除了所述第二数据子集之外的其他数据子集。
27、在一种可能的实现方式中,所述n组数据集分别对应预测结果包括所述第一数据子集的s个预测标签,所述s为小于或等于所述y的正整数;所述装置还包括:
28、第二确定单元,用于基于所述s个预测标签确定所述第一数据子集的目标标签;
29、更新单元,用于在所述目标标签与所述第一数据子集的原始标签不一致的情况下,基于所述目标标签更新所述第一数据子集的标签。
30、在一种可能的实现方式中,第二确定单元,具体用于将所述s个预测标签中重复次数最多的预测标签确定为所述第一数据子集的目标标签。
31、在一种可能的实现方式中,所述装置还包括删除单元,用于在所述s个预测标签中任意预测标签的重复次数均小于第一阈值的情况下,从所述原始数据集中删除所述第一数据子集,所述第一阈值由所述s确定。
32、在一种可能的实现方式中,第一确定单元,具体用于根据所述n组数据集对应的测试集的预测标签以及所述n组数据集对应的测试集的原始标签获取所述分类器对所述n组数据集对应的测试集识别的准确率与召回率;利用所述准确率与所述召回率对所述原始数据集的质量进行评估。
33、可理解,关于第二方面的各种可能的实现方式所带来的技术效果,可参考对于第一方面或第一方面的各种可能的实现方式的技术效果的介绍。
34、第三方面,本技术提供一种电子设备,包括:存储器、处理器,其中所述存储器和所述处理器被相互可通信地连接;其中所述存储器存储有程序指令;所述程序指令被所述处理器执行时,使所述处理器执行如第一方面或第一方面任意可能的实现方式所描述的方法。
35、第四方面,本技术提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机程序;当所述计算机程序在一个或多个处理器上运行时,执行如第一方面或第一方面任意可能的实现方式所描述的方法。
36、第五方面,本技术实施例提供了一种计算机程序产品,其中,所述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,所述计算机程序可操作来使计算机执行如本技术实施例第一方面或第一方面任意可能的实现方式所描述的方法。
37、第六方面,本技术实施例提供一种车辆,该车辆包括如第二方面所述的装置,或者该车辆包括如第三方面所述的电子设备。
本文地址:https://www.jishuxx.com/zhuanli/20240730/194649.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表