一种基于主动学习的噪声标签选择性重标注方法
- 国知局
- 2024-09-11 14:30:42
本发明涉及噪声标签学习和主动学习的结合领域,具体涉及一种基于主动学习的噪声标签选择性重标注方法,主要为了解决低资源下训练数据集中存在大量噪声标签,如何保证模型性能的问题。
背景技术:
1、深度学习技术在智慧医院、智能媒体等多个领域取得了显着的成功,其模型的有效性很大程度上依赖于高质量的标注数据。然而,由于两方面的原因,现实场景中的大多数数据集中都存在着噪声标签(noisy label),例如cifar10数据集中存在7.2%的噪声标签。第一,由于数据收集和传输中的错误,原标签受到损坏。第二,目前的大多数数据集都采用众包的方式进行标注,标注人员的不专业性以及数据的质量差导致难分辨,都会引入大量的噪声标签。这些噪声标签会影响模型的预测性能,导致可靠性较差,不适合部署在高风险场景的应用中。以智能家庭医疗服务场景为例,医疗机构利用智能手表收集抑郁症患者的语音数据,进行离线实时监测。噪声标签的存在会严重妨碍应用程序做出准确判断的能力,从而可能错过及时有效的治疗干预的关键机会。
2、然而,重新标注所有数据集是一个耗费大量人力和物力的过程。目前相关的解决方案主要是利用模型进行自动化标签纠正,这存在一个风险就是模型纠正错误会添加额外的噪声标签,从而不能保证模型性能。因此,探究一种耗费少量标注资源且能保证模型在噪声标签下性能的方法具有较好的研究和应用价值。
技术实现思路
1、针对现有技术存在的不足,本发明的目的在于提供一种基于主动学习的噪声标签选择性重标注方法,以耗费少量标注资源且能保证模型在噪声标签下的性能。
2、本发明的目的是通过以下技术方案来实现的:一种基于主动学习的噪声标签选择性重标注方法,包括以下步骤:
3、s1、噪声数据识别:首先,选取训练数据集的少量数据对编码器和分类器进行预训练,然后,将预训练后的编码器和分类器对训练数据集进行表示和预测,将预测结果不一致的数据作为噪声数据,最后,将训练数据集划分为噪声数据和干净数据;
4、s2、标注数据选择:对步骤s1得到的噪声数据进行熵值计算,并选取熵值较大的数据作为候选标注集;然后对候选标注集进行损失值计算,选取分类器参数更新前后损失值变化较大的数据加入重标注数据集;
5、s3、重新训练:使用mixup方法混合步骤s2中的干净数据集和步骤s3中的重标注数据集并构建新的训练数据集对分类器重新训练。
6、进一步地,所述步骤s1具体为:
7、s1.1.根据任务需求选择合适的编码器eφ,例如文本分类任务选择bert模型,图像识别任务选择resnet;
8、s1.2.使用两个相同结构随机初始参数的全连接层网络作为分类器;
9、s1.3.从训练数据集d=(x,y)中选择少量的数据加入到预训练集dp,然后对编码器以及两个分类器进行预训练,其中,x、y分别表示数据以及对应的标签;
10、s1.4.使用编码器对数据进行表示:hx=eφ(x);然后使用两个分类器进行预测:
11、其中,hx是数据的特征表示,表示分类器的预测值,表示分类器的预测值;
12、s1.5.将预测结果和输入到噪声评估器中进行噪声评估,如果两个预测结果一致且等于原标签,即则将数据加入到干净数据集xc中;否则,将数据加入到噪声数据集xu中。
13、进一步地,所述步骤s2具体为:
14、s2.1.在训练时刻t,先计算噪声数据集xu的熵值:
15、
16、其中,表示由分类器θ计算的数据xi熵值,表示由分类器θ1计算的数据xi熵值,表示由分类器θ2计算的数据xi熵值,表示t训练时刻分类器θ对于xi的预测值,l表示数据集标签数量,l表示标签计数值,i表示数据的排序值,ht(xi)表示数据xi在t训练时刻的熵值;
17、s2.2.根据熵值对噪声数据集进行从大到小排序,然后选择前2·r(t)个数据加入候选重标注数据集xe(t),其中r(t)是重标注数据的数量;
18、s2.3.计算候选重标注数据集xe(t)的动态损失值:分类器参数更新前后数据的损失变化值;
19、
20、其中,表示基于分类器θ数据xi在训练时刻t的损失变化值,表示损失函数,yi表示数据xi对应的标签,θt′表示分类器更新后的参数,表示基于分类器θ1数据xi在训练时刻t的损失变化值,表示基于分类器θ2数据xi在训练时刻t的损失变化值,r*(t)表示重标注数据的数量;
21、s2.4.根据动态损失值对候选重标注数据集xe(t)进行从小到大的排序,选择前r(t)个数据供专家进行重标注;然后将后r(t)个数据视为潜在干净数据xp-c加入到干净数据集xc中成为总干净数据集xall-c;
22、s2.5.根据分类器的学习状态,对r(t)值大小进行动态调整,以优化标注资源;
23、
24、其中,r(t+1)表示t+1训练时刻重标注数据的数量;
25、进一步地,所述步骤s3具体为:
26、s3.1.使用mixup方法对总干净数据集xall-c和重标注数据集xe进行转换和混合为xall-c′和xe′:
27、λ~beta(α,α)
28、λ′=max(λ,1-λ)
29、x′=λ′x1+(1-λ′)x2
30、y′=λ′y1+(1-λ′)y2
31、其中,λ表示beta分布的输出值,λ′表示beta分布的最终取值,a表示超参数,x′表示混合数据,x1表示干净数据,x2表示重标注数据,y′表示混合标签,y1表示干净数据标签,y2表示重标签数据标签;
32、s3.2.对于混合数据集xe′和xall-c′,分别使用交叉熵损失函数和l2损失函数
33、
34、其中,pmodel(x;θ)表示分类器θ对数据x的预测值;
35、最后的总损失函数为:
36、
37、本发明的有益效果在于:本发明基于主动学习思想,结合使用了预训练策略,熵值法,集成学习等一系列方法,使其在花费少量标注资源下,就能保证模型在具有噪声标签的不同数据集下有较好的表现效果。相较于其他噪声标签处理方法过滤噪声标签数据或者自动化标签纠正,会造成样本的浪费以及会添加额外的噪声标签,从而不能保证模型的鲁棒性。本发明所提出的方法,可以在花费少量标注资源下,保证模型在噪声标签下的鲁棒性;尤其是在高噪声比例下,本方法相比其他噪声标签学习方法优势更大。
技术特征:1.一种基于主动学习的噪声标签选择性重标注方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的基于主动学习的噪声标签选择性重标注方法,其特征在于,所述步骤(s1)具体为:
3.根据权利要求1所述的基于主动学习的噪声标签选择性重标注方法,其特征在于,所述步骤(s2)具体为:
4.根据权利要求1所述的基于主动学习的噪声标签选择性重标注方法,其特征在于,所述步骤(s3)具体为:
技术总结本发明公开了一种基于主动学习的噪声标签选择性重标注方法。本方法首先选择少量训练集对编码器和分类器进行预训练,然后利用一个噪声评估器来识别噪声样本,将训练数据集划分为干净数据和噪声数据;接着,提出了一个评分器结合样本的熵值和动态损失值大小对噪声样本进行排序,选取最高价值的若干样本供专家进行重标注;最后,采用MixUp技术将干净样本和重标注样本结合后对分类器进行重训练。本发明结合了主动学习和噪声标签学习思想,具有较好的噪声标签容错能力,且节省了标注资源,为实际场景中深度学习模型的噪声标签学习提供了有价值的参考。技术研发人员:曹斌,蒋凯,范菁受保护的技术使用者:浙江工业大学技术研发日:技术公布日:2024/9/9本文地址:https://www.jishuxx.com/zhuanli/20240911/291170.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表