技术新讯 > 计算推算,计数设备的制造及其应用技术 > 基于半监督学习的缺失数据补全方法 > 正文

基于半监督学习的缺失数据补全方法

国知局
2024-08-22 14:38:59

本发明涉及一种数据补全模型，更具体的说是涉及一种基于半监督学习的缺失数据补全模型。

背景技术：

1、目前有数据补全的方法，具体而言，基于统计技术的补全方法依据统计机制的不同，可以分为基于统计信息的补全算法和基于相似性的补全算法。基于统计信息的补全算法利用统计数据估算缺失值，譬如均值、中位数或众数。基于相似性的补全算法利用来自一个或多个相似样本已知值的均值预测目标样本的缺失数据，包括k最近邻补全算法和冷甲板补全算法。基于机器学习的缺失数据补全方法通过训练一个或者多个机器学习模型预测/补全缺失数据。根据所使用的机器学习模型的不同，基于机器学习的缺失数据补全方法可分为三类，即基于决策树的补全算法、基于线性回归的补全算法和基于数据压缩的补全算法。基于决策树的补全算法为每个存在缺失数据的特征构建一个决策树预测模型，包括基于xgboost的补全算法和基于随机森林的补全算法。基于线性回归的补全算法为每个不完整数据特征构建多个线性回归模型，包括基于链式方程的多重补全算法和个体回归补全算法。基于数据压缩的补全算法为整个缺失数据构建一个数据压缩预测模型，并利用奇异值分解算法和数据重构策略为缺失数据进行预测，包括软阈值补全算法、矩阵分解补全算法和主成分分析补全算法。

2、基于深度学习的补全方法依据使用深度学习模型的不同，主要包括基于多层感知器的补全算法、基于自编码器的补全算法和基于生成对抗网络的补全算法。基于多层感知器的补全算法为每个不完整特征构建一个多层感知器预测模型，包括多层感知器补全算法和rrsi补全算法。基于自编码器的补全算法将输入不完整数据压缩为浅层向量，并利用解码器将浅层向量重构为与输入数据矩阵尽可能相似的重构矩阵，包括基于自编码器的补全算法包括多重降噪自编码器补全算法、变分自编码器补全算法、异构不完全变分自编码器补全算法以及重要性加权自编码器补全算法。基于生成对抗网络的补全算法设计补全模块以生成接近真实已知分布的缺失数据，并构建判别模块以尽可能正确地区分补全数据和真实数据，包括生成对抗补全网络，基于影响力函数的补全算法以及基于样本个数估计的生成对抗补全网络。

3、目前不完整结构化数据补全旨在根据已知数据预测缺失数据，提升结构化数据完整性，避免因数据缺失问题而影响后续的决策分析。针对缺失数据，最简单的处理方法就是直接将数据中存在数据缺失的样本丢弃。该方法只适用于当不完整数据量较小且移除数据操作能够保证分析结果不受影响的情况。这种处理方法极易降低数据蕴涵的信息，严重影响数据的后续分析结果。因此，为了缓解数据缺失所带来的问题，诸多专家学者立足于缺失数据补全方法研究，旨在根据已知数据预测缺失数据，提升数据完整性，避免因数据缺失问题而影响后续的决策分析。根据预测模型类型的不同，不完整结构化数据补全方法可以分为基于统计技术的补全方法、基于机器学习的补全方法以及基于深度学习的补全方法等。

4、因此现有的不完整结构化数据补全方法仅考虑数据补全任务及其数据处理过程，忽略了缺失补全结果对下游决策结果的影响，难以有效支持后续的智能决策分析。

技术实现思路

1、针对现有技术存在的不足，本发明的目的在于提供一种基于半监督学习的缺失数据补全模型，用于解决上述技术问题，有效支持后续的智能决策分析。

2、为实现上述目的，本发明提供了如下技术方案：一种基于半监督学习的缺失数据补全模型，其特征在于：包括：

3、生成器g，该生成器g利用已知数据和数据标签预测缺失值，生成一个经过补全的数据矩阵；

4、判别器d，该判别器d基于补全后数据矩阵区分由生成器g补全的数据和真实数据，将数据矩阵的编码存储在掩码矩阵m中，之后判别器d输出一个判别概率矩阵，包含每个数据属于真实数据的概率；

5、分类器c，该分类器c使用有标签的多元数据进行训练，为无标签数据预测标记，然后将交叉熵损失函数作为反馈传递给生成器g，引导其在修复不完整样本时更关注具有相同标签的多元数据样本，之后生成器g使用数据矩阵和掩码矩阵m作为输入，产生填充好的数据；

6、其中，生成器g、判别器d和分类器c均引入有多层感知机，通过多层感知机对给定多元数据样本x进行重构，重构成多元的数据矩阵，具体重构步骤如下述公式所示：

7、

8、式中，每一个样本有d个特征，所以输入数据集为，假设是具有h个隐藏单元的单隐藏层多层感知机，那么隐藏层权重就为，偏置，那么隐藏层的输出为h ，由于有q个类别，所以输出层的权重为，偏置为，是激活函数。

9、作为本发明的进一步改进，所述生成器g的目标函数包括对抗损失函数、分类器损失函数和重构损失函数，该生成器g的目标函数如下式所示：

10、

11、其中，n表示样本数据条数，是分类器的分类器损失函数，是输入数据标签，是训练的博弈过程中生成器g和判别器d特定的损失对抗函数，是生成器g补全后输出的数据。

12、作为本发明的进一步改进，所述重构损失函数如下述公式所示：

13、

14、其中，表示重构多元数据矩阵，是平均绝对误差函数，用于衡量预测值与实际值之间差异。

15、作为本发明的进一步改进，所述判别器d输出一个判别概率矩阵的具体步骤如下：

16、步骤一，在gain算法的启发下引入“缺失提示矩阵”r的概念，所述缺失提示矩阵矩阵储存了数据中某个部分数据缺失状态的信息，定义为：

17、

18、其中，是每次训练随机分量矩阵，r会提供部分缺失数据，促进判别器快速收敛；

19、步骤二，将生成器补全后的和缺失提示矩阵作为输入，并输出一个判别矩阵，，该判别矩阵中的判别概率是每个数值属于真实数据的概率，定义为：

20、

21、其中，是判别器的参数，；

22、步骤三，判别器d利用多层感知机单元提取数据特征，并输出多元数据中每个数值属于真实值的概率，最终输出概率矩阵，该概率矩阵表示为：

23、。

24、作为本发明的进一步改进，所述判别器d的损失函数定义如下所示

25、；

26、式中，e为随机变量的期望，为判别器的损失函数。

27、作为本发明的进一步改进，所述分类器c的损失函数如下述公式所示：

28、

29、代表交叉熵损失函数，f代表softmax函数。

30、作为本发明的进一步改进，所述分类器c为无标签数据进行预测的结果如下式所示：

31、。

32、本发明的有益效果，本发明提出了一种创新的基于半监督学习的缺失数据补全模型，称之为segan。segan模型首次在数据补全领域引入了数据标签信息，采用半监督学习策略来修正和补全含有部分标记的不完整数据。在segan模型中，半监督学习分类器能够为无标记的数据推测标记，从而激励生成器利用现有数据和数据标签来推算或填充缺失的数据。同时，模型通过深化利用缺失提示矩阵，使得判别器能够更准确地对比已知数据和补全数据。从理论角度证明了基于缺失提示矩阵的segan模型能够有效地理解不完整数据中的真实信息分布。通过大量实验验证，segan模型在数据补全效果上显著优于现有的其他方法，展示了其在处理缺失数据问题上的卓越性能和广泛应用前景。