一种基于支持向量机的缺失数据补全的方法、装置、设备和存储介质与流程
- 国知局
- 2024-10-15 10:12:08
本发明属于数据补全,具体涉及一种基于支持向量机的缺失数据补全的方法、装置、设备和存储介质。
背景技术:
1、在当今社会,信息化技术快速发展,物联网、大数据、云计算、移动互联网等信息技术相继出现,这些技术被应用到越来越多的领域中,为人们的生活与工作等方方面面带来了巨大的便利。例如,运用信息化技术的手段,各类数据的收集和管理,如产品的生命周期数据的收集和管理已经取得了一定进展。但是,收集而来的数据往往是不完整的,且有不一定准确的。
2、随着全球绿色贸易壁垒的形成,我国的企业,如电子产品制造业等面临着数据缺失或数据不准确的挑战,这不仅影响产品生命周期评价,也阻碍了遵守全球性绿色贸易壁垒的努力。
3、目前,一般采用人工填报数据以及人工检验的方法,来补全数据上的缺失和检查数据的准确性,这种方式效率低下,且数据补全质量不高,容易出现补全后的数据仍然不准确的情况。
技术实现思路
1、本发明的目的是要解决上述的技术问题,提供一种基于支持向量机的缺失数据补全的方法,能够提高数据补全的效率,提高数据准确率。
2、为了解决上述问题,本发明按以下技术方案予以实现的:
3、第一方面,本发明提供了一种基于支持向量机的缺失数据补全的方法,所述方法包括:
4、将待进行数据补全的原始数据进行数据清洗;
5、将完成所述数据清洗的原始数据模板化,作为原始数据集;
6、将所述原始数据集中的数据作为训练样本,训练word2vec模型;
7、通过训练好的所述word2vec模型,对所述原始数据集中的所有数据进行向量化,得到数据向量数据集;
8、通过基于支持向量机的预测模型,预测生成所述原始数据集中的数据缺失项的向量值;
9、基于所述数据缺失项的向量值,根据向量值相似度在所述数据向量数据集中搜索,得到数据项;
10、将所述数据项的数据值写入原始数据集的数据缺失项;
11、当所述原始数据集中所有缺失的数据值都补全完成时,将数据补全完成的原始数据集录入数据库
12、优选地,所述将所述原始数据集中的数据作为训练样本,训练word2vec模型的步骤包括:s201、将所述原始数据集中的每个数据值初始化为随机的词向量,作为训练样本;s202、定义一个神经网络结构;s203、根据所述训练样本,在所述神经网络结构中进行正向传播,输出预测结果;s204、通过损失函数计算所述预测结果与实际结果之间的损失值,其中,所述实际结果为所述原始数据集中对应项的实际词向量,所述损失值为所述预测结果与实际结果之间差值;s205、根据所述损失值,在所述神经网络结构中进行反向传播,更新所述神经网络结构的权重系数;s206、按顺序重复执行步骤s203、s204和s205,当所述损失值小于或等于预设的目标损失值时,完成所述word2vec模型的训练。
13、优选地,所述神经网络结构为单层神经网络结构。
14、优选地,所述损失函数为交叉熵损失函数。
15、优选地,使用svmpredict函数来预测生成所述原始数据集中的数据缺失项的向量值。
16、优选地,在所述基于支持向量机的预测模型的训练中,通过svmtrain函数训练所述基于支持向量机的预测模型。
17、第二方面,本发明提供了一种基于支持向量机的缺失数据补全的装置,所述基于支持向量机的缺失数据补全的装置被配置为执行所述基于支持向量机的缺失数据补全的方法,所述基于支持向量机的缺失数据补全的装置包括:
18、数据清洗模块,所述数据清洗模块用于将待进行数据补全的原始数据进行数据清洗;
19、数据模板化模块,所述数据模板化模块用于将完成所述数据清洗的原始数据模板化,作为原始数据集;
20、word2vec模型训练模块,所述word2vec模型训练模块用于将所述原始数据集中的数据作为训练样本,训练word2vec模型;
21、数据向量化模块,所述数据向量化模块用于通过训练好的所述word2vec模型,对所述原始数据集中的所有数据进行向量化,得到数据向量数据集;
22、向量值预测生成模块,所述向量值预测生成模块用于通过基于支持向量机的预测模型,预测生成所述原始数据集中的数据缺失项的向量值;
23、缺失数据值生成模块,所述缺失数据值生成模块用于基于所述数据缺失项的向量值,根据向量值相似度在所述数据向量数据集中搜索,得到数据项,将所述数据项的数据值写入原始数据集的数据缺失项;
24、录入数据库模块,所述录入数据库模块用于当所述原始数据集中所有缺失的数据值都补全完成时,将数据补全完成的原始数据集录入数据库。
25、第三方面,本发明提供了一种电子设备,所述电子设备包括:
26、至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的计算机程序,所述计算机程序被所述至少一个处理器执行,以使所述至少一个处理器能够执行以上第一方面中任一项所述的一种基于支持向量机的缺失数据补全的方法。
27、第四方面,本发明提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序用于使处理器执行时以上第一方面中任一项所述的一种基于支持向量机的缺失数据补全的方法。
28、与现有技术相比,本发明的有益效果是:本发明提供了一种基于支持向量机的缺失数据补全的方法,结合支持向量机和word2vec技术,通过训练word2vec模型,利用其将待进行补全的原始数据集映射到向量空间中,将原始数据中的所有数据进行向量化,使得原始数据用词向量来表示文本特征,得到数据向量数据集,以便利用基于支持向量机的预测模型,预测生成原始数据集中的数据缺失项的向量值。之后,通过在原始数据集的向量空间进行相似项的搜索,当搜索到与上述向量值相似的数据项时,根据该数据项,在原始数据集中生成与该数据项匹配的缺失的数据值,该数据值即为数据缺失项缺失的数据值。通过本发明的基于支持向量机的缺失数据补全的方法进行缺失数据的补全,提高了数据补全的效率和准确性。
29、应当理解,本部分所描述的内容并非旨在标识本发明的实施例的关键或重要特征,也不用于限制本发明的范围。本发明的其它特征将通过以下的说明书而变得容易理解。
技术特征:1.一种基于支持向量机的缺失数据补全的方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种基于支持向量机的缺失数据补全的方法,其特征在于,所述将所述原始数据集中的数据作为训练样本,训练word2vec模型的步骤包括:
3.根据权利要求2所述的一种基于支持向量机的缺失数据补全的方法,其特征在于:
4.根据权利要求2所述的一种基于支持向量机的缺失数据补全的方法,其特征在于:
5.根据权利要求1所述的一种基于支持向量机的缺失数据补全的方法,其特征在于:
6.根据权利要求5所述的一种基于支持向量机的缺失数据补全的方法,其特征在于:
7.一种基于支持向量机的缺失数据补全的装置,其特征在于,所述基于支持向量机的缺失数据补全的装置被配置为执行所述基于支持向量机的缺失数据补全的方法,所述基于支持向量机的缺失数据补全的装置包括:
8.一种电子设备,其特征在于,所述电子设备包括:
9.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机程序,
技术总结本发明提供了一种基于支持向量机的缺失数据补全的方法,包括将待进行数据补全的原始数据进行数据清洗;将完成数据清洗的原始数据模板化,作为原始数据集;将原始数据集中的数据作为训练样本,训练Word2Vec模型;通过训练好的Word2Vec模型,对原始数据集中的所有数据进行向量化,得到数据向量数据集;通过基于支持向量机的预测模型,预测生成原始数据集中的数据缺失项的向量值;在数据向量数据集中搜索得到与向量值相似的数据项,在原始数据集中生成与数据项匹配的缺失的数据值;缺失的数据值都补全完成时,将数据补全完成的原始数据集录入数据库。结合支持向量机和Word2Vec技术,进行清单缺失数据的补全,提高了数据补全的效率和准确性。技术研发人员:万超,符永高,王玲,胡嘉琦,谢漫茜,曹诺,高翼飞受保护的技术使用者:中国电器科学研究院股份有限公司技术研发日:技术公布日:2024/10/10本文地址:https://www.jishuxx.com/zhuanli/20241015/316760.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表