数据插补方法及数据插补系统与流程
- 国知局
- 2024-07-31 22:53:44
本发明属于数据处理,具体为数据插补方法及数据插补系统。
背景技术:
1、数据的实际使用往往存在一些主客观原因,如泄漏、忽略、成本高或无法获取数据,导致数据丢失,由于存在缺失值,原始数据看起来有很多“漏洞”,很难应用传统的统计分析方法,数据插值是为每个缺失数据提供替代值的过程,称为插值,数据插值后,完成缺少的数据以获得完整的数据集,在这种情况下,统计分析者使用一般的统计分析软件和方法分析数据变得容易,此外,使用相同插值方法的不同分析人员将检索相同的调整数据,以确保分析结果的一致性,数据插值是处理数据丢失问题的一种方便而通用的方法,但估计的数据可能不是实际数据,所得分析结果可能与实际情况略有偏差,数据插值的有效性取决于替代值和缺失值的近似度,因此数据插值的目的不是预测单个缺失值,而是预测缺失数据的分布,基本思想是为每一个缺失数据赋予一个替代值,这些替代值被称为插补值,数据插补的目的是为了补全缺失的数据,使得数据集变得完整,从而便于进行统计分析,在医院的计算机中,往往会保存着巨多的患者数据,在调出数据使用时,数据多少存在丢失缺失的情况,导致无法对患者的健康数据了解,因此处理缺失数据是一个至关重要的步骤,因为医疗数据通常包含大量的缺失值,这些缺失值可能是由于患者未完成的问卷、设备故障、实验室错误或其他原因造成的,正确处理这些缺失值对于提高医疗数据分析的准确性和可靠性至关重要,对此,我们提出了数据插补方法及数据插补系统。
技术实现思路
1、针对现有技术的不足,本发明提供了数据插补方法及数据插补系统,以解决以上技术问题。
2、为实现上述目的,本发明提供如下技术方案:数据插补方法,数据插补步骤为:
3、s1、获取得到医疗中待处理的数据,将数据上传至计算机处理系统内,进行存储;
4、s2、调出数据,经过预处理模块,对重复数据与异常数据进行去除;
5、s3、建立出插值模型,将预处理后的数据输送至插值模型内进行埃尔米特插值处理,得到待评估的数据集;
6、s4、对插补值使用机器学习模型进行检验,选择最佳的插补值,若插补值在合理范围内,则进行输出;
7、s5、若检验的插补值不在合理的范围内,将插补的值删除,再次重复s2-s4步骤直至差补值合理。
8、优先地,s1步骤中通过医院计算机内获取得到患者的检测数据,获取方式通过预先与医院内沟通,获取得到医院计算机内数据的获取的权限,在计算机处理系统内,输入获取的权限,来进入医院计算机内部,调出需要处理的数据,通过互联网的方式传输至计算机处理系统内,待处理的数据通过顺序存储法进行保存,将数据存放在连续的存储区域中,每个数据为一个单元,通过计算来确定数据单元的位置;
9、在操作系统中,用户通常需要授权才能执行某些操作,例如访问文件、设备或网络资源,系统通常会提示用户进行授权,用户可以通过点击授权按钮或输入用户名和密码等方式来授权。
10、优先地,s2步骤中预处理模块通过哈希法对数据去重,去除掉重复的数据与异常的数据,哈希法去重步骤通过准备空的哈希表,将每一个数据项使用哈希函数计算,检查数据的哈希值是否存在冲突,若冲突则判断为重复数据或异常数据,若不冲突则数据正常,删除掉冲突的哈希值,将其余哈希值代入至哈希表内,检测哈希表是否一一对应,完成去重;
11、哈希函数的公式为:p=p(data);
12、其中p为哈希函数,data为可变大小的数据,p为产生的固定长度哈希值。
13、优先地,s3步骤中插值模块内通过埃尔米特插值法进行插值处理,埃尔米特插值法设定存在n个节点,x1,x2……xn,这些节点对应的函数值为k(x1),k(x2)……k(xn),插值多项式m表示为:
14、m=∑(i=0)∧n(o-i(x)kxi)+qi(x)kxi
15、其中o-i(x)与qi(x)为拉格朗日基函数;
16、o-i(x)在x≠x-i时为0,在x=x-i时为1。
17、优先地,s3步骤中插值模型建立步骤为:
18、a1、预先确定插值的节点,为数据点的集合;
19、a2、选择埃尔米特插值法作为插值方法;
20、a3、构建出埃尔米特插值的插值函数,插值函数满足与已知数据点相等;
21、a4、对插值的模型进行验证,将数据集代入至模型内部,进行计算验证。
22、优先地,s4步骤中机器学习模型为k折交叉验证法,验证步骤将待验证的数据划分为k个大小相等的子集,选择其中k-1个子集作为训练集,余下作为验证集,使用训练集的数据进行训练,通过验证集评估数据;
23、其中k折交叉验证法评估公式为:
24、c=(1/p)×∑(yt-yp)
25、其中c为验证指标,p为折数,yt为真实值,yp为预测值;
26、k折交叉验证法可以充分利用数据集进行模型训练和验证,同时避免了数据过拟合和欠拟合的问题,由于每次只使用一部分数据进行验证,因此k折交叉验证法的计算成本相对较低。
27、优先地,s5步骤中插补值删除方法通过计算机操作来将得到的插补值进行删除,并再次的调出存储的数据,对存储的数据再次进行插补。
28、数据插补系统,数据插补系统包括计算机系统、预处理模块、插值模型与机器学习模型,预处理模块位于计算机系统内部,插值模型位于计算机系统内部,机器学习模型位于计算机系统内部。
29、优先地,计算机系统为分析处理的基础平台,计算机为网络计算机,用以存储或处理数据库,预处理模块内部通过哈希法进行预处理,预处理模块用于对调出的数据进行去重处理;
30、网络计算机是受客户计算模式下的一种交互式信息设备,也被称为瘦形pc,这种计算机去掉了传统的硬盘、软盘等部件,其主要功能部件包括一个或多个微处理器,除了核心软件之外,其他软件都需从网络服务器下载,这节省了频繁的软件升级和维护,也降低了成本,网络计算机具有自己的处理能力,主要依赖于网络上的程序或存储。
31、优先地,插值模型通过埃尔米特插值法进行插值处理,插值模型用以对数据进行插值处理,机器学习模型通过k折交叉验证法验证数据,k折交叉验证法的k值选择根据数据集的大小与模型的复杂程度进行调整,数据集小时,k值的选择为2-6,数据集大时,则选择的k值为5-20。
32、与现有技术相比,本发明的有益效果如下:
33、本发明通过使用埃尔米特插值法对医院内待处理的数据进行插补处理,并对处理后的数据通过机器学习模型进行验证处理,检测插补后的数据是否准确,能够正确处理缺失值,提高医疗数据分析的准确性,提升便捷性,带来更好的使用前景。
技术特征:1.数据插补方法,其特征在于,数据插补步骤为:
2.根据权利要求1所述的数据插补方法,其特征在于:s1步骤中通过医院计算机内获取得到患者的检测数据,获取方式通过预先与医院内沟通,获取得到医院计算机内数据的获取的权限,在计算机处理系统内,输入获取的权限,来进入医院计算机内部,调出需要处理的数据,通过互联网的方式传输至计算机处理系统内,待处理的数据通过顺序存储法进行保存,将数据存放在连续的存储区域中,每个数据为一个单元,通过计算来确定数据单元的位置。
3.根据权利要求1所述的数据插补方法,其特征在于:s2步骤中预处理模块通过哈希法对数据去重,去除掉重复的数据与异常的数据,哈希法去重步骤通过准备空的哈希表,将每一个数据项使用哈希函数计算,检查数据的哈希值是否存在冲突,若冲突则判断为重复数据或异常数据,若不冲突则数据正常,删除掉冲突的哈希值,将其余哈希值代入至哈希表内,检测哈希表是否一一对应,完成去重;
4.根据权利要求1所述的数据插补方法,其特征在于:s3步骤中插值模块内通过埃尔米特插值法进行插值处理,埃尔米特插值法设定存在n个节点,x1,x2……xn,这些节点对应的函数值为k(x1),k(x2)……k(xn),插值多项式m表示为:
5.根据权利要求1所述的数据插补方法,其特征在于,s3步骤中插值模型建立步骤为:
6.根据权利要求1所述的数据插补方法,其特征在于:s4步骤中机器学习模型为k折交叉验证法,验证步骤将待验证的数据划分为k个大小相等的子集,选择其中k-1个子集作为训练集,余下作为验证集,使用训练集的数据进行训练,通过验证集评估数据;
7.根据权利要求1所述的数据插补方法,其特征在于:s5步骤中插补值删除方法通过计算机操作来将得到的插补值进行删除,并再次的调出存储的数据,对存储的数据再次进行插补。
8.数据插补系统,其特征在于:数据插补系统包括计算机系统、预处理模块、插值模型与机器学习模型,预处理模块位于计算机系统内部,插值模型位于计算机系统内部,机器学习模型位于计算机系统内部。
9.根据权利要求8所述的数据插补系统,其特征在于:计算机系统为分析处理的基础平台,计算机为网络计算机,用以存储或处理数据库,预处理模块内部通过哈希法进行预处理,预处理模块用于对调出的数据进行去重处理。
10.根据权利要求8所述的数据插补系统,其特征在于:插值模型通过埃尔米特插值法进行插值处理,插值模型用以对数据进行插值处理,机器学习模型通过k折交叉验证法验证数据,k折交叉验证法的k值选择根据数据集的大小与模型的复杂程度进行调整,数据集小时,k值的选择为2-6,数据集大时,则选择的k值为5-20。
技术总结本发明涉及数据处理技术领域,具体涉及数据插补方法,数据插补步骤为:S1、获取得到医疗中待处理的数据,将数据上传至计算机处理系统内,进行存储;S2、调出数据,经过预处理模块,对重复数据与异常数据进行去除;S3、建立出插值模型,将预处理后的数据输送至插值模型内进行埃尔米特插值处理,得到待评估的数据集;S4、对插补值使用机器学习模型进行检验。本发明通过使用埃尔米特插值法对医院内待处理的数据进行插补处理,并对处理后的数据通过机器学习模型进行验证处理,检测插补后的数据是否准确,能够正确处理缺失值,提高医疗数据分析的准确性,提升便捷性,带来更好的使用前景。技术研发人员:潘安远,章辉,李院生,李飞,方磊,张颖受保护的技术使用者:浙江德欧电气技术股份有限公司技术研发日:技术公布日:2024/7/29本文地址:https://www.jishuxx.com/zhuanli/20240730/195222.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。