技术新讯 > 计算推算,计数设备的制造及其应用技术 > 一种高校业务数据处理方法、系统、介质及设备  >  正文

一种高校业务数据处理方法、系统、介质及设备

  • 国知局
  • 2024-08-05 11:50:03

本发明属于高校业务数据处理,尤其涉及一种高校业务数据处理方法、系统、介质及设备。

背景技术:

1、本部分的陈述仅仅是提供了与本发明相关的背景技术信息,不必然构成在先技术。

2、发明人发现,现有的数据质量评估方法在准确性、完整性和一致性等方面存在一定的局限性,传统的规则检测方法通常只能检测明显的错误,无法发现或修复一些隐藏的数据质量问题;而且,现有的方法往往是针对特定的数据类型和业务场景设计,缺乏通用性和灵活性,而对于不同高校,由于其学科设置、学校管理体系等差异,现有的数据质量评估方法无法满足不同高校的数据治理需求,此外,传统方法对于大规模数据的处理效率较低,无法满足高校对数据处理速度的要求。

3、其次,现有技术通常仅注重数据质量评估的结果,而忽视了数据质量改进对数据质量评估结果的依赖,虽然可以通过评估发现数据质量问题,但缺乏有效的方法来针对性地对数据进行修复和改进,缺乏两者的结合,这导致评估结果无法得到及时的反馈,从而无法实现数据质量的持续改进。

技术实现思路

1、本发明为了解决上述问题,提供了一种高校业务数据处理方法、系统、介质及设备,所述方案创新性的采用机器学习大模型来挖掘业务数据中隐藏的数据质量问题,相对于传统规则检测方法只能检测明显的错误,所述方案通过训练后的大模型,在检测明显错误的同时能够挖掘出业务数据中更深层次的问题,有效提高了高校业务数据的质量评估的全面性;同时,对于采用机器学习大模型的数据质量评估的性能,严重依赖于业务数据所采用的特征提取和特征工程方法所提取的有效特征的准确性和全面性,而由于不同高校学科设置以及学校管理体系的差异性,不同高校的业务数据无法通过单一固化的特征提取和特征工程方法来进行有效特征的获取,基于此问题,所述方案通过特征提取和特征工程方法的自动匹配,保证了所述方案能够有效适应不同高校的业务数据处理;再者,所述方案将高校数据质量评估与数据质量改进进行有效结合,通过高校数据质量评估结果对数据质量的改进进行精确指导,有效增强了两者之间的关联性;本发明所述方案具有普适性和灵活性,能够适用于不同高校的数据治理需求,并能够为高校提供全面、准确、可靠的数据质量评估和改进方案,进而为高校数据治理提供重要的支持和指导。

2、根据本发明实施例的第一个方面,提供了一种高校业务数据处理方法,包括:

3、获取待评估高校业务系统的产生数据,并进行相应预处理;

4、对所述产生数据,采用基于特征提取和特征工程方法的自动匹配策略获得的特征提取方法及特征工程方法,进行特征提取以及特征工程处理,获得优化后的数据特征表示;其中,所述自动匹配策略,具体为:获取所述产生数据的属性特征,结合预先构建的特征提取及特征工程数据库中,不同特征提取方法及其关联的特征工程方法的描述信息,基于所述属性特征和描述信息的相似度,获得匹配的特征提取和特征工程方法;

5、基于所述数据特征表示,利用预先训练的用于数据质量评估的机器学习大模型,获得数据质量评估结果;其中,所述数据质量评估结果包括数据的重复性、准确性、完整性以及一致性的多维度指标;

6、基于获得的数据质量评估结果,对高校数据进行数据质量改进,其中,所述数据质量改进基于数据质量评估结果中的多维度指标,分别进行数据清洗、数据修复以及数据补充,并对改进后的数据进行数据验证。

7、进一步的,所述属性特征的获取,具体为:基于特征提取方式提取生成数据的规模、数据类型以及特征分布,作为第一属性特征;基于当前产生数据的质量评估任务需求,通过专家评价的方式,获取任务需求特征,作为第二属性特征;以第一属性特征和第二属性特征的拼接特征,作为产生数据的属性特征。

8、进一步的,所述用于数据质量评估的机器学习大模型的训练,具体为:基于高校业务系统中的历史生成数据,进行不同数据质量评估指标所对应训练集的构建,其中,所述训练集中的样本包括生成数据及其对应的质量评估结果标签;基于不同数据质量评估指标所对应训练集中的样本,以所述生成数据作为机器学习大模型的输入,以所述标签作为机器学习大模型的输出,进行模型训练,获得不同数据质量评估指标对应的机器学习大模型。

9、进一步的,所述基于所述数据特征表示,利用预先训练的用于数据质量评估的机器学习大模型,获得数据质量评估结果,具体为:对于待质量评估的产生数据,分别利用重复性、准确性、完整性以及一致性指标所对应的机器学习大模型,获得产生数据的重复性、准确性、完整性以及一致性指标评估结果。

10、进一步的,所述数据质量改进基于数据质量评估结果中的多维度指标,分别进行数据清洗、数据修复以及数据补充,具体为:

11、当重复性指标超出预设阈值时,对所述高校数据执行数据清洗;

12、当准确性或一致性指标超出预设阈值时,对所述高校数据执行数据修复;

13、当完整性指标超出预设阈值时,对所述高校数据执行数据补充。

14、进一步的,所述预处理、特征提取、特征工程以及机器学习大模型的训练,均基于分布式计算框架进行处理;其中,所述机器学习大模型的训练过程采用spark中的机器学习库进行模型训练,并通过分布式计算将训练任务分发至若干节点进行并行处理。

15、进一步的,所述机器学习大模型采用随机森林模型;以及,所述重复性用于对数据中重复记录的情况进行评价;所述准确性用于对数据的正确性进行评价;所述完整性用于对数据是否存在缺失情况进行评价;所述一致性用于对不同业务系统中的同一份数据是否一致进行评价。

16、根据本发明实施例的第二个方面,提供了一种高校业务数据处理系统,包括:

17、数据获取单元,其用于获取待评估高校业务系统的产生数据,并进行相应预处理;

18、特征优化提取单元,其用于对所述产生数据,采用基于特征提取和特征工程方法的自动匹配策略获得的特征提取方法及特征工程方法,进行特征提取以及特征工程处理,获得优化后的数据特征表示;其中,所述自动匹配策略,具体为:获取所述产生数据的属性特征,结合预先构建的特征提取及特征工程数据库中,不同特征提取方法及其关联的特征工程方法的描述信息,基于所述属性特征和描述信息的相似度,获得匹配的特征提取和特征工程方法;

19、数据质量评估单元,其用于基于所述数据特征表示,利用预先训练的用于数据质量评估的机器学习大模型,获得数据质量评估结果;其中,所述数据质量评估结果包括数据的重复性、准确性、完整性以及一致性的多维度指标;

20、数据质量改进单元,其用于基于获得的数据质量评估结果,对高校数据进行数据质量改进,其中,所述数据质量改进基于数据质量评估结果中的多维度指标,分别进行数据清洗、数据修复以及数据补充,并对改进后的数据进行数据验证。

21、根据本发明实施例的第三个方面,提供了一种非暂态计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现所述的一种高校业务数据处理方法。

22、根据本发明实施例的第四个方面,提供了一种电子设备,包括存储器、处理器及存储在存储器上运行的计算机程序,所述处理器执行所述程序时实现所述的一种高校业务数据处理方法。

23、与现有技术相比,本发明的有益效果是:

24、(1)本发明所述方案提供了一种高校业务数据处理方法、系统、介质及设备,所述方案创新性的采用机器学习大模型来挖掘业务数据中隐藏的数据质量问题,相对于传统规则检测方法只能检测明显的错误,所述方案通过训练后的大模型,在检测明显错误的同时能够挖掘出业务数据中更深层次的问题,有效提高了高校业务数据的质量评估的全面性。

25、(2)考虑到采用机器学习大模型的数据质量评估的性能,严重依赖于业务数据所采用的特征提取和特征工程方法所提取的有效特征的准确性和全面性,而由于不同高校学科设置以及学校管理体系的差异性,不同高校的业务数据无法通过单一固化的特征提取和特征工程方法来进行有效特征的获取,基于此问题,所述方案通过特征提取和特征工程方法的自动匹配,保证了所述方案能够有效适应不同高校的业务数据处理。

26、(3)所述方案将高校数据质量评估与数据质量改进进行有效结合,通过高校数据质量评估结果对数据质量的改进进行精确指导,有效增强了两者之间的关联性;本发明所述方案具有普适性和灵活性,能够适用于不同高校的数据治理需求,并能够为高校提供全面、准确、可靠的数据质量评估和改进方案,进而为高校数据治理提供重要的支持和指导。

27、(4)所述方案通过引入机器学习大模型的方法,能够自动化地对高校数据进行准确和高效的质量评估,减少人工干预和主观因素的影响,提高评估的准确性和效率;同时,通过采用特征工程和特征选择的方法,能够提取关键的数据质量特征,进而结合特征提取和特征工程方法的自动匹配策略,能够适应不同类型的数据和业务场景,提供通用性和灵活性的数据质量评估方法。

28、本发明附加方面的优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本发明的实践了解到。

本文地址:https://www.jishuxx.com/zhuanli/20240802/259669.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。