技术新讯 > 计算推算,计数设备的制造及其应用技术 > 基于多源数据的数据治理方法、系统、介质及设备与流程  >  正文

基于多源数据的数据治理方法、系统、介质及设备与流程

  • 国知局
  • 2024-07-31 22:38:26

本技术涉及数据治理,具体涉及一种基于多源数据的数据治理方法、系统、介质及设备。

背景技术:

1、随着企业数字化转型的不断推进,各类业务数据呈爆炸式增长。如何对大量杂乱的数据源进行有效整合和治理,已成为许多企业亟需解决的问题。针对不同部门和业务场景产生的各类海量数据,企业普遍采用自定义的数据治理方案,以实现数据结构化、标准化和质量提升。

2、目前,在企业数据治理中,常采用基于excel模板的自定义数据治理方案。这类方案一般需要针对不同类型的数据预先设计固定的excel模板,包括但不限于固定的表头格式等,或者需要编写固定的代码逻辑,以解析获取不同类型数据的属性值。这种模式对各数据类型都需要独立定义模板或代码,使得整个方案的灵活性和扩展性较弱,模板或代码的最小变更都可能影响解析效果,因此,如何提升基于模板的数据治理方案的通用性,是当前亟需解决的技术问题。

技术实现思路

1、本技术提供了一种基于多源数据的数据治理方法、系统、介质及设备,可以提高基于模板的数据治理方案的通用性。

2、第一方面,本技术提供了一种基于多源数据的数据治理方法,所述方法包括:

3、当获取到需要治理的目标文件时,匹配与所述目标文件对应的用户自定义的目标模板;

4、解析所述目标模板,得到解析后的模板数据;

5、将所述解析后的模板数据与所述目标文件中的数据列进行数据匹配,得到匹配结果;

6、基于预设的筛选规则对所述匹配结果进行筛选,得到筛选结果;

7、对所述筛选结果进行数据治理,得到治理结果。

8、通过采用上述技术方案,引入用户自定义的模板匹配机制,可以适应不同源和类型的数据,提高了数据治理方案的通用性,在获取目标文件后,系统可以匹配对应的目标模板,并解析目标模板,然后系统利用解析得到的模板数据,与目标数据进行列属性和类型的匹配,实现基于模板的快速映射,匹配后还可以进行规则筛选过滤,以及后续的定制化数据治理操作,整个过程实现了自定义模板驱动的、可配置化的多源异构数据治理方案,在不变动模板配置和代码逻辑的情况下,无须针对每种数据类型独立设计解析机制,同时支持了规则和自定义处理,提高了数据治理的通用性。

9、可选的,所述当获取到需要治理的目标文件时,匹配与所述目标文件对应的用户自定义的目标模板之前,还包括:获取目标数据的类型,基于所述目标数据类型确定初始表格文件;获取所述初始表格文件中各工作表的类型,以及各所述工作表中每个数据列的类型;基于所述各工作表的类型以及各所述工作表中每个数据列的类型,生成目标模板。

10、通过采用上述技术方案,在获取需要治理的目标文件之前根据目标数据的类型,可以确定一个与之匹配的初始通用表格文件模板,然后系统解析模板的结构,获取用户对每个工作表的类型定义,以及工作表内每列的数据类型,基于这些类型信息,系统可以生成一个针对该目标数据定制化的模板,也就是目标数据的各工作表及其列的类型信息,直接映射到模板的结构中,实现了用户对模板的自定义和模板的快速生成。

11、可选的,所述解析所述目标模板,得到解析后的模板数据,包括:解析所述目标模板中的各工作表的表头信息;判断所述表头信息中是否存在特殊标记;若所述表头信息中存在特殊标记,则将存在特殊标记的数据列按照所述特殊标记对应的类型进行匹配;若所述表头信息中不存在特殊标记,则按照预设的优先级规则对各所述工作表的数据列类型进行匹配,得到解析后的模板数据。

12、通过采用上述技术方案,解析模板的表头内容,判断表头是否存在特殊标记,如果有标记,可以直接根据标记中的自定义类型信息,来匹配确定对应的列类型。如果没有标记,系统可以预设多个不同优先级的列类型匹配规则,按顺序去匹配列类型,通过这种带标记的自定义解析和多级规则解析的技术手段,可以使列类型解析更加准确和智能化,既能自动解析用户自定义标记,又可以合理运用各类辅助规则进行数据列类型匹配。

13、可选的,所述预设的优先级规则为:脚本规则的优先级大于表格指定初始值的优先级,所述表格指定初始值的优先级大于特殊标记规则的优先级,所述特殊标记规则的优先级大于所述目标模板配置的优先级。

14、通过采用上述技术方案,在解析时,系统按照预设的优先级规则,逐级匹配列类型,也就是先尝试解析目标模板配置,然后再解析特殊标记规则,若特殊标记规则解析有结果,则将特殊标记规则的解析结果替换目标模板配置的解析结果,然后再解析表格指定初始值,如果有结果则也会替换上一步得到的类型结果,以此类推进行匹配,这种多级规则的级联机制可以提高类型匹配的准确性。

15、可选的,所述将所述解析后的模板数据与所述目标文件中的数据列进行数据匹配,得到匹配结果,包括:将所述解析后的模板数据与所述目标文件中的数据进行数据匹配,得到匹配度和匹配失败的数据列;当匹配度低于预设值时,显示提示信息,以提示用户对所述目标文件中匹配失败的数据列进行重新匹配;当匹配度不低于预设值时,将匹配成功的数据列作为匹配结果。

16、通过采用上述技术方案,计算目标列与模板列的匹配度,对于匹配度低的列,系统可以弹出提示,使得用户根据实际需求重新进行手动匹配,而对于匹配度高的列,系统可以直接确认为成功匹配,提高了匹配质量以及使得匹配结果更符合用户需求。

17、可选的,所述基于预设的筛选规则对所述匹配结果进行筛选,得到筛选结果之前,还包括:获取用户的筛选需求;基于所述筛选需求和抽象语法树生成筛选规则;基于预设的筛选规则对所述匹配结果进行筛选,得到筛选结果,包括:在所述匹配结果中筛选出符合预设的筛选规则的目标数据,并将所述目标数据作为筛选结果。

18、通过采用上述技术方案,获取用户对结果集的自定义筛选需求,然后利用抽象语法树等技术,将用户需求解析为结构化的筛选规则,筛选出符合预设的筛选规则的目标数据作为筛选结果,用户自定义需求的加入,提高了筛选的定制性,结合抽象语法树技术生成规则,也使筛选更智能化,最终输出的筛选结果,也更符合用户对质量与业务场景的预期。

19、可选的,所述对所述筛选结果进行数据治理,得到治理结果,包括:获取用户自定义的数据清洗规则;按照所述数据清洗规则对所述筛选结果中的数据进行治理,得到治理结果。

20、通过采用上述技术方案,获取用户根据业务需求自行编写的清洗规则,对数据质量、转换格式等作出定制化要求,根据这些规则对结果数据进行清洗,如识别错误数据、填充缺失、规范格式等,引入自定义规则的机制,可以显著提升结果集的数据准确性、完整性和一致性。使得最终输出的数据质量更高,也符合用户对结果的预期。

21、在本技术的第二方面提供了一种基于多源数据的数据治理系统,所述系统包括:

22、模板匹配模块,用于当获取到需要治理的目标文件时,匹配与所述目标文件对应的用户自定义的目标模板;

23、模板解析模块,用于解析所述目标模板,得到解析后的模板数据;

24、数据匹配模块,用于将所述解析后的模板数据与所述目标文件中的数据列进行数据匹配,得到匹配结果;

25、数据筛选模块,用于基于预设的筛选规则对所述匹配结果进行筛选,得到筛选结果;

26、数据治理模块,用于对所述筛选结果进行数据治理,得到治理结果。

27、在本技术的第三方面提供了一种计算机存储介质,所述计算机存储介质存储有多条指令,所述指令适于由处理器加载并执行上述的方法步骤。

28、在本技术的第四方面提供了一种电子设备,包括:处理器和存储器;其中,所述存储器存储有计算机程序,所述计算机程序适于由所述处理器加载并执行上述的方法步骤。

29、综上所述,本技术实施例中提供的一个或多个技术方案,至少具有如下技术效果或优点:

30、本技术引入用户自定义的模板匹配机制,可以适应不同源和类型的数据,提高了数据治理方案的通用性,在获取目标文件后,系统可以匹配对应的目标模板,并解析目标模板,然后系统利用解析得到的模板数据,与目标数据进行列属性和类型的匹配,实现基于模板的快速映射,匹配后还可以进行规则筛选过滤,以及后续的定制化数据治理操作,整个过程实现了自定义模板驱动的、可配置化的多源异构数据治理方案,在不变动模板配置和代码逻辑的情况下,无须针对每种数据类型独立设计解析机制,同时支持了规则和自定义处理,提高了数据治理的通用性。

本文地址:https://www.jishuxx.com/zhuanli/20240730/193954.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。