数据资产层级关系智能识别系统的制作方法
- 国知局
- 2024-08-05 12:12:13
本发明涉及数据识别处理,具体涉及数据资产层级关系智能识别系统。
背景技术:
1、随着数字化建设的深入,越来越多的机构和企业积累了大量的数据资源,为了更有效地利用数据资源,将它们整合为数据资产并进行统一管理成为了一个重要方向,数据资产化不仅能帮助企业提升数据的价值,还能为企业带来新的收入来源,而在数据资产形成阶段,数据来源于不同的渠道和环节,包括源数据建设、数据采集、分析与应用等,数据的复杂性使得传统的人工管理方式难以应对,因此需要更加智能、高效的数据管理工具。
2、现有技术中,随着数据的变化和发展,数据资产之间的关系也会发生变化,而为了跟踪数据从源到目标的流动路径,需要捕获数据之间的依赖关系,以便在数据变更时能够评估影响范围,并且在此过程中,需要使用图形化界面展示数据资产目录,但随着数据资产数量的增加,地图的可视化可能会变得缓慢,因此,如何帮助进行数据治理,实现数据分类与合规性检查,并确保数据资产之间复杂多维关系的映射,是我们要解决的问题,为此,现提出数据资产层级关系智能识别系统。
技术实现思路
1、本发明目的在于提供数据资产层级关系智能识别系统,以解决上述背景技术中提出的问题。
2、为解决上述技术问题,本发明所采用的技术方案是:
3、数据资产层级关系智能识别系统,包括数据管控平台,所述数据管控平台通信连接有数据采集模块、数据分类检查模块、数据资产管理模块、多维关系映射分析模块、可视化展示模块以及报告模块,其中,各模块间电信号连接;
4、所述数据采集模块,用于从各种数据源中收集元数据,包括业务元数据、技术元数据和管理元数据,确保系统能够获取到完整的数据资产信息,为后续的数据治理提供基础数据支持;
5、所述数据分类检查模块,用于预定义分类标准,对收集到的元数据进行自动化分类,实现数据资产的有序分类,并对数据资产的合规性进行自动化检查,包括数据收集、存储、使用、传输等各个环节,确保数据资产的使用符合相关标准,降低合规风险;
6、所述数据资产管理模块,用于构建、管理和维护层次化的数据资产目录结构,将分类的元数据与目录条目相关联,提供一个清晰的数据资产分类和组织结构,方便用户查找和浏览;
7、所述多维关系映射分析模块,用于构建多层次数据关系图谱,跟踪元数据的流动路径和依赖关系,收集血缘信息,分析数据资产之间的关系,并进行影响分析;
8、所述可视化展示模块,用于通过图形化界面展示数据资产目录、数据流向、关系网络信息、血缘关系,提供交互式的查询和分析功能,直观展示数据资产的层级关系和流动路径;
9、所述报告模块,用于生成数据治理报告,包括数据分类报告、合规性检查报告、关系映射报告,提供数据治理的决策支持。
10、本发明技术方案的进一步改进在于:所述数据采集模块中,元数据收集的过程包括:
11、明确数据治理采集元数据的数据源,并确定数据源的类型和访问方式,其中,数据源包括数据库、数据仓库、日志文件、互联网数据,数据源类型包括结构化数据、半结构化数据和非结构化数据,访问方式包括批量获取和实时获取;
12、使用采集工具建立与各个数据源的连接,确保能够稳定获取元数据,并针对不同类型的数据源,设定对应的连接方式,连接方式包括使用数据库连接字符串、文件路径以及api密钥;
13、从数据源中获取元数据,包括业务元数据、技术元数据和管理元数据,并对采集的原始元数据进行转换和整合,其中,业务元数据包括数据业务含义、数据所有者、数据使用权限;技术元数据包括数据表结构、字段定义、数据类型、索引信息;管理元数据包括数据来源、数据更新时间、数据质量评估,转换和整合包括数据格式转换、数据字段合并,以便于数据的统一管理和使用;
14、对采集的元数据进行清洗和预处理,并将预处理后的元数据存储到数据仓库中,清洗和预处理包括去除重复数据、处理缺失值、处理异常值。
15、本发明技术方案的进一步改进在于:所述数据分类检查模块中,数据资产的有序分类及合规性检查过程包括:
16、基于元数据的数据源类型和访问方式分析数据识别中的数据类型、数据敏感度和数据用途,确定数据的分类标准,并对数据分类标准进行预定义;
17、根据预定义的数据分类标准,为元数据标定对应的标签标识,使用机器学习技术,对收集到的元数据进行自动化分类,并根据预定义的分类标准,将元数据分配到相应的分类中;
18、将分类后的元数据存储在数据仓库中,并提供数据目录,使用户能够轻松地查找和了解数据资产;
19、采用机器学习技术,对数据资产进行合规性检查,实现自动化的检查过程,并对检查结果进行风险评估,确定潜在的合规风险和问题,生成合规性检查报告,包括数据资产的分类情况、合规性检查结果、存在的风险和建议内容。
20、本发明技术方案的进一步改进在于:所述元数据自动化分类的过程包括:
21、将收集到的元数据转换为机器学习可用的特征向量,其中,使用词袋模型将元数据中的文本信息转换为数字特征,以进行特征提取,从元数据中提取与分类标准相关的特征,并对特征提取过程中的元数据进行归一化处理,确保不同特征的尺度一致;
22、根据业务需求定义数据分类标准,并为每个分类标准设置相应的标签标识,获取标记数据集,将标记数据集分为训练集、测试集和验证集;
23、使用已标记的数据的训练集对机器学习模型进行训练,在训练过程中,根据特征和标签之间的关系进行参数的优化,使用测试集和验证集对训练好的模型进行评估;
24、使用训练好的模型对新的、未标记的元数据进行自动化分类,并根据元数据的特征输出相应的分类标签,结合模型输出的分类标签,将元数据分配到相应的分类中。
25、本发明技术方案的进一步改进在于:所述数据资产合规性检查及风险评估的过程包括:
26、收集与数据资产合规性相关的元数据和实际数据,并清洗和预处理数据,将元数据和实际数据转换为机器学习可用的特征表示,具体包括元数据的属性、使用权限、数据来源信息,从元数据和实际数据中提取与合规性检查相关的特征,获取合规性检查数据集;
27、使用机器学习技术构建合规性检查模型,结合合规性检查数据集进行模型训练,并对训练完成的合规性检查模型进行测试和验证,训练合规性检查模型预测数据资产的合规性;
28、部署合规性检查模型,将未检查的数据资产输入到训练好的模型中,根据模型预测的合规性结果,结合业务规则评估每个数据资产的合规性风险,并定义合规性风险评分,划分风险等级,分别为低风险等级、中风险等级和高风险等级;
29、根据合规性检查结果和风险评估,生成合规性检查报告,报告内容包括数据资产的分类情况、合规性检查结果、存在的风险和建议内容。
30、本发明技术方案的进一步改进在于:所述合规性风险评分的计算公式为:
31、;
32、其中,为合规性风险评分,为检查项,其中,为检查项的数量,为检查项的权重,为检查项的得分。
33、本发明技术方案的进一步改进在于:所述数据资产管理模块中,元数据与目录条目相关联的过程包括:
34、根据业务需求和数据资产的分类标准,采用树状结构在数据管控平台中构建层次化的数据资产目录结构,将数据资产按照业务部门、数据类型、数据来源进行层级分类,并确定每个层级的目录条目;
35、将分类过的元数据与目录条目相关联,确保目录结构和元数据之间的一致性和关联性,对每个目录条目,关联相应的元数据信息,包括业务元数据、技术元数据和管理元数据;
36、对目录结构和关联的元数据进行管理和维护,包括新增、修改、删除目录条目和元数据信息,确保元数据和目录条目之间的双向可追溯性;
37、将已关联元数据的目录条目添加到数据资产目录结构中,为目录条目提供描述性信息,包括名称、描述、所有者以及访问权限;
38、定义目录条目的访问权限,实施身份验证和授权机制,控制用户对目录条目的访问,监控和记录用户对目录条目的访问和操作。
39、本发明技术方案的进一步改进在于:所述多维关系映射分析模块中,多层次数据关系图谱的构建分析过程包括:
40、基于收集的元数据信息,根据数据的来源、流向和目的地,定义元数据在系统中的流动路径,利用日志分析、事件追踪技术,实时跟踪元数据在系统中的流动情况;
41、分析数据资产之间的依赖关系,包括直接依赖和间接依赖,并基于识别出的依赖关系,建立数据资产之间的依赖模型;
42、根据确定的元数据流动路径和数据资产间的依赖关系,构建数据关系图谱,其中数据关系图谱以数据资产为节点,以数据流动路径和依赖关系为边;
43、对数据关系图谱进行血缘分析,跟踪数据的流动路径和依赖关系,将元数据的血缘关系映射到数据关系图谱中,确保图谱能够准确地反映数据资产之间的关系,血缘信息为数据从源头到目标的转换、处理过程,通过数据处理流程、转换规则,可收集数据的血缘信息;
44、分析数据关系图谱中的数据资产之间的关系,包括直接关系和间接关系,进行影响分析,评估某个数据资产的变化对其他数据资产的潜在影响,并对识别出的潜在影响进行评估,包括影响的范围、程度和可能带来的后果,评估结果以报告的形式呈现。
45、本发明技术方案的进一步改进在于:所述数据资产间的关系分析及影响分析过程包括:
46、根据数据关系图谱,识别出与目标数据资产直接和间接相关的数据资产,直接关系指直接与目标数据资产有关联的数据资产,间接关系指通过其他数据资产间接与目标数据资产有关联的数据资产;
47、确定从目标数据资产到其他数据资产的影响路径,包括路径上的所有直接和间接关系,对于每个影响路径,分析路径上各个数据资产的属性和关联关系,评估目标数据资产变化对路径上其他数据资产的影响;
48、从数据关系图谱中提取数据资产属性、数据资产属性的最大值、影响路径上的数据资产数量,确定数据资产的影响评分;
49、综合分析每个数据资产的影响评分,确定目标数据资产的变化对整个系统的影响程度,并对每个数据资产的影响评分进行综合加权评估,分析获取数据资产影响评估系数。
50、本发明技术方案的进一步改进在于:所述数据资产影响评估系数的计算公式为:
51、;
52、其中,为数据资产影响评估系数,表示第个数据资产的影响评分,为第个数据资产的属性,为影响路径上的数据资产数量,为第个数据资产属性的最大可能值,为目标数据资产和第个数据资产之间的直接关系权重,为目标数据资产和第个数据资产之间的间接关系权重。
53、由于采用了上述技术方案,本发明相对现有技术来说,取得的技术进步是:
54、1、本发明提供数据资产层级关系智能识别系统,通过快速准确地识别数据资产之间的层级关系,为数据治理提供支撑,能够直观展示数据资产的目录结构、数据流向以及血缘关系,还能通过可视化的方式帮助用户迅速定位关键数据资产,提高数据治理的透明度,同时,系统能够自动生成各类数据治理报告,减少人工操作的繁琐性,显著提高数据治理的效率,有助于管理和利用数据资源。
55、2、本发明提供数据资产层级关系智能识别系统,通过可视化展示模块将组织的数据生态系统呈现在用户面前,展示数据资产之间的层级关系、数据流向以及关系网络信息,能够深入了解数据资产的组成和互动方式,从而更好地理解数据在组织中的流动和利用情况,通过分析数据资产之间的关系和流动路径,可以更有效地分配数据管理、存储和安全等方面的资源,避免资源浪费和重复投入,提高资源利用效率,降低数据治理的成本。
56、3、本发明提供数据资产层级关系智能识别系统,通过对数据资产进行层级关系分析,帮助更好地理解数据资产之间的依赖关系和影响路径,有助于优化资源配置,将更多的资源和精力投入到关键数据资产的维护和管理上,从而提升数据价值。
本文地址:https://www.jishuxx.com/zhuanli/20240802/261522.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。