技术新讯 > 计算推算,计数设备的制造及其应用技术 > 一种基于业务资源模型的石油数据治理方法与流程  >  正文

一种基于业务资源模型的石油数据治理方法与流程

  • 国知局
  • 2024-09-19 14:44:02

本发明涉及石油数据治理,尤其涉及一种基于业务资源模型的石油数据治理方法。

背景技术:

1、全国的石油企业众多,大大小小的石油企业内数据量大,历史数据堆积,管理混乱,石油企业之间联系较少,没有统一管理数据的机构,导致油气企业内部的信息化系统建设各自为政,重复建设,业务资源数据割裂,有些石油企业在某些业务方面规模不大,数据量小,自身参考价值不大,但在全国范围内,相关业务具有开展,若能将所有石油企业的相关业务数据统一起来进行集中管理,即提高数据的精度,有提高数据的对比性,还能降低重复建设以及投入过多管理而导致人力、物力以及资产的浪费。而且,许多石油企业由于规模问题,一般缺少数据综合管理,对历史数据进行整理和管理,导致数据长久处于丢弃状态,数据无法得到有效处理,导致后期查找、分析,开展业务利用都会带来很大麻烦。现在需要一种将全国所有石油企业内历史数据进行统计、分类、清洗后,再统一入湖进行统一管理的机构和治理方法。

技术实现思路

1、本发明旨在至少在一定程度上解决相关技术中的技术问题之一。为此,本发明的一个目的在于提出一种基于业务资源模型的石油数据治理方法,解决了全国石油企业历史数据堆积,管理混乱,无有效治理方法,更没有统一的治理方法来管理全国所有石油企业数据的问题。

2、根据本发明提出的一种基于业务资源模型的石油数据治理方法,方法如下:

3、一、建立数据入库管理中心

4、在数据入库管理中心内设置云服务器,所述云服务器内设有储存中心,所述储存中心包括管理数据湖、区域块数据湖和原有标准数据库;

5、所述服务器内设有石油数据入湖管理模型;

6、二、石油企业建立数据管理中心

7、每个石油企业内的数据管理中心均具有一个企业数据服务器和石油业务数据数据库,每个所述石油企业内企业数据服务器均通过互联网与云服务器网络连接;

8、三、石油数据入湖管理模型的构建

9、通过对每个石油企业内业务数据进行调研,对每个石油企业的不同类型的勘探业务数据特点、管理方式、数据量、与其它数据库的交互情况、数据的业务特征以及问题数据的类型进行了解,以便制定相对应的数据治理方案;

10、数据入库管理中心根据调研,制定石油数据入湖管理模型,石油数据入湖管理模型如下:1、对数据识别,梳理和收集数据,汇聚得到最全数据清单,确定每个数据对应的数据来源;2、数据质检与分析,明确不同类型数据定义标准,确定数据的质检原则并分析数据;3、数据映射、迁移,将待迁移源头数据库中数据表、数据项与标准数据库内数据表、数据项进行映射,分类迁移到清洗模块;4、数据清洗,按照数据质检规则、清洗原则,识别、汇总、对比、核实、完善迁移数据,经过公司业务人员补充、审查、确认,对数据内容进行补充完善后,导入到中间库中待用;5、清洗数据审核,数据按照修改原则进行修改后,做好过程记录,先进行实施组内部的多级审核,然后,组织分公司不同专业,不同类型数据的主要对接部门进行集中审核;5、数据入湖,将审核过的数据传输到区域块数据湖;

11、四、入湖数据管理

12、区域块数据湖内设有多个带编号的储存区域块组合,每个所述储存区域块组合包括一个主区域块和一个辅区域块,每个石油公司的数据管理中心将对应一个储存区域块组合,石油公司的数据管理中心将清洗数据审核通过的数据上传储存到主区域块,未通过的数据上传备份到辅区域块;

13、云服务器对所有主区域块进行对比分析,查找相似数据,对相似数据进行分析,找到数据最佳的一组,将所有所述主区域块内不相似数据以及相似数据中最佳数据整合备份到管理数据湖。

14、在本发明的一些实施例中,所述石油数据分为主数据和业务数据,所述业务数据包括结构化数据和非结构化数据;

15、所述主数据优先清洗迁移入湖,业务数据后清洗迁移入湖;

16、而业务数据先进行结构化数据清洗,后进行非结构化数据清洗。

17、在本发明的另一些实施例中,对所述主数据和业务数据进行分开调研;

18、先调研每个石油企业勘探类主数据的数量及明细,再明确其包含主数据的数据表名,查询获取每个石油企业数据库的主数据,汇总得到初步的完整主数据清单,同时查询各石油企业主数据与标准数据库对比,找出相应的问题数据示例,以及确定问题数据规模;

19、业务数据包括各专业库中的物化探、测录试、勘探综合研究、分析化验四大业务分类,调研每个石油企业中业务数据出现的相关问题类型,查询每个石油企业专业库并找出相应的问题数据示例,并分析问题数据规模;

20、调研所有石油公司不同专业的专业库范围,明确各库主要数据范围和数据存储总量,获取到数据库访问权限;

21、调研明确所有石油企业专业库中分别含有多少业务数据表和代码表,分别统计各业务数据表的数据量,分析各业务数据表涵盖的主数据范围以及缺失情况。

22、在本发明的另一些实施例中,所述石油数据入湖管理模型的构建中对数据识别主要为对主数据识别,识别方法如下:

23、梳理和收集各石油公司线上、线下主数据,汇聚得到最全主数据清单,线上系统包括勘探十大库、a2、矿管系统、总部储量库或其它勘探专业库;线下来源于分公司勘探部、研究院、实验中心、油服物探事业部、研究总院的主数据;

24、不同类型的主数据,需要找对不同的数据来源,或者找到不同类型的研究单位,才能获取识别出最新最全的主数据信息。

25、在本发明的另一些实施例中,所述石油数据入湖管理模型的构建中对数据质检与分析方法如下:明确每种类型数据的定义标准,参照各种数据制定规范来质检,利用规范文件来分析。

26、在本发明的另一些实施例中,所述石油数据入湖管理模型的构建中对数据的映射、迁移方法如下:

27、基于数据资源识别,建立待迁移源头数据库中数据表、数据项与标准数据库数据表、数据项的映射关系;

28、需要对迁移源头数据库中待迁移数据表、数据项逐一进行映射,建立专业库表、字段与标准数据库的表、数据项的一一对应关系;

29、收集行业对附录所涉及业务的最新标准以及历史标准,分析业务部门确认源附录与标准附录分别参考的标准,再进行逐一映射,建立专业库相关字段与标准附录表、附录值的一一映射关系;

30、基于映射模型关系,配置标准数据库与专业库数据接入脚本进行迁移。

31、在本发明的另一些实施例中,所述石油数据入湖管理模型的构建中数据清洗包括主数据清洗和业务数据清洗;

32、主数据清洗

33、符合数据标准的主数据,直接导入对应区域块数据湖;

34、不符合数据标准的主数据,逐一与业务部门核实,进行审核、形成整改记录,进行标准化;

35、将主数据分成多个大类进行分别清洗;

36、业务数据清洗

37、结构化业务数据清洗,先进行预处理,再迁移接入到业务数据专用质检库质量检查、数据修改后,转入中间库,等待审核;

38、非结构化业务数据清洗,对业务数据中结构化业务数据清洗完成后,对剩下数据获取来源文件数据库的数据目录,对目录进行分类后,找到目标的勘探非结构化数据,获取数据实体,再结合数据实体进行数据属性的标准化填充,最后将数据按照结构化数据的清洗方式清洗。

39、在本发明的另一些实施例中,每个石油企业将主数据清洗、结构化业务数据清洗和非结构化业务数据清洗的数据分别通过独立的迁移通道传输到对应的储存区域块组合内,且三类数据分开储存。

40、在本发明的另一些实施例中,在所述石油数据入湖管理模型的构建中,对于数据是根据映射来迁移到清洗模块,对于没有找到与标准数据库映射的数据,需要标记,对于标记的数据,需要人工判断采用什么方式进行清洗。

41、本发明中,能有效将大大小小的石油企业历史数据进行整理分类,进行修复清洗,再转入到集中的数据湖内进行集中管理和保藏,以便集中管理和保存数据;数据迁移后,数据符合数据湖标准率接近100%,抽样检查准确率在99%以上。

本文地址:https://www.jishuxx.com/zhuanli/20240919/299905.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。