一种历史存量电子计量证书数据结构化的方法与流程
- 国知局
- 2025-01-10 13:17:31
本发明属于数据处理领域,具体涉及一种历史存量电子计量证书数据结构化的方法。
背景技术:
1、计量证书报告是计量活动产出的最终产品,其中包含了被检仪表在被检时的各项性能指标,是判断被检仪表工作状态是否正常的重要依据。随着计量管理技术、计量检测技术、仪器仪表技术的发展,计量证书报告已逐步实现电子化,通过手动、半自动或全自动的计量检测方法,产生的计量数据通常被写入word、excel、pdf等电子文件进行存储,在履行审签流程后发送给客户。
2、然而计量数据写入电子文件后,产出的计量证书报告是仅人可读的,计算机难以对其进行处理和分析。随着计量数字化转型的不断推进和大数据分析技术的不断成熟,行业对计量数据的结构化和数字化需求不断提升,对计量数据的机器可读性提出了更高的要求,传统的电子计量证书难以满足日渐增长的数据分析需求。当前,在部分力学、几何量、电磁等计量参数的新研测试系统中,已可实现计量数据的结构化存储和分析,但仍未能覆盖所有被检仪表的所有计量参数,同时,过去数十年的计量活动产生了数量庞大的电子证书,这些计量数据同样存在庞大的数据分析需求。对于存量的电子证书报告,目前仍未有一个有效的数据结构化解决方法。
3、存量电子证书由检定校准人员对仪表完成计量后通过手动、半自动或自动的方式将数据录入电子文件并以文件形式固化存储,且由于计量需求和计量参数的不同,尤其在无线电、时间频率等电子计量领域,计量数据的组织方式多种多样,计量报告证书的模板在不同的型号仪器之间差别很大,难以穷举,也因此当前尚无一种有效可行的方法能够对各种组织形式的历史存量计量数据实现数据结构化存储并支撑大数据分析。
4、因此,对历史存量的计量证书报告的数据结构化方法的研究颇具价值,可以让计量技术机构和检定校准实验室对历史以往的计量数据实现大数据分析,进一步跟踪被检仪器的性能变化,赋能仪器全生命周期管理,创造创新价值。
技术实现思路
1、为此,本发明提出了一种历史存量电子计量证书数据结构化的方法,面向存量庞大的历史电子计量证书报告,实现将word格式的电子计量证书报告转换成机器可读的格式,并进行存储,解决了电子计量证书报告难以支撑计量数据大数据分析的困难。本发明提出的方法可适用于计量机构出具的不同专业领域、不同类型、不同型号、不同模板、不同选型的被检仪器电子证书报告的结构化转换,克服了当下数据结构化技术仅能适配特定仪器、特定模板,应用范围窄的问题。同时本发明给出了一种基于结构化数据进行仪器健康状态分析的方法。
2、本发明的一种历史存量电子计量证书数据结构化的方法,以word格式的电子计量证书为输入,抓取电子证书中所有计量数据和证书基础数据,以计算机程序可读的结构化方式重新存储,并关联计量业务流程数据,实现存量电子计量证书结构化,并基于结构化数据实现仪器健康状态的图形化;具体包括以下步骤:
3、通过docx库中的document方法打开对应的证书文件,遍历证书封面的段落文字,并获取其xml文本,在xml文本中搜索文字关键字,按行获取封面所有文字信息,通过关键字对文字信息进行匹配,截取对应的信息存储至变量中。
4、获取证书文件中所有表格,遍历所有表格,获取表格上一行的段落中文字作为表格的标题,并获取表格的行数,将表格首行的单元格数量作为表格的列数,创建行数×列数的数据矩阵变量用于存储数据。
5、获取表格所有行数据,对每一个行数据搜索单元格关键字。
6、获取表格某行所有单元格数据,对所有单元格数据搜索文本关键字,获取每个单元格中的文字,并存储在对应行、列的数据矩阵变量中。
7、遍历证书文件的所有表格后,完成对该证书的结构化,将产生的数据矩阵变量通过json库写入文件并存储,并将文件名与该证书所对应的检校流程数据相关联。
8、将word证书中表格的表格名称、表头字段、表格行数、表格列数、单元格数据读取,并按照给定字段写入json文件,形成计算机程序可读的数据格式。
9、基于结构化存储的json文件,可将同一被检仪器历年产生的多份json文件统一分析,根据用户选定的计量参数、横纵坐标、最大最小值数据,自动生成分析曲线,供用户对仪器历年状态变化情况进行直观有效的分析。
10、本发明的具体技术方案是基于python的docx库,通过程序模拟人打开word格式的电子证书并读取其内容,并通过关键信息识别、表格识别、数据内容抓取等过程,将电子证书的内容按照一定的可定制的标准格式转存为机器可读的文件格式,如json。电子计量证书的样例见附图1,包括检定证书、校准证书和检测报告。按此过程将所有存量的电子计量证书报告全量处理一遍,即可完成对存量电子计量证书的结构化工作,同时将json格式文件与计量证书报告的基本信息通过数据库进行绑定,通过图表、模型等方法可对计量数据进行分析,本发明在此基础上进行了仪器计量数据的相关分析。
11、整体方案流程见附图1。流程的输入为电子证书报告的文件路径,用于定位word格式电子证书,此外无需其他输入,所有相关信息在电子证书中都可抓取获得。首先通过docx库打开要处理的电子证书,并通过可配置的关键字库匹配获取电子证书的基本信息,包括证书编号、送检单位、送检单位地址、仪器名称、仪器型号、仪器序号、仪器制造商、检校结果、检校日期、有效日期、检校时的温湿度和文字性检校说明等。除电子证书的基本信息外,证书主要数据部分均以不同形式的表格存在,包括检校依据的方法、检校所使用的标准仪器、检校产生的数据等,在获取证书基本信息后,通过docx库获取电子证书中所有的表格,并遍历这些表格,按照不同的表格类型分别进行处理,读取表格的表格名称、表头、表格行数、表格列数、每一行表格数据并存储成标准json格式。word数据表格和其对应结构化后的数据示例见附图2、附图3。
12、遍历所有电子计量证书后,将数据json文件和数据库中的计量管理流程信息相互关联绑定,即可对证书数据进行数据分析,本发明基于数据结构化对仪器历年的计量数据进行分析,给出了一个仪器计量数据分析的应用示例。
13、本发明的有益效果在于
14、解决了电子计量证书报告难以支撑计量数据大数据分析的困难,克服了当下数据结构化技术仅能适配特定仪器、特定模板,应用范围窄的问题,给出了一种基于结构化数据进行仪器健康状态分析的方法。
技术特征:1.一种历史存量电子计量证书数据结构化的方法,其特征在于:以word格式的电子计量证书为输入,抓取电子证书中所有计量数据和证书基础数据,以计算机程序可读的结构化方式重新存储,并关联计量业务流程数据,实现存量电子计量证书结构化,并基于结构化数据实现仪器健康状态的图形化;具体包括以下步骤:
2.根据权利要求1所述的一种历史存量电子计量证书数据结构化的方法,其特征在于:将word证书中表格的表格名称、表头字段、表格行数、表格列数、单元格数据读取,并按照给定字段写入json文件,形成计算机程序可读的数据格式。
3.根据权利要求2所述的一种历史存量电子计量证书数据结构化的方法,其特征在于:基于结构化存储的json文件,可将同一被检仪器历年产生的多份json文件统一分析,根据用户选定的计量参数、横纵坐标、最大最小值数据,自动生成分析曲线,供用户对仪器历年状态变化情况进行直观有效的分析。
技术总结本发明提出了一种历史存量电子计量证书数据结构化的方法,基于Python的docx库,通过程序模拟人打开Word格式的电子证书并读取其内容,并通过关键信息识别、表格识别、数据内容抓取等过程,将电子证书的内容按照一定的可定制的标准格式转存为机器可读的文件格式,如json。按此过程将所有存量的电子计量证书报告全量处理一遍,即可完成对存量电子计量证书的结构化工作,同时将json格式文件与计量证书报告的基本信息通过数据库进行绑定,通过图表、模型等方法可对计量数据进行分析,本发明在此基础上进行了仪器计量数据的相关分析。技术研发人员:陈智鑫,马建林,沈保龙受保护的技术使用者:中国电子科技集团公司第十四研究所技术研发日:技术公布日:2025/1/6本文地址:https://www.jishuxx.com/zhuanli/20250110/352202.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表