技术新讯 > 计算推算,计数设备的制造及其应用技术 > 一种基于自动气象站数据字典的自维护方法  >  正文

一种基于自动气象站数据字典的自维护方法

  • 国知局
  • 2024-10-15 09:51:26

本发明涉及自动气象站数据字典领域,尤其是一种基于自动气象站数据字典的自维护方法。

背景技术:

1、数据字典是指一个系统或应用程序中使用的数据元素的定义和说明文档。它是一种结构化的文档,通常包含了数据库、数据表、列名、数据类型、长度、关系等相关信息。数据字典可以帮助开发人员理解数据的结构和意义,同时也可以作为团队协作的重要文档之一,提高代码维护和开发效率。数据字典应用很广泛,比如:(1)数据库设计与管理:在数据库设计阶段,通常都是先经过e-r模型设计,再通过数据字典定义表、列名、数据类型、长度、关系等信息,帮助开发人员建立和管理数据库。在数据库管理中,数据字典可以提供数据的详细描述,包括表、列的含义、数据来源、数据规范等,方便管理员进行数据库维护和数据分析;(2)系统开发与维护:数据字典可以作为系统开发过程中的重要文档,记录系统中使用的各种数据元素的定义和说明。它可以帮助开发人员了解数据结构和业务逻辑,提高代码的可读性和维护性。同时,在系统维护阶段,数据字典也可以帮助开发团队理解系统功能和数据流程,快速定位和解决问题;(3)数据质量管理:数据字典可以帮助管理和监控数据质量。通过定义数据元素的规范、验证规则和数据来源等信息,可以对数据进行有效的检查和修正,确保数据的准确性、完整性和一致性;(4)数据分析处理和报告:数据字典可以提供数据的详细描述和业务含义,帮助分析人员理解数据,并根据需求进行数据提取、转换和加载。在报表和分析过程中,数据字典可以起到指导和解释的作用,确保数据使用的准确性和一致性。

2、总之,数据字典在数据库设计、系统开发、数据质量管理和数据分析等方面都扮演着重要的角色,帮助组织和管理数据,提高数据的可靠性和实用性。但是因为数据字典本身作用的多样性、重要性与广泛性,如何才能使数据字典准确性等得到保障,这方面研究较少,本发明就以自动气象站数据字典为背景,对数据字典自维护方法进行研究,通过数据字典自动化生成,在业务软件运行前,用自维护方法对业务数据字典进行检测来解决数据字典不匹配、不统一而导致难以找到程序运行错误点、排错程序复杂耗时多等问题,来提高数据字典的可靠性、实用性与智能性。

技术实现思路

1、本发明的发明目的在于:针对上述存在的问题,提供一种基于自动气象站数据字典的自维护方法。

2、本发明采用的技术方案如下:

3、一种基于自动气象站数据字典的自维护方法,该方法包括数据准备、数据加载、精确查找、自修复四个步骤,具体为:

4、s1:数据准备:准备全要素数据字典与业务数据字典;

5、s2:数据加载:对全要素数据字典与业务数据字典进行加载;

6、s3:精确查找:查找业务数据字典中元素与业务流程是否存在于全要素数据字典中;

7、s4:自修复:对s3中不存在于全要素数据字典中的元素通过概率距离、词性半径、哈希字典算法进行自修复。

8、进一步,所述s1是对全要素数据字典与业务数据字典进行准备,该准备过程是通过程序将全要素数据字典与业务数据字典内各要素从数据库或者各种形式的表格按业务要求自动形成统一规定的xml文件。其中全要素数据字典包含自动气象站所有的气象要素与特征,而业务数据字典则根据业务需求,需要包含:自动气象站人工与半人工要素、已转变为自动化的要素、新增加的要素、各要素收集方式、各要素处理方式、要素文件存贮路径。

9、进一步,所述s2是双重循环进行加载,第一层循环对业务数据字典从第一个要素依次加载,第二层循环对全要素数据字典从第一个要素依次加载。

10、进一步,所述s3是在所述s2的基础上,第二层循环从全要素数据字典第一个要素开始,依次查找,判定业务数据字典中元素是否在全要素字典中,是否是完全相同的元素,如果是继续循环,如果不是则进入到所述s4自修复步骤。

11、进一步,所述s4主要包括s41求概率距离、s42求词性距离,以及s43哈希字典校正三个步骤,这三个步骤需要按条件执行。

12、进一步,所述s41,其公式为:

13、

14、

15、

16、

17、其中,是概率距离, pe表示业务数据字典中气象元素名称a与全要素数据字典气象元素名称b的字符相同个数在a的字符个数中的占比, pd表示业务数据字典中气象元素名称a与全要素数据字典气象元素名称b的字符相同个数在b的字符个数的占比,其中为气象元素名称a的字符个数,为气象元素名称b的字符个数,表示气象元素名称a和b相同字符的个数和,取与的最大值。

18、进一步,所述s42,其公式为:

19、

20、其中,表示词性距离,同时也作为图示中圆的半径,半径越大代表词性越不相近,如果词性完全一样,则收敛于圆心,为了区别其它点,此时圆心用菱形表示;公式中β为加权值,通常根据经验值确定,在此处当时β取1,因为在自动气象站中,百分之七十以上元素都是以最后两个字来区分词性的,如果通过最后两个字都可以区分出来了,就没有必要再去计算后面的概率,除了这种情况,β取值为一个具体的值或一个函数,但最终β取值需满足小于等于1;代表取气象元素名称a和b最后2个字符相对于气象元素名称a最后2个字符的词性概率;代表取气象元素名称a和b最后2个字符时相对于气象元素名称b最后2个字符的词性概率;表示取气象元素名称a和b的最后3个、4个、5个字符时,分别对于气象元素名称a与气象元素名称b的最后3个、4个、5个字符的概率。

21、进一步,所述s43,具体步骤为:

22、s431、设置概率距离判定条件;

23、s432、分类数据校正方法。

24、进一步,所述设置概率距离判定条件,具体分类为(其中是概率距离到坐标(1,1)的距离,其公式为:):

25、c1、当存在元素,优先判断元素的词性距离,对该范围内的元素按词性距离从小到大排序,选取最小词性距离元素,若两个以上元素词性距离相同,则选取其中概率距离最小的元素;如果词性距离最小值超过0.1则只考虑概率距离,对概率距离排序,取最小值元素,对选取出来的值用哈希字典进行校正;

26、c2、当所有元素,如果其中一元素词性距离为0,则选择当前元素,若两个以上元素词性距离为0,则选取其中概率距离最小的元素;否则将挑选出概率距离与词性距离最小的两个值显示在程序界面弹出提示框内,请求人工协助,等待人工做出相应回应程序再继续运行,根据人工协助结果将选择出来的值更新到哈希字典进行校正。

27、进一步,所述分类数据校正方法,具体分类为:

28、c1.1、对所述c1分类,这里选出的元素先在哈希字典中寻找键值对,然后进行替换,将此替换后的元素值在业务数据字典中进行替换,然后从此元素开始再进行精确查找,通常情况下能够精确匹配成功,如果在哈希字典中不存在,则将当前的两个值作为哈希字典的键值对哈希字典进行更新;

29、c2.1、对所述c2分类,如果能够找到元素,首先在哈希字典中寻找此键值对,如果哈希字典中不存在该键值对,此时不能对哈希字典以该键值进行更新,而是需要人工处理,如果人工协助结果是确定,则以此值更新哈希表,否则就将人工处理结果直接替换到业务数据字典中。

30、综上所述,由于采用了上述技术方案,本发明的有益效果是:

31、本发明所提供的一种基于自动气象站数据字典的自维护方法,通过对自动气象站全要素数据字典与业务数据字典自动生成,然后在每次业务软件启动时,对各业务数据字典进行检测,对s3中不存在于全要素数据字典中的元素通过概率距离、词性半径、哈希字典等算法进行自修复,以达到减少程序出错率、减少排错时间、精准定位、降低程序耦合性目的。经实验证明,该方法可以在很大程度上能够对业务数据字典进行自我修复,且准确性高。

本文地址:https://www.jishuxx.com/zhuanli/20241015/315621.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。