一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

数据表标准化方法、装置、设备及计算机存储介质与流程

2022-06-22 13:26:41 来源:中国专利 TAG:

技术特征:
1.一种数据表标准化方法,其特征在于,所述方法包括:基于待标准化的源数据表的原始表格信息,以及所述源数据表的数据元对标结果,确定所述源数据表中包含的业务时间字段;基于所述原始表格信息进行表格信息识别,确定所述源数据表对应的表格类别;其中,所述表格类别包括主题域类别、业务类别以及分区方式类别;基于所述表格类别,生成所述源数据表对应的标准化表的标准表名称;基于所述数据元对标结果、所述原始表格信息以及业务时间字段,生成所述标准化表的各个标准数据项;基于所述标准表名称与所述各个标准数据项,获得所述标准化表。2.如权利要求1所述的方法,其特征在于,在基于待标准化的源数据表的原始表格信息,以及所述源数据表的数据元对标结果,确定所述源数据表中包含的业务时间字段之前,所述方法还包括:针对所述源数据表进行信息提取,获得所述原始表格信息;其中,所述原始表格信息包括所述源数据表的表名称以及字段信息;针对获得的各所述字段信息分别进行对标处理,确定各所述字段信息各自对应的数据元对标结果,所述数据元对标结果包括各所述字段信息对应的数据元以及限定词。3.如权利要求2所述的方法,其特征在于,基于待标准化的源数据表的原始表格信息,以及所述源数据表的数据元对标结果,确定所述源数据表中包含的业务时间字段,包括:基于所述原始表格信息中的中文字段信息以及所述数据元对标结果,确定所述源数据表包含的时间字段;基于设定的非业务时间字段集合,将所述源数据表包含的时间字段中非业务时间字段筛除;将筛除后剩余的时间字段确定为业务时间字段。4.如权利要求3所述的方法,其特征在于,在基于待标准化的源数据表的原始表格信息,以及所述源数据表的数据元对标结果,确定所述源数据表中包含的业务时间字段之后,所述方法还包括:针对确定的各个所述业务时间字段,若存在业务时间字段未对应有所有表示类型,则对缺失的表示类型进行补全处理;针对各个所述非业务时间字段,若存在非业务时间字段包括除指定表示类型之外的其他表示类型,则将所述其他表示类型删除。5.如权利要求2所述的方法,其特征在于,基于所述原始表格信息进行表格信息识别,确定所述源数据表对应的表格类别,包括:基于所述表名称和所述字段信息进行主题域识别,确定所述源数据表所属的主题域类别;基于所述表名称和所述字段信息进行分区方式识别,确定所述源数据表所属的分区方式类别;其中,所述分区方式类别包括增量分区类别和全量分区类别;基于所述表名称,提取所述源数据表所属的业务类别。6.如权利要求5所述的方法,其特征在于,基于所述表名称和所述字段信息进行主题域识别,确定所述源数据表所属的主题域类别,包括:
按照候选主题域集合中各个候选主题域的优先级从高到低的顺序,依次将所述表名称和所述字段信息与每个候选主题域关联的关键词进行匹配;若所述表名称和所述字段信息与当前匹配的候选主题域之间的匹配度大于设定的匹配度阈值,且满足当前匹配的候选主题域的设定要求,则将当前匹配的候选主题域确定所述源数据表所属的主题域类别。7.如权利要求5所述的方法,其特征在于,基于所述表名称和所述字段信息进行主题域识别,确定所述源数据表所属的主题域类别,包括:对所述表名称和所述字段信息进行文本预处理,获得多个候选词;对所述多个候选词分别进行词向量化,获得所述多个候选词各自对应的词向量;基于所述多个候选词各自对应的词向量,从所述多个候选词中确定出至少一个关键词,并基于所述至少一个关键词确定所述源数据表的表向量;基于所述源数据表的表向量与各个候选数据表各自对应的表向量之间的相似度,从所述各个候选数据表中,确定出至少一个候选数据表;基于所述至少一个候选数据表各自对应的主题域类别,确定所述源数据表所属的主题域类别。8.如权利要求5所述的方法,其特征在于,基于所述表名称,提取所述源数据表所属的业务类别,包括:从所述表名称中,提取初始业务系统名称以及初始业务名称;对所述初始业务系统名称进行标准化处理,获得相应的标准业务系统名称;对所述初始业务名称进行标准化处理,获得相应的标准业务名称。9.如权利要求2所述的方法,其特征在于,基于所述数据元对标结果、所述原始表格信息以及业务时间字段,生成所述标准化表的各个标准数据项,包括:针对各个字段信息,分别执行如下操作,生成各个字段信息各自在所述标准化表中的标准数据项:针对一个字段信息,若所述一个字段信息对应的数据元对标结果为名称,则确定所述一个字段信息对应的标准数据项为源数据表中的相应源数据项;若所述一个字段信息对应的数据元对标结果不是名称,则确定所述一个字段信息是否存在相应的限定词;若存在限定词,则基于相应的限定词与数据元对标结果,确定所述一个字段信息对应的标准数据项;若不存在限定词,则基于相应的数据元对标结果,确定所述一个字段信息对应的标准数据项。10.如权利要求9所述的方法,其特征在于,所述方法还包括:确定所述一个字段信息是否为业务时间字段;若所述一个字段信息为业务时间字段,则基于所述一个字段信息的表示类型,为所述一个字段信息对应的标准数据项添加相应表示类型的类型标识;若所述一个字段信息为非业务时间字段,则确定各标准数据项中是否存在重复,若存在重复,则对重复的标准数据项添加区别标识。11.一种数据表标准化装置,其特征在于,所述装置包括:
业务字段识别单元,用于基于待标准化的源数据表的原始表格信息,以及所述源数据表的数据元对标结果,确定所述源数据表中包含的业务时间字段;表格信息识别单元,用于基于所述原始表格信息进行表格信息识别,确定所述源数据表对应的表格类别;其中,所述表格类别包括主题域类别、业务类别以及分区方式类别;表命名单元,用于基于所述表格类别,生成所述源数据表对应的标准化表的标准表名称;数据项命名单元,用于基于所述数据元对标结果、所述原始表格信息以及业务时间字段,生成所述标准化表的各个标准数据项;标准表生成单元,用于基于所述标准表名称与所述各个标准数据项,获得所述标准化表。12.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至10任一项所述方法的步骤。13.一种计算机存储介质,其上存储有计算机程序指令,其特征在于,该计算机程序指令被处理器执行时实现权利要求1至10任一项所述方法的步骤。14.一种计算机程序产品,包括计算机程序指令,其特征在于,该计算机程序指令被处理器执行时实现权利要求1至10任一项所述方法的步骤。

技术总结
本申请公开了一种数据表标准化方法、装置、设备及计算机存储介质,涉及数据标准化技术领域,用于实现字段名和表名的标准化,且提升了数据标准化的效率,该方法包括:基于待标准化的源数据表的原始表格信息,以及源数据表的数据元对标结果,确定源数据表中包含的业务时间字段;基于原始表格信息进行表格信息识别,确定源数据表对应的表格类别;其中,表格类别包括主题域类别、业务类别以及分区方式类别;基于表格类别,生成源数据表对应的标准化表的标准表名称;基于数据元对标结果、原始表格信息以及业务时间字段,生成标准化表的各个标准数据项;基于标准表名称与各个标准数据项,获得标准化表。获得标准化表。获得标准化表。


技术研发人员:陈银 吕晓 陈立力 周明伟
受保护的技术使用者:浙江大华技术股份有限公司
技术研发日:2022.03.29
技术公布日:2022/6/21
再多了解一些

本文用于企业家、创业者技术爱好者查询,结果仅供参考。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献