技术新讯 > 计算推算,计数设备的制造及其应用技术 > 一种融合多源数据的关系图谱生成方法及系统与流程  >  正文

一种融合多源数据的关系图谱生成方法及系统与流程

  • 国知局
  • 2024-10-21 14:37:25

本发明涉及图谱创建,具体涉及一种融合多源数据的关系图谱生成方法及系统。

背景技术:

1、现有技术中,多源数据融合技术旨在整合来自不同数据源的信息,通过数据清洗、标准化、实体解析、匹配关联、异构数据集成、主体建模、融合算法等手段,实现数据的一致性、关联性和可用性。关注实时性、元数据管理、安全隐私保护等方面,这些技术为建立高质量、一致性的综合数据集提供了关键方法,适用于数据分析、挖掘和应用领域。在选择技术时需要综合考虑数据特点、应用场景和安全性等因素。然而,不同数据之间可能存在一定的质量差异,数据整合可能导致不同来源的数据在整合后出现数据质量低于整合前数据质量的情况,给工作人员带来了极大的不便。

技术实现思路

1、本发明的目的是提供一种融合多源数据的关系图谱生成方法及系统,以解决背景技术中不足。

2、为了实现上述目的,本发明提供如下技术方案:一种融合多源数据的关系图谱生成方法,包括以下步骤;

3、s1:对多源数据进行采集后进行预处理,利用自然语言处理技术对文本数据进行实体识别,确定图谱中的实体是否识别成功;

4、s2:在成功识别图谱中的实体后,获取图谱实体识别过程中的数据关联信息以及图谱构建能力信息,所述数据关联信息包括数据相关性指数、数据融合偏差值,所述图谱构建能力信息包括图谱构建效率波动值;

5、s3:将数据相关性指数,数据融合偏差值以及图谱构建效率波动值进行综合分析,判断多源数据在图谱生成过程中的数据融合质量精确性,并根据数据融合质量精确性对数据进行不同方式融合处理。

6、在一个优选地实施方式中,s2中,获取图谱实体识别过程中的数据关联信息以及图谱构建能力信息,所述数据关联信息包括数据相关性指数、数据融合偏差值,所述图谱构建能力信息包括图谱构建效率波动值:

7、数据相关性指数的获取方法为:在t时间单位内设置h个时间段,对t时间段内图谱构建过程中获取到的数据源j,并对其进行标号j=1,2,3...c,c为大于0的正整数,建立数据源数据采集量集合nk={nki}={nk1,nk2,nk3,...nki},i为正整数,计算数据源的数据采集频率:nkd为数据源的数据采集频率,获取设置的预期数据源数据采集频率nky,计算数据相关性指数,数据相关性指数的计算表达式为:式中,wtv为数据相关性指数;

8、数据融合偏差值的获取方法为:获取p时间段内多源数据图谱构建过程中的实时反馈数据,获取实时反馈数据中的多源数据融合时间t,数据融合数量比例r,数据融合正确率m,获取预先设置的预设标准多源数据融合时间,标准数据融合数量比例,标准数据融合正确率,计算得到多源数据融合时间偏差值tk,数据融合数量比例偏差值re,数据融合正确率偏差值mg,计算数据融合偏差值,计算表达式为:式中,mr为数据融合偏差值;

9、图谱构建效率波动值的获取方法为:在多源数据关系图谱构建过程中,实时获取不同时间节点的图谱构建速度,建立图谱构建速度集合ml={mli}={ml1,ml2,ml3,...mlc},c为正整数,计算图谱平均速度构建值,将每个时间点的速度进行差值比较,得到与平均值的差异,将差异平方求和并取平均值,得到方差,计算构建速度标准差,即为图谱构建效率波动值。

10、在一个优选地实施方式中,s3中,将数据相关性指数,数据融合偏差值以及图谱构建效率波动值进行综合分析,判断多源数据在图谱生成过程中的数据融合质量精确性;

11、将数据相关性指数,数据融合偏差值以及图谱构建效率波动值进行归一化处理,通过归一化处理后的将数据相关性指数,数据融合偏差值以及图谱构建效率波动值计算多源数据在图谱生成过程中的数据融合质量的精确性系数,计算表达式为:式中,pgk为精确性系数,wtv为数据相关性指数,mr为数据融合偏差值,nxy为图谱构建效率波动值,a1、a2、a3为数据相关性指数、数据融合偏差值,图谱构建效率波动值的比例系数,且a2>a3>a1>0。

12、在一个优选地实施方式中,将多源数据在图谱生成过程中的数据融合质量的精确性系数与标准阈值进行比较,若多源数据在图谱生成过程中的数据融合质量的精确性系数大于等于标准阈值,此时发出数据融合正常信号;若多源数据在图谱生成过程中的数据融合质量的精确性系数小于标准阈值,此时发出数据融合异常信号,并根据数据融合质量精确性对数据进行不同方式融合处理。

13、本发明还提供一种融合多源数据的关系图谱生成系统,包括多源数据获取模块,数据处理模块以及综合判断模块;

14、多源数据获取模块:对多源数据进行采集后进行预处理,利用自然语言处理技术对文本数据进行实体识别,确定图谱中的实体是否识别成功;

15、数据处理模块:在成功识别图谱中的实体后,获取图谱实体识别过程中的数据关联信息以及图谱构建能力信息,所述数据关联信息包括数据相关性指数、数据融合偏差值,所述图谱构建能力信息包括图谱构建效率波动值;

16、综合判断模块:将数据相关性指数,数据融合偏差值以及图谱构建效率波动值进行综合分析,判断多源数据在图谱生成过程中的数据融合质量精确性,并根据数据融合质量精确性对数据进行不同方式融合处理。

17、在上述技术方案中,本发明提供的技术效果和优点:

18、1、本发明通过对多源数据进行采集后进行预处理,利用自然语言处理技术对文本数据进行实体识别,确定图谱中的实体是否识别成功,在成功识别图谱中的实体后,获取图谱实体识别过程中的数据关联信息以及图谱构建能力信息,所述数据关联信息包括数据相关性指数、数据融合偏差值,所述图谱构建能力信息包括图谱构建效率波动值,通过不断监测和分析数据,可以进行即时的调整和优化,以适应数据的变化和图谱构建的动态需求,有助于保持图谱的实时性和精确性。

19、2、本发明通过将数据相关性指数,数据融合偏差值以及图谱构建效率波动值进行综合分析,判断多源数据在图谱生成过程中的数据融合质量精确性,并根据数据融合质量精确性对数据进行不同方式融合处理,综合分析结果为不同的数据源或阶段提供了精细化的融合处理策略。根据不同数据的质量和构建能力,可以选择不同的融合方式,从而提高整体图谱质量。同时,通过不断监测和分析数据,可以进行即时的调整和优化,以适应数据的变化和图谱构建的动态需求,有助于保持图谱的实时性和精确性。

技术特征:

1.一种融合多源数据的关系图谱生成方法,其特征在于:包括以下步骤;

2.根据权利要求1所述的一种融合多源数据的关系图谱生成方法,其特征在于:s2中,获取图谱实体识别过程中的数据关联信息以及图谱构建能力信息,所述数据关联信息包括数据相关性指数、数据融合偏差值,所述图谱构建能力信息包括图谱构建效率波动值:

3.根据权利要求2所述的一种融合多源数据的关系图谱生成方法,其特征在于:s3中,将数据相关性指数,数据融合偏差值以及图谱构建效率波动值进行综合分析,判断多源数据在图谱生成过程中的数据融合质量精确性;

4.根据权利要求3所述的一种融合多源数据的关系图谱生成方法,其特征在于:

5.一种融合多源数据的关系图谱生成系统,用于实现权利要求1-4任一项所述的一种融合多源数据的关系图谱生成方法,其特征在于包括多源数据获取模块,数据处理模块以及综合判断模块;

技术总结本发明公开了一种融合多源数据的关系图谱生成方法及系统,具体涉及图谱创建技术领域:通过对多源数据进行采集,确定图谱中的实体是否识别成功,在成功识别图谱中的实体后,获取图谱实体识别过程中的数据关联信息以及图谱构建能力信息,所述数据关联信息包括数据相关性指数、数据融合偏差值,所述图谱构建能力信息包括图谱构建效率波动值,将数据相关性指数,数据融合偏差值以及图谱构建效率波动值进行综合分析,判断多源数据在图谱生成过程中的数据融合质量精确性,并根据数据融合质量精确性对数据进行不同方式融合处理,根据不同数据的质量和构建能力,选择不同的融合方式,从而提高整体图谱质量。技术研发人员:王跃昌受保护的技术使用者:北京数据弦科技有限公司技术研发日:技术公布日:2024/10/17

本文地址:https://www.jishuxx.com/zhuanli/20241021/318747.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。