技术新讯 > 计算推算,计数设备的制造及其应用技术 > 一种用电安全知识图谱的构建方法及装置与流程  >  正文

一种用电安全知识图谱的构建方法及装置与流程

  • 国知局
  • 2024-10-09 16:15:41

本发明属于微电网优化,具体涉及一种用电安全知识图谱的构建方法及装置。

背景技术:

1、知识图谱研究方面,在当今大数据时代,专业领域的知识及相关数据已逐渐成为一种宝贵资源,然而,这些知识和数据往往分散在各种文献、数据库、网站等不同的数据源中,难以被有效地组织、整合和利用。为了解决这一问题,知识图谱作为一种新兴的技术,旨在将专业领域的知识和数据以结构化和语义化的方式表示和存储。知识图谱的构建技术主要包括实体抽取、关系抽取、属性抽取、实体链接等子任务。目前,这些任务主要依赖于基于规则、基于统计机器学习或基于深度神经网络的方法,也有一些方法利用多模态信息(如图像、视频等)或外部知识(如本体、规则等)来辅助抽取和链接过程。目前此技术仍然面临着数据稀疏、噪声干扰、领域适应等问题,导致抽取和链接的准确率和召回率有限。

2、电力领域知识图谱研究方面,目前,知识图谱技术在电力领域还处于初步探索阶段,已有研究主要集中于电力知识图谱构建方法、电网数据融合及管理、简单查询推理和知识问答等。有文献提出了电网调度“邻域知识”模型与在线发现精细运行规则方法,但知识图谱内容局限于断面及其量化关系;也有文献提出了“电网一张图”的构建方法,实现电网数据全面融合,但未考虑与业务场景知识关联。此外,部分文献融合现有电网多源数据构建电力设备知识图谱,实现智能搜索与可视化,主要侧重于非电网故障情况下的设备综合管理。还有部分文献通过构建电网实体设备知识图谱,利用图搜索与不一致性检验,实现了电力设备缺陷记录的自动检索。然而,目前的研究工作以概念框架为主,具体实施应用较少;多局限于部分图谱构建和单一功能实现,综合场景考虑不足;缺少人机便捷交互,算法忽略调控人员主导作用,未打破电网调控人员和知识图谱技术壁垒,且数据管理更新较为复杂。

3、目前,在电力领域知识图谱研究方面的专利有:

4、申请号为202110799954.3的专利公开了一种基于知识图谱的用电安全隐患智能诊断方法,包括以下步骤:1)基于知识图谱与专家知识库搭建决策树模型;2)通过在线监控设备、通信技术,收集、传输各监控对象参数信息,通过数据处理平台判断参数异常;3)将10个采集周期内告警信息按照监控对象、告警时间、用电类型、参数项、告警类型等属性分组;4)将分组后的告警信息输入决策树模型,得到隐患集合输出;5)通过人工监督方式扩充知识图谱、完善决策树模型。但当前用电安全隐患的表述含有大量结构化和非结构化数据,比如安全隐患检查记录等,该专利仅针对结构化数据,影响了安全隐患诊断的全面性。此外,依赖于人工监督方式扩充知识图谱和完善决策树模型,无法及时将大规模的新数据扩展到模型当中,限制了该发明的实用性,且增加了人力成本和时间成本,降低了用电安全隐患诊断的效率。

5、申请号为201911069823.9的专利公开了一种基于深度学习的信息安全知识图谱的自动构建方法,包括以下步骤,步骤1,构建信息安全知识图谱的本体库;步骤2,对收集的数据基于启发式规则的方式进行标注得到实体识别的训练集,并设计了基于bi-lstm的模型结构进行学习作为实体识别的模型,从而抽取出文本的实体词;步骤3,基于三元组知识来进行自动标注得到关系抽取的训练集,并设计了基于注意力机制的lstm结构作为关系抽取的模型,从而抽取出文本中的三元组。该专利采用启发式规则的方式对收集的数据进行标注,可能会限制标注的准确性和全面性,无法涵盖不同特征的实体和关系类型,从而导致模型学习的偏差;该专利未提供关于知识融合的策略或方法,这可能导致知识图谱中存在偏差、冗余甚至错误的信息,使构建出的知识图谱质量下降,影响其隐患排查的可靠性。

技术实现思路

1、为克服上述相关技术中存在的问题,本技术提供一种用电安全知识图谱的构建方法及装置。

2、根据本技术实施例的第一方面,提供一种用电安全知识图谱的构建方法,包括:

3、采集用电安全知识数据;

4、基于所述用电安全知识数据的数据类型,对所述用电安全知识数据进行整合和知识抽取,得到所述用电安全知识数据的初步知识表示;

5、对所述初步知识表示进行知识融合,得到所述用电安全知识数据的标准知识表示;

6、将所述标准知识表示进行存储,得到用电安全知识图谱。

7、优选的,所述用电安全知识数据的数据类型,包括:结构化数据、半结构化数据和非结构化数据。

8、优选的,所述基于所述用电安全知识数据的数据类型,对所述用电安全知识数据进行整合和知识抽取,包括:

9、基于预设的各类型的节点表格,对所述用电安全知识数据中的结构化数据和半结构化数据中的字段信息进行整合,形成结构化图谱节点表格;

10、对所述用电安全知识数据中的非结构化数据进行实体抽取,得到所述用电安全知识数据的实体;

11、基于预先建立的r-bert-cnn模型,对所述用电安全知识数据中的非结构化数据进行关系抽取,得到所述用电安全知识数据的实体间的关系;

12、所述结构化图谱节点表格、所述用电安全知识数据的实体和所述用电安全知识数据的实体间的关系为所述初步知识表示。

13、优选的,所述对所述用电安全知识数据中的非结构化数据进行实体抽取,包括:

14、基于词典的方法,对所述用电安全知识数据中的非结构化数据进行实体抽取,得到第一实体集合;

15、基于规则的方法,对所述用电安全知识数据中的非结构化数据进行实体抽取,得到第二实体集合;

16、对所述第一实体集合和所述第二实体集合进行去重和取并集,得到所述用电安全知识数据的实体。

17、优选的,所述基于词典的方法,对所述用电安全知识数据中的非结构化数据进行实体抽取,包括:

18、基于预先建立的用电安全领域实体词典,利用正向最大匹配算法识别所述用电安全知识数据中的非结构化数据的实体,得到第一实体集合。

19、优选的,所述基于规则的方法,对所述用电安全知识数据中的非结构化数据进行实体抽取,包括:

20、基于构词特征字符规则的实体识别方法,对所述用电安全知识数据中的非结构化数据进行实体抽取,得到第三实体集合;

21、基于词性组合规则的实体识别方法,对所述用电安全知识数据中的非结构化数据进行实体抽取,得到第四实体集合;

22、对所述第三实体集合和所述第四实体集合进行去重和取并集,得到所述第二实体集合。

23、优选的,所述用电安全领域实体词典的建立过程,包括:

24、对电力知识文本进行自然语言文本预处理,得到生语料库;

25、利用lac分词工具对所述生语料库进行分词,得到熟语料库;

26、基于预设的实体名称及其对应的标签代码,对所述熟语料库中的词进行标注,得到所述熟语料库中的词对应的预设的实体名称和标签代码;

27、利用所述熟语料库中的词及其对应的实体名称和标签代码,构建所述用电安全领域实体词典。

28、优选的,所述基于构词特征字符规则的实体识别方法,对所述用电安全知识数据中的非结构化数据进行实体抽取,包括:

29、对电力知识文本进行自然语言文本预处理,得到生语料库;

30、利用lac分词工具对所述生语料库进行分词,得到熟语料库;

31、采用bioes模式标注规则将各预设的实体名称对应的所述熟语料库中的词进行标注,并将所述熟语料库中的词中不相关的字符标注为o,所述熟语料库中的词中的单字符标注为s,得到各预设的实体名称对应的构词特征字符集合;

32、基于各预设的实体名称对应的构词特征字符集合,采用正则表达式匹配技术对所述用电安全知识数据中的非结构化数据进行实体抽取,得到第三实体集合。

33、优选的,所述基于词性组合规则的实体识别方法,对所述用电安全知识数据中的非结构化数据进行实体抽取,包括:

34、对电力知识文本进行自然语言文本预处理,得到生语料库;

35、利用lac分词工具对所述生语料库进行分词,得到熟语料库;

36、利用词性划分工具对所述熟语料库中的词进行词性标注,得到分词标注序列,并将所述分词标注序列与各预设的实体名称对应的构词特征字符集合进行融合,得到融合词性标注序列;

37、基于所述融合词性标注序列,通过正则表达式匹配技术,对所述用电安全知识数据中的非结构化数据进行实体抽取,得到第四实体集合。

38、优选的,所述预先建立的r-bert-cnn模型的建立过程,包括:

39、对电力知识文本进行自然语言文本预处理,得到生语料库;

40、利用lac分词工具对所述生语料库进行分词,得到熟语料库;

41、对所述熟语料库中的词进行实体标注,得到所述熟语料库中的词对应的实体名称、实体标注以及各实体间的关系;

42、利用所述熟语料库中的词及其对应的实体名称、实体标注以及各实体间的关系构建数据集;

43、利用所述数据集对r-bert-cnn模型进行训练和验证,得到所述预先建立的r-bert-cnn模型。

44、优选的,所述利用所述数据集对r-bert-cnn模型进行训练和验证,包括:

45、将所述数据集分为训练集和验证集;

46、以所述训练集中的词及其对应的实体名称和实体标注为所述r-bert-cnn模型的输入层训练样本,以所述训练集中的词对应的实体间的关系为所述r-bert-cnn模型的输出层训练样本,对r-bert-cnn模型进行训练,得到训练后的r-bert-cnn模型;

47、利用所述验证集对所述训练后的r-bert-cnn模型进行验证,得到验证结果,若验证结果的准确率大于等于准确率阈值,则验证成功,所述训练后的r-bert-cnn模型为所述预先建立的r-bert-cnn模型;若验证结果小于准确率阈值,则重新获取数据集对r-bert-cnn模型进行训练,直至验证成功。

48、优选的,所述对所述初步知识表示进行知识融合,得到所述用电安全知识数据的标准知识表示,包括:

49、对所述初步知识表示进行预处理,得到预处理后的初步知识表示;

50、基于hash函数,对所述预处理后的初步知识表示中的用电安全知识数据的实体进行分块;

51、利用map-reduce操作对所述预处理后的初步知识表示中进行分块后的用电安全知识数据的实体进行负载均衡操作;

52、对进行负载均衡操作后的用电安全知识数据的实体进行实体消歧和共指消解,得到所述标准知识表示。

53、优选的,所述对所述初步知识表示进行预处理,包括:

54、从所述结构化图谱节点表格中提取与所述用电安全知识数据的实体对应的字段信息,并将所述与所述用电安全知识数据的实体对应的字段信息添加至所述用电安全知识数据的实体的文本序列中,得到更新后的用电安全知识数据的实体;

55、所述结构化图谱节点表格、所述更新后的用电安全知识数据的实体和所述用电安全知识数据的实体间的关系为预处理后的所述初步知识表示。

56、优选的,所述对进行负载均衡操作后的用电安全知识数据的实体进行实体消歧和共指消解,包括:

57、基于edag编辑距离方法,计算进行负载均衡操作后的用电安全知识数据的实体之间的属性相似度,并综合单个属性相似度得到属性相似度向量;

58、基于进行负载均衡操作后的用电安全知识数据的实体之间的属性相似度,对属性相似度向量进行聚类,得到进行负载均衡操作后的用电安全知识数据的实体之间的实体相似度分值;

59、基于所述实体相似度分值,对进行负载均衡操作后的用电安全知识数据的实体进行实体消歧和共指消解,得到最终的用电安全知识数据的实体;

60、所述最终的用电安全知识数据的实体和所述最终的用电安全知识数据的实体间的关系为所述标准知识表示。

61、优选的,所述基于所述实体相似度分值,对进行负载均衡操作后的用电安全知识数据的实体进行实体消歧和共指消解,包括:

62、根据所述实体相似度分值,对进行负载均衡操作后的用电安全知识数据的实体进行降序排名,将排名第一位的进行负载均衡操作后的用电安全知识数据的实体进行消歧,得到进行消歧后的用电安全知识数据的实体;

63、基于所述实体相似度分值,识别所述进行消歧后的用电安全知识数据的实体中同一实体对应的不同表述,并将同一实体对应的不同表述进行合并,得到最终的用电安全知识数据的实体。

64、优选的,所述将所述标准知识表示进行存储,包括:

65、利用rdf三元组文本方式或图数据库方式,对所述标准知识表示进行存储,得到所述用电安全知识图谱。

66、根据本技术实施例的第二方面,提供一种用电安全知识图谱的构建装置,包括:

67、采集单元,用于采集用电安全知识数据;

68、获取单元,用于基于所述用电安全知识数据的数据类型,对所述用电安全知识数据进行整合和知识抽取,得到所述用电安全知识数据的初步知识表示;

69、融合单元,用于对所述初步知识表示进行知识融合,得到所述用电安全知识数据的标准知识表示;

70、存储单元,用于将所述标准知识表示进行存储,得到用电安全知识图谱。

71、根据本技术实施例的第三方面,提供一种计算机设备,包括:一个或多个处理器;

72、所述处理器,用于存储一个或多个程序;

73、当所述一个或多个程序被所述一个或多个处理器执行时,实现所述的用电安全知识图谱的构建方法。

74、根据本技术实施例的第四方面,提供一种计算机可读存储介质,其上存有计算机程序,所述计算机程序被执行时,实现所述的用电安全知识图谱的构建方法。

75、本发明提供的技术方案具有以下有益效果:

76、本发明提供的一种用电安全知识图谱的构建方法及装置,通过采集用电安全知识数据,通过基于用电安全知识数据的数据类型,对用电安全知识数据进行整合和知识抽取,得到用电安全知识数据的初步知识表示,通过对初步知识表示进行知识融合,得到用电安全知识数据的标准知识表示,通过将标准知识表示进行存储,得到用电安全知识图谱,可以帮助电网公司挖掘海量数据的价值,实现电力知识的整合,方便工作人员对电力信息的查询和获取,提升电力行业工作效率;同时还具备故障隐患排查、辅助决策等能力,对于电网智能化具有重要意义。

本文地址:https://www.jishuxx.com/zhuanli/20240929/312456.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。