一种基于融合文本的碳标准知识图谱构建方法

2022-11-16 17:06:56 来源：中国专利 TAG：

1.本发明涉及知识图谱技术领域，尤其是涉及一种基于融合文本的碳标准知识图谱构建方法。

背景技术：

2.绿色、环保、低碳的生活方式是我国的重要战略。双碳标准的发布与实施，是实现碳排放量化的重要手段，也是实现双碳战略目标的重要环节。碳标准是衡量低碳发展的一把尺子，决定转型的质量，标准体系涵盖了双碳的技术路径，主要是做节能的工作，还有工业过程中产生的碳排放的减量化以及协同减排。而制定各类标准的任务相当繁重，因此，国内标准体系亟需优化升级。
3.为了能够帮助机器更好的理解文本数据，知识图谱技术应运而生。知识图谱本质上是一种语义网络，通过构建实体及实体关系的方式描述知识。知识图谱从“关系”出发，具有更全面的实体覆盖率和更复杂的语义关系，在智能搜索、问答等领域具有很好的应用前景。在碳标准领域，由于知识内容杂、数据脉络不清晰，急需有效的技术方案解决以碳标准体系架构完善为目标的知识图谱构建问题。在碳标准知识图谱构建时，会碰到很多实体识别内容重复、交叉、不一致性的问题。比如同一实体名称会有不同的表示方法，《温室气体议定书——企业核算与报告准则2004年》和《温室气体议定书—企业核算与报告准则(2004年修订版)》应属于同一实体，但在实体抽取过程中未能做出区分而全部抽取，导致检索时实体指代不明。
4.因此，现有技术在碳标准知识图谱构建时存在检索时实体指代不明的问题。

技术实现要素：

5.本发明的目的在于提供一种基于融合文本的碳标准知识图谱构建方法，以缓解在碳标准知识图谱构建时，实体抽取过程中未能做出区分而全部抽取，导致检索时实体指代不明的技术问题。
6.第一方面，本发明提供的一种基于融合文本的碳标准知识图谱构建方法，包括：
7.数据获取，读取碳标准文件，获得非结构化文本数据；
8.标准节点网络设计，定义知识图谱的实体、关系和属性类型；
9.知识抽取，对获取的非结构化数据进行实体抽取、属性抽取和关系抽取；
10.知识融合，构建混合相似度匹配的实体对齐模型(ea-hsm)消除重复实体；
11.知识存储，对抽取和融合后的三元组进行图数据库存储；
12.平台展示，设计构建基于知识图谱的交互式碳标准展示平台。
13.进一步的，所述数据获取，读取碳标准文件获得非结构化文本数据，具体包括：
14.将标准pdf格式文件转换为可做自然语言处理的txt格式文本文件；
15.通过定义规则过滤特殊字符，替换部分内容；
16.将标准文件内容按照段落格式，去除空格和空白行，按句号换行排列。
17.进一步的，所述标准节点网络设计，定义知识图谱的实体、关系和属性类型，具体包括：
18.针对标准文本的内容进行语义分析和逻辑判断；
19.形成标准领域概念并定义本体；
20.完成模式层三元组的构建。
21.进一步的，所述知识抽取，对获取的非结构化数据进行实体抽取、属性抽取和关系抽取，具体包括：
22.用基于bilstm-crf的抽取模型进行机构名命名实体识别；
23.用基于规则的抽取模型进行文件名、适用范围等实体和关系抽取；
24.用于人工的抽取模型进行公式和附录表格实体和关系抽取。
25.进一步的，所述用基于规则的抽取模型进行文件名、适用范围等实体和关系抽取，具体包括：
26.对于文件名抽取，用基于规则和统计结合的算法，匹配“《”“》”文本符号和文件内容，识别文件名；
27.通过使用jieba工具，用基于规则和词典结合的算法，完成“编制”、“支持”和“引用或参考”三个关系抽取任务；
28.用基于规则和模板结合的算法，定位关键词所在位置，提取出对其描述的实体。
29.进一步的，所述用基于人工的抽取模型进行公式和附录表格实体和关系抽取，具体包括：
30.标准文件公式和附录表格截图；
31.图片上传图床生成url路径；
32.路径作为公式属性，人工校验形成公式和附录相关三元组。
33.进一步的，所述知识融合，构建混合相似度匹配的实体对齐模型消除重复实体，具体包括：
34.将抽取出的短文本内容进行分词处理，生成词向量；
35.成对计算余弦相似度、编辑距离、fuzz、diff四种方法的相似度值；
36.根据层次分析设定数值敏感度、语义理解能力、计算复杂度三个指标，确定四种方法权重，加权得出最终相似度数值；
37.计算公式为mfw＝α1×
p1 α2×
p2 α3×
p3 α4×
p4；
38.其中，(α1,α2,α3,α4)依次为余弦相似度、编辑距离、fuzz、diff四种方法单独使用时的相似度计算结果，(p1,p2,p3,p4)为经过层次分析后各个方法的权重，且满足0≤p1≤1，0≤p2≤1，0≤p3≤1，0≤p4≤1，p1 p2 p3 p4＝1；
39.设定阈值，达到阈值即视为同一实体进行实体对齐，完成知识融合。
40.进一步的，所述知识存储，对抽取和融合后的三元组进行图数据库存储，具体包括：
41.抽取和融合后的知识根据标准节点网络设计构建三元组；
42.将三元组通过neo4j数据库进行存储；
43.进行可视化展示。
44.进一步的，所述平台展示，设计构建基于知识图谱的交互式碳标准展示平台，具体
包括：
45.设计平台功能辅助查询；
46.后台使用neo4j数据库，系统前端借助neovis.js插件直接操作数据库实现交互可视化查询。
47.第二方面，本发明还提供一种计算机可读存储介质，所述计算机可读存储介质存储有计算机可运行指令，所述计算机可运行指令在被处理器调用和运行时，所述计算机可运行指令促使所述处理器运行第一方面提供的方法。
48.本发明提供一种基于融合文本的碳标准知识图谱构建方法，包括：数据获取，读取碳标准文件，获得非结构化文本数据；标准节点网络设计，定义知识图谱的实体、关系和属性类型；知识抽取，对获取的非结构化数据进行实体抽取、属性抽取和关系抽取；知识融合，构建混合相似度匹配的实体对齐模型(ea-hsm)消除重复实体；知识存储，对抽取和融合后的三元组进行图数据库存储；平台展示，设计构建基于知识图谱的交互式碳标准展示平台。
49.采用本发明提供的基于融合文本的碳标准知识图谱构建方法，针对碳标准体系不健全，内容结构不清晰等问题，梳理国家试行碳核算标准文件数据，基于标准规则构建碳标准领域知识图谱，通过研究标准规则以及碳领域知识，完成了标准节点网络设计、知识抽取等工作。针对碳标准领域内容重合和交互的问题，采用混合相似度匹配的实体对齐模型(ea-hsm) 对标准内容进行知识融合；针对碳标准知识图谱查询高度依赖专业知识等实际问题，建立可视化界面，将知识图谱各类实体、关系和属性进行web 可视化展示；完成交互操作到图数据库查询语言的映射，实现知识图谱的可视化交互；研究单实体和关系的关联搜索，生成的逻辑形式展示解决了专家制定标准时由于数据查阅复杂而与现存标准冲突的问题，进而避免了现有技术在碳标准知识图谱构建时存在检索时实体指代不明的问题
50.相应地，本发明提供的一种计算机可读存储介质，也同样具有上述技术效果。
附图说明
51.为了更清楚地说明本发明具体实施方式或现有技术中的技术方案，下面将对具体实施方式或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图是本发明的一些实施方式，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。
52.图1为本发明实施例提供的基于融合文本的碳标准知识图谱构建方法流程图；
53.图2为本发明实施例中的标准节点网络设计的本体构建图；
54.图3为本发明实施例中的知识抽取的流程图；
55.图4为本发明实施例中的基于bilstm-crf的抽取模型图；
56.图5为本发明实施例中的混合相似度匹配的实体对齐模型架构图；
57.图6为本发明实施例中的交互式标准图谱平台构建的展示图。
具体实施方式
58.为使本发明实施例的目的、技术方案和优点更加清楚，下面将结合附图对本发明的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提
下所获得的所有其他实施例，都属于本发明保护的范围。
59.本发明实施例中所提到的术语“包括”和“具有”以及它们的任何变形，意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元，而是可选地还包括其他没有列出的步骤或单元，或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
60.为了能够帮助机器更好的理解文本数据，知识图谱技术应运而生。知识图谱本质上是一种语义网络，通过构建实体及实体关系的方式描述知识。知识图谱从“关系”出发，具有更全面的实体覆盖率和更复杂的语义关系，在智能搜索、问答等领域具有很好的应用前景。在碳标准领域，由于知识内容杂、数据脉络不清晰，急需有效的技术方案解决以碳标准体系架构完善为目标的知识图谱构建问题。在碳标准知识图谱构建时，会碰到很多实体识别内容重复、交叉、不一致性的问题。比如同一实体名称会有不同的表示方法，《温室气体议定书——企业核算与报告准则2004年》和《温室气体议定书—企业核算与报告准则(2004年修订版)》应属于同一实体，但在实体抽取过程中未能做出区分而全部抽取，导致检索时实体指代不明。
61.因此，现有技术在碳标准知识图谱构建时存在检索时实体指代不明的问题。
62.为解决以上问题，本发明实施例提供一种基于融合文本的碳标准知识图谱构建方法。
63.如图1所示，本发明实施例提供一种基于融合文本的碳标准知识图谱构建方法，包括：
64.s101、数据获取，读取碳标准文件，获得非结构化文本数据；
65.s102、标准节点网络设计，定义知识图谱的实体、关系和属性类型；
66.s103、知识抽取，对获取的非结构化数据进行实体抽取、属性抽取和关系抽取；
67.s104、知识融合，构建混合相似度匹配的实体对齐模型(ea-hsm) 消除重复实体；
68.s105、知识存储，对抽取和融合后的三元组进行图数据库存储；
69.s106、平台展示，设计构建基于知识图谱的交互式碳标准展示平台。
70.采用本发明实施例提供的基于融合文本的碳标准知识图谱构建方法，针对碳标准体系不健全，内容结构不清晰等问题，梳理国家试行碳核算标准文件数据，基于标准规则构建碳标准领域知识图谱，通过研究标准规则以及碳领域知识，完成了标准节点网络设计、知识抽取等工作。针对碳标准领域内容重合和交互的问题，采用混合相似度匹配的实体对齐模型(ea-hsm)对标准内容进行知识融合；针对碳标准知识图谱查询高度依赖专业知识等实际问题，建立可视化界面，将知识图谱各类实体、关系和属性进行web可视化展示；完成交互操作到图数据库查询语言的映射，实现知识图谱的可视化交互；研究单实体和关系的关联搜索，生成的逻辑形式展示解决了专家制定标准时由于数据查阅复杂而与现存标准冲突的问题，进而避免了现有技术在碳标准知识图谱构建时存在检索时实体指代不明的问题
71.在一种可能的实施方式中，步骤s101包括：
72.s1011、通过定义规则过滤特殊字符，替换部分内容；
73.s1012、将标准文件内容按照段落格式，去除空格和空白行，按句号换行排列。
74.在一种可能的实施方式中，步骤s102包括：
75.s1021、针对标准文本的内容进行语义分析和逻辑判断，以《电子设备制造企业温
室气体排放核算方法与报告指南(试行)》为例，梳理文件的基本信息和排放源计算基本信息如表1所示；
76.表1 标准文档基本信息表
[0077][0078]
温室气体的排放总量通常是文件涉及边界内排放源的排放量之和，排放源排放量通过排放因子和活动水平的计算公式得到。国内碳核算标准的排放源计算方法主要分为排放因子法、物料平衡法、实测法，同一排放源的核算在不同行业中的计算公式不同。定义排放源计算的基本信息如表2 所示。
[0079]
表2 排放源核算方法信息表
crf模型以句子为单位，主体由基于字符的embedding 层，双向长短时记忆网络(bilstm)和条件随机场(crf)组成。本文使用模型训练集为人民日报语料库，针对单个字符采用bio的标注方法， b-org表示机构名的开始，i-org表示机构名的中间，o表示非实体词，从而抽取机构名称；
[0090]
s1032、用基于规则的抽取模型进行文件名、适用范围等实体和关系抽取，具体步骤包括：
[0091]
s10321、对于文件名抽取，用基于规则和统计结合的算法(crs)，抽取文件名时，引入spacy工具和entityruler管道组件，通过patterns字典添加命名实体，锁定文献引用段落，匹配“《”、“》”文本符号和文件内容，识别文件名；
[0092]
s10322、用基于规则和词典结合的算法(crd)，通过使用jieba工具，导入抽取的词典作为命名实体识别库，再定义匹配关键词和识别范围，实例中通过定位关系关键字并对比bilstm-crf、crs抽取出的机构名和文件名词典，完成“编制”、“支持”和“引用或参考”三个关系抽取任务；
[0093]
s10323、对于其他文本实体、关系和属性的抽取，用基于规则和模板结合的算法(crt)，该算法对依存句法分析做了改进，不仅通过分析“主谓宾”等结构语言成分之间的依存关系来判别句法结构并抽取，还加入标题定位，能快速锁定实体，比如在做“适用范围”关系抽取时，定位标题“适用范围”及所在段落，提取出对其描述的实体；
[0094]
s1033、用基于人工的抽取模型进行公式和附录表格实体和关系抽取，具体包括：
[0095]
s10331、将标准文件的排放源核算等公式和附录表格截图；
[0096]
s10332、图片上传图床生成url路径；
[0097]
s10333、路径作为公式属性，人工校验形成公式和附录相关三元组。
[0098]
在一种可能的实施方式中，步骤s104如图6，包括：
[0099]
s1041、将抽取出的短文本内容进行分词处理，生成词向量；
[0100]
s1042、成对计算余弦相似度、编辑距离、fuzz、diff四种方法的相似度值。在方法层，余弦相似度是基于词语的相似度计算方法，将文本置于向量空间，该方法解释性强，适用于文本较短、特征维度较低的场景，但对绝对数值不敏感；编辑距离是基于字符的相似度计算方法，计算准确，比较适合判断字面上的相似性，但文本语义理解能力较差，且费时；diff是基于python自带的库difflib实现的相似度计算方法，运行较快，但仍要调试阈值；fuzz基于第三方库fuzzywuzzy实现相似度计算，该方法在之前的基础上还考虑了字符串的位置关系；
[0101]
s1043、根据层次分析，在指标层，设定数值敏感度、语义理解能力、计算复杂度三个指标。数值敏感度表示算法在计算距离上的准确程度和数值绝对差异的体现程度，语义理解能力表示算法在向量空间上的解释性和词语含义理解能力，计算复杂度表示算法执行的运行效率。
[0102]
在目标层，经过四种方法在三个指标上的优势度分析，对四种方法在三种指标上的优势等级进行排序，同一层次元素对上一层的重要性用1-9 比较尺度进行两两比较，逐层比较关联因素重要性，为结果提供定量依据，数值高即所占优势大。
[0103]
四种方法在数值敏感度的值依次为1、4、2、3，在语义理解能力的值分别为4、1、3、3，在计算复杂度的值分别为2、1、4、4；实例中三个指标的重要度值分别为3、5、2；根据两两
比较偏结果，形成各层判断矩阵。目标层计算公式如式(1)所示。
[0104]
mfw＝α1×
p1 α2×
p2 α3×
p3 α4×
p4ꢀꢀꢀ
(1)
[0105]
其中，(α1,α2,α3,α4)依次为余弦相似度、编辑距离、fuzz、diff四种方法单独使用时的相似度计算结果，(p1,p2,p3,p4)为经过层次分析后各个方法的权重，且满足0≤p1≤1，0≤p2≤1，0≤p3≤1，0≤p4≤1，p1 p2 p3 p4＝1。
[0106]
具体过程如式(2)所示。
[0107][0108]
其中，(a1,a2,a3)是指标层到目标层的权重，b
ij
,(i＝1,2,3,4；j＝1,2,3)是通过成对判断矩阵得到的比较矩阵，表示方案层到指标层的权重。
[0109]
下一步为检验判断矩阵是否合理，需要计算一致性指标ci，数值越小说明一致性越大。
[0110][0111]
式中：λ
max
为判断矩阵的最大特征值，n为特征向量维度。而考虑一致性偏离可能是随机原因造成，因此最后要进行一致性测试。
[0112]
一致性比例检验系数cr为
[0113][0114]
代入先前构造的判断矩阵，cr＜0.1，即通过测试，说明式(1)中按照判断矩阵得出的权重取值(p1,p2,p3,p4)具有合理性。模型计算结果为p1＝0.2482， p2＝0.1836，p3＝0.2691，p4＝0.2991。加权计算得出的mfw即为两两短文本间的相似度数值。
[0115]
s1044、设定阈值，相似度达到阈值即视为同一实体进行实体对齐，完成知识融合。
[0116]
在一种可能的实施方式中，步骤s105包括：
[0117]
s1051、将抽取和融合后的标准内容知识根据标准节点网络设计构建三元组存入csv文件中；
[0118]
s1052、将三元组通过neo4j图数据库进行存储；
[0119]
s1053、进行可视化展示，在完成行业温室气体核算标准知识图谱的存储后，可通过cypher语句查询多个实体和关系的信息；
[0120]
在一种可能的实施方式中，步骤s106包括：
[0121]
s1061、设计平台功能辅助查询，标准图谱的数据在平台以图谱的形式呈现，用户通过交互式平台的简单操作即可实现标准内容和关系的查找；
[0122]
s1062、功能实现，后台使用neo4j数据库，系统前端借助neovis.js 插件直接操作数据库实现交互可视化查询，实例选择“《氟化工企业温室气体排放核算方法与报告指南(试行)》”文件和“活动水平计算公式”关系，即可查询该文件相关的节点和完整路径，在节点处点击或悬浮，会显示节点的定义或公式等属性信息，如图6所示。
[0123]
本发明实施例还提供一种计算机可读存储介质，计算机可读存储介质存储有计算
机可运行指令，计算机可运行指令在被处理器调用和运行时，计算机可运行指令促使所述处理器运行上述实施例提供的方法。
[0124]
本发明实施例所提供的装置可以为设备上的特定硬件或者安装于设备上的软件或固件等。本发明实施例所提供的装置，其实现原理及产生的技术效果和前述方法实施例相同，为简要描述，装置实施例部分未提及之处，可参考前述方法实施例中相应内容。所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，前述描述的系统、装置和单元的具体工作过程，均可以参考上述方法实施例中的对应过程，在此不再赘述。
[0125]
在本发明所提供的几个实施例中，应该理解到，所揭露的装置和方法，也可以通过其它的方式实现。以上所描述的装置实施例仅仅是示意性的，例如，附图中的流程图和框图显示了根据本发明的多个实施例的装置、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段或代码的一部分，所述模块、程序段或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现方式中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个连续的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或动作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。
[0126]
又例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，再例如，多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些通信接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。
[0127]
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
[0128]
另外，在本发明提供的实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。
[0129]
所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：u盘、移动硬盘、只读存储器(read-onlymemory，简称rom)、随机存取存储器(random access memory，简称 ram)、磁碟或者光盘等各种可以存储程序代码的介质。
[0130]
最后应说明的是：以上所述实施例，仅为本发明的具体实施方式，用以说明本发明的技术方案，而非对其限制，本发明的保护范围并不局限于此，尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，其依然可以对前述实施例所记载的技术方案进行修改或可轻
易想到变化，或者对其中部分技术特征进行等同替换；而这些修改、变化或者替换，并不使相应技术方案的本质脱离本发明实施例技术方案的范围。都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以权利要求的保护范围为准。

再多了解一些

1/2 1 2 下一页尾页

本文用于创业者技术爱好者查询，仅供学习研究，如用于商业用途，请联系技术所有人。

上一篇：返回列表
下一篇：一种排水管网入渗入流过程模拟分析方法、系统及装置

一种基于融合文本的碳标准知识图谱构建方法

相关文献

最热文献