一种残膜回收机防缠绕挑膜装置的制 一种秧草收获机用电力驱动行走机构

一种基于融合文本的碳标准知识图谱构建方法

2022-11-16 17:06:56 来源:中国专利 TAG:

技术特征:
1.一种基于融合文本的碳标准知识图谱构建方法,其特征在于,包括:数据获取,读取碳标准文件,获得非结构化文本数据;标准节点网络设计,定义知识图谱的实体、关系和属性类型;知识抽取,对获取的非结构化数据进行实体抽取、属性抽取和关系抽取;知识融合,构建混合相似度匹配的实体对齐模型(ea-hsm)消除重复实体;知识存储,对抽取和融合后的三元组进行图数据库存储;平台展示,设计构建基于知识图谱的交互式碳标准展示平台。2.根据权利要求1所述的基于融合文本的碳标准知识图谱构建方法,其特征在于,所述数据获取,读取碳标准文件获得非结构化文本数据,具体包括:将标准pdf格式文件转换为可做自然语言处理的txt格式文本文件;通过定义规则过滤特殊字符,替换部分内容;将标准文件内容按照段落格式,去除空格和空白行,按句号换行排列。3.根据权利要求1所述的基于融合文本的碳标准知识图谱构建方法,其特征在于,所述标准节点网络设计,定义知识图谱的实体、关系和属性类型,具体包括:针对标准文本的内容进行语义分析和逻辑判断;形成标准领域概念并定义本体;完成模式层三元组的构建。4.根据权利要求1所述的基于融合文本的碳标准知识图谱构建方法,其特征在于,所述知识抽取,对获取的非结构化数据进行实体抽取、属性抽取和关系抽取,具体包括:用基于bilstm-crf的抽取模型进行机构名命名实体识别;用基于规则的抽取模型进行文件名、适用范围等实体和关系抽取;用于人工的抽取模型进行公式和附录表格实体和关系抽取。5.根据权利要求4所述的基于融合文本的碳标准知识图谱构建方法,其特征在于,所述用基于规则的抽取模型进行文件名、适用范围等实体和关系抽取,具体包括:对于文件名抽取,用基于规则和统计结合的算法,匹配“《”“》”文本符号和文件内容,识别文件名;通过使用jieba工具,用基于规则和词典结合的算法,完成“编制”、“支持”和“引用或参考”三个关系抽取任务;用基于规则和模板结合的算法,定位关键词所在位置,提取出对其描述的实体。6.根据权利要求4所述的基于融合文本的碳标准知识图谱构建方法,其特征在于,所述用基于人工的抽取模型进行公式和附录表格实体和关系抽取,具体包括:标准文件公式和附录表格截图;图片上传图床生成url路径;路径作为公式属性,人工校验形成公式和附录相关三元组。7.根据权利要求1所述的基于融合文本的碳标准知识图谱构建方法,其特征在于,所述知识融合,构建混合相似度匹配的实体对齐模型消除重复实体,具体包括:将抽取出的短文本内容进行分词处理,生成词向量;成对计算余弦相似度、编辑距离、fuzz、diff四种方法的相似度值;根据层次分析设定数值敏感度、语义理解能力、计算复杂度三个指标,确定四种方法权
重,加权得出最终相似度数值;计算公式为mfw=α1×
p1 α2×
p2 α3×
p3 α4×
p4;其中,(α1,α2,α3,α4)依次为余弦相似度、编辑距离、fuzz、diff四种方法单独使用时的相似度计算结果,(p1,p2,p3,p4)为经过层次分析后各个方法的权重,且满足0≤p1≤1,0≤p2≤1,0≤p3≤1,0≤p4≤1,p1 p2 p3 p4=1;设定阈值,达到阈值即视为同一实体进行实体对齐,完成知识融合。8.根据权利要求1所述的基于融合文本的碳标准知识图谱构建方法,其特征在于,所述知识存储,对抽取和融合后的三元组进行图数据库存储,具体包括:抽取和融合后的知识根据标准节点网络设计构建三元组;将三元组通过neo4j数据库进行存储;进行可视化展示。9.根据权利要求1所述的基于融合文本的碳标准知识图谱构建方法,其特征在于,所述平台展示,设计构建基于知识图谱的交互式碳标准展示平台,具体包括:设计平台功能辅助查询;后台使用neo4j数据库,系统前端借助neovis.js插件直接操作数据库实现交互可视化查询。10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机可运行指令,所述计算机可运行指令在被处理器调用和运行时,所述计算机可运行指令促使所述处理器运行权利要求1至9任一项所述的方法。

技术总结
本发明提供了一种基于融合文本的碳标准知识图谱构建方法,属于知识图谱的技术领域,解决了现有技术在碳标准知识图谱构建时存在检索时实体指代不明的问题。一种基于融合文本的碳标准知识图谱构建方法,包括:数据获取,读取碳标准文件,获得非结构化文本数据;标准节点网络设计,定义知识图谱的实体、关系和属性类型;知识抽取,对获取的非结构化数据进行实体抽取、属性抽取和关系抽取;知识融合,构建混合相似度匹配的实体对齐模型(EA-HSM)消除重复实体;知识存储,对抽取和融合后的三元组进行图数据库存储;平台展示,设计构建基于知识图谱的交互式碳标准展示平台。图谱的交互式碳标准展示平台。图谱的交互式碳标准展示平台。


技术研发人员:刘晶 高茹薇 季海鹏 赵佳
受保护的技术使用者:河北工业大学
技术研发日:2022.08.17
技术公布日:2022/11/15
再多了解一些

本文用于创业者技术爱好者查询,仅供学习研究,如用于商业用途,请联系技术所有人。

发表评论 共有条评论
用户名: 密码:
验证码: 匿名发表

相关文献