一种生态环境区域空间环评知识图谱生成方法及系统与流程
- 国知局
- 2024-08-22 15:10:31
本技术涉及但不限于知识图谱,尤其涉及一种生态环境区域空间环评知识图谱生成方法及系统。
背景技术:
1、在当前的生态环境保护和区域空间规划领域,环境影响评价(环评)是一项至关重要的工作。环评过程涉及对大量环境质量报告的分析与评估,以识别潜在的环境风险,并提出相应的保护措施。然而,随着环境数据的日益增多和复杂化,传统的人工分析方法已难以满足高效、准确的处理需求。因此,如何利用自动化技术,特别是人工智能和机器学习技术,提高环评工作的效率和准确性,成为了一个亟待解决的问题。现有技术中,针对环境质量报告的分析多依赖于关键词匹配、正则表达式等简单方法,这些方法在处理复杂文本和识别多变实体时存在明显局限性。特别是对于报告中存在的多层次、多类型的实体,如污染物名称、生态区域、环境指标等,传统的识别方法往往难以准确区分和定位,导致环评结果的不准确或遗漏。
技术实现思路
1、有鉴于此,本技术提供一种生态环境区域空间环评知识图谱生成方法及系统。本技术的技术方案是这样实现的:
2、第一方面,本技术提供一种生态环境区域空间环评知识图谱生成方法,所述方法包括:获取目标生态环境区域空间的拟分析环境质量报告,所述拟分析环境质量报告包括拟抽取的一个或多个第一实体;对所述拟分析环境质量报告进行第一实体识别操作,得到所述拟分析环境质量报告中的一个或多个第一文本段落和一个或多个第二文本段落;其中,所述第一文本段落包括一个所述第一实体,所述第二文本段落包括一个第二实体,所述第一实体包含于所述第二实体;分别对各所述第二文本段落进行第二实体识别操作,得到各所述第二文本段落中的第三文本段落,所述第三文本段落包括一个所述第一实体;对各所述第二文本段落中的第三文本段落、以及所述一个或多个第一文本段落进行合并冗余优化,得到一个或多个目标文本段落,所述目标文本段落包括一个所述第一实体;基于识别得到的实体,构建环评知识图谱。
3、在一些实施例中,所述对各所述第二文本段落中的第三文本段落、以及所述一个或多个第一文本段落进行合并冗余优化,得到一个或多个目标文本段落,包括:在各个所述第二文本段落中的第三文本段落以及所述一个或多个第一文本段落中确定对应各个所述第一实体的备选文本段落,以及在所述一个或多个第一实体中,确定对应多个备选文本段落的一个或多个第三实体;对于各个所述第三实体,在所述第三实体对应的多个备选文本段落中,确定符合段落要求的第一备选文本段落确定为所述目标文本段落,以及将多个备选文本段落中的所述第一备选文本段落以外的备选文本段落,确定为所述第三实体对应的第二备选文本段落;在各个所述第二文本段落中的第三文本段落以及所述一个或多个第一文本段落中,清除掉各个所述第三实体对应的第二备选文本段落,得到一个或多个目标文本段落。
4、在一些实施例中,所述在所述第三实体对应的多个备选文本段落中,确定符合段落要求的第一备选文本段落确定为所述目标文本段落,包括:获取各所述备选文本段落的支持概率,所述支持概率表示所述备选文本段落中包括所述第三实体的可能性;在所述第三实体对应的多个备选文本段落中,确定支持概率最高的备选文本段落确定为所述第一备选文本段落,以及将所述第一备选文本段落确定为所述目标文本段落。
5、在一些实施例中,所述在所述第三实体对应的多个备选文本段落中,确定符合段落要求的第一备选文本段落确定为所述目标文本段落,包括:获取各所述备选文本段落的支持概率,所述支持概率表示所述备选文本段落中包括所述第三实体的可能性;在所述多个备选文本段落中,确定支持概率最高的备选文本段落为第三备选文本段落,以及将所述多个备选文本段落中的所述第三备选文本段落以外的备选文本段落,确定为第四备选文本段落;获取各个所述第四备选文本段落分别和所述第三备选文本段落之间的段落重合率;在所述多个备选文本段落中,清除掉段落重合率不小于参考段落重合率的所述第四备选文本段落,以及将清除掉后余下的备选文本段落确定为所述第一备选文本段落,以及将所述第一备选文本段落确定为所述目标文本段落。
6、在一些实施例中,所述获取各个所述第四备选文本段落分别和所述第三备选文本段落之间的段落重合率,包括:对于各个所述第四备选文本段落,完成以下步骤的操作:确定所述第四备选文本段落和所述第三备选文本段落的重合文本段落,以及确定所述重合文本段落的第一字符数量;确定所述第四备选文本段落和所述第三备选文本段落的融合文本段落,以及确定所述融合文本段落的第二字符数量;将所述第一字符数量与所述第二字符数量进行相除,得到相除比例,将所述相除比例确定为所述第四备选文本段落和所述第三备选文本段落之间的段落重合率。
7、在一些实施例中,当所述拟抽取的一个或多个第一实体为目标实体类型时,所述对各所述第二文本段落中的第三文本段落、以及所述一个或多个第一文本段落进行合并冗余优化,得到一个或多个目标文本段落之后,所述方法还包括:对于所述拟分析环境质量报告中的各所述目标文本段落,完成以下步骤的操作,获得所述拟分析环境质量报告的实体抽取结果:基于实体类型识别网络,对所述目标文本段落进行实体类型识别,得到所述目标文本段落所包括第一实体对应的实体类型;如果所述实体类型为所述目标实体类型,则对所述目标文本段落抽取所述目标实体类型所对应的文本实体。
8、在一些实施例中,所述基于实体类型识别网络,对所述目标文本段落进行实体类型识别之前,所述方法还包括:获取包含先验标记的文本段落训练样例,所述文本段落训练样例包括一个实体训练样例;基于所述实体类型识别网络,对所述文本段落训练样例进行实体类型识别,得到所述文本段落训练样例中所述实体训练样例对应的预估实体类型;依据所述预估实体类型和所述先验标记间的误差,确定所述实体类型识别网络的网络训练代价;依据所述实体类型识别网络的网络训练代价,调节所述实体类型识别网络的网络参变量,直到符合预设的第一训练停止条件,得到训练好的实体类型识别网络。
9、在一些实施例中,当所述拟抽取的一个或多个第一实体为目标实体类型时,所述分别对各所述第二文本段落进行第二实体识别操作,得到各所述第二文本段落中的第三文本段落,包括:对于各个所述第二文本段落,完成以下步骤的操作:基于第二实体识别网络对所述第二文本段落进行一个或多个实体类型的实体的实体识别,得到识别结果;所述一个或多个实体类型包括所述目标实体类型,所述识别结果包括一个或多个识别标注、以及各所述识别标注内备选实体对应的备选实体类型,所述识别标注用以标注所述备选实体在所述第二文本段落的位置;依据所述识别结果,确定备选实体类型为所述目标实体类型的第一备选实体为所述第一实体,以及确定所述第一备选实体所在的识别标注对应的文本段落,为所述第二文本段落中的第三文本段落;所述基于第二实体识别网络对所述第二文本段落进行一个或多个实体类型的实体的实体识别,得到识别结果之前,所述方法还包括:获取包含先验标记的文本段落训练样例,所述先验标记包括所述文本段落训练样例中实体训练样例的实际识别标注、以及所述实体训练样例对应的实际类别;基于所述第二实体识别网络对所述文本段落训练样例进行实体识别,得到预估结果,所述预估结果包括所述文本段落训练样例中实体训练样例的预估识别标注、以及所述实体训练样例对应的预估实体类型;获取所述预估识别标注和所述实际识别标注之间的第一误差,并依据所述第一误差,确定所述第二实体识别网络的第一网络训练代价;获取所述预估实体类型和所述实际类别之间的第二误差,并依据所述第二误差,确定所述第二实体识别网络的第二网络训练代价;依据所述第一网络训练代价和所述第二网络训练代价,调节所述第二实体识别网络的网络参变量,直到符合预设的第二训练停止条件,得到训练好的所述第二实体识别网络。
10、在一些实施例中,当所述拟抽取的一个或多个第一实体为目标实体类型、且所述目标实体类型包括多个下级实体类型时,所述分别对各所述第二文本段落进行第二实体识别操作,得到各所述第二文本段落中的第三文本段落,包括:对于各个所述第二文本段落,完成以下步骤的操作:对于各个所述下级实体类型,对所述第二文本段落进行所述下级实体类型的第一实体的实体识别,得到所述第二文本段落中的下级第三文本段落,所述下级第三文本段落包括一个所述下级实体类型的第一实体;将所述第二文本段落中各所述下级实体类型对应的下级第三文本段落,确定为所述第二文本段落中的第三文本段落;当所述拟抽取的一个或多个第一实体为第一目标实体类型,且所述第二实体为第二目标实体类型时,所述对所述拟分析环境质量报告进行第一实体识别操作,得到所述拟分析环境质量报告中的一个或多个第一文本段落和一个或多个第二文本段落,包括:基于第一实体识别网络对所述拟分析环境质量报告进行若干个实体类型的实体的实体识别,得到识别结果;所述若干个实体类型包括所述第一目标实体类型和所述第二目标实体类型,所述识别结果包括一个或多个识别标注、以及各所述识别标注内备选实体对应的备选实体类型,所述识别标注用以标注所述备选实体在所述拟分析环境质量报告的位置;依据所述识别结果,确定备选实体类型为所述第一目标实体类型的第一备选实体为所述第一实体,以及确定所述第一备选实体所在的识别标注对应的文本段落,为所述第一文本段落;依据所述识别结果,确定备选实体类型为所述第二目标实体类型的第二备选实体为所述第二实体,以及确定所述第二备选实体所在的识别标注对应的文本段落,为所述第二文本段落。
11、第二方面,本技术提供一种计算机系统,包括存储器和处理器,所述存储器存储有可在处理器上运行的计算机程序,所述处理器执行所述程序时实现所述方法中的步骤。
12、本技术的有益效果至少包括:本技术实施例提供的生态环境区域空间环评知识图谱生成方法及系统,首先,对于拟分析环境质量报告进行了逐级的实体识别操作,包括第一实体识别操作和第二实体识别操作。其中,第一实体识别操作用于识别拟分析环境质量报告中的第一实体和第二实体,完成对拟分析环境质量报告中第一实体的大致识别,第二实体识别操作用于识别拟分析环境质量报告的第二文本段落(包括第二实体)中的第一实体,完成对拟分析环境质量报告中第一实体的进一步识别,报告中实体识别的准确性得到提升;此外,因为第一实体为第二实体的局部,也就是对于拟分析环境质量报告中的每一第一实体而言,第一实体的字符数量小于第一实体所在第二实体的字符数量,那么,基于同时识别第一实体和第二实体,之后独自对第二实体所在文本段落进行第一实体的识别,再对两次识别结果进行合并冗余优化,得到拟分析环境质量报告中每个第一实体所在的文本段落,可以准确对较短字符的实体的识别准确性更高。
本文地址:https://www.jishuxx.com/zhuanli/20240822/281491.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。