技术新讯 > 计算推算,计数设备的制造及其应用技术 > 一种基于知识图谱的预训练语言模型构建方法  >  正文

一种基于知识图谱的预训练语言模型构建方法

  • 国知局
  • 2024-08-05 12:11:38

本申请属于知识查询,尤其涉及一种基于知识图谱的预训练语言模型构建方法。

背景技术:

1、由于知识图谱规模庞大,理解能力较弱,使用预定义模式进行自然语言问答需要耗费巨大成本。因此,如何将结构化的数字化与丰富的语言系统进行深度融合,使得服务更智能、精准、实时和个性化,是目前亟待解决的问题。

2、在知识问答任务中,预训练语言模型(plm)展现出了巨大的优势,具有优越的文本生成能力和语义理解能力,在通用领域有出色的表现效果。但在专业领域,由于没有完整的知识库做支撑,知识问答的操作过程如同不透明的黑箱,具体的决策逻辑难以被跟踪,导致其在实际应用时出现可解释性差、准确率低等问题。

3、目前,部分研究使用plm根据给定的问题和其他相关的kg信息直接生成可执行程序,提高了模型性能,并证明了将plm引入kg问答的有效性,但是传统的kgqa仍存在检索效率低、误导生成以及知识图谱问答子任务复杂的问题。

技术实现思路

1、有鉴于此,本申请旨在提出一种基于知识图谱的预训练语言模型构建方法,以解决知识查询过程中知识图谱规模庞大、问答理解能力弱的问题。

2、为达到上述目的,本申请的技术方案是这样实现的:

3、第一方面,本申请提供了一种基于知识图谱的预训练语言模型构建方法,包括:

4、输入自然语言问题;

5、基于预训练语言的语义解析模型对输入的所述自然语言问题进行数据处理,得到候选逻辑形式列表,其中,所述语义解析模型为预先构建好的,用以提取所述自然语言问题特征,并进行问句的实体识别和意图识别,结合实体和意图并经逻辑转换填充生成候选逻辑形式列表;

6、基于无监督多阶段搜索算法在知识图谱中对生成的所述候选逻辑形式列表进行知识检索,结合检索结果更新逻辑形式内容并转换成cypher语句进行图谱查询,返回答案列表形成答案集,其中,所述知识检索包括实体检索和关系检索。

7、第二方面,基于同一发明构思,本申请还提供了一种基于知识图谱的预训练语言模型构建系统,包括:

8、输入模块,所述输入模块被配置为输入自然语言问题;

9、生成模块,所述生成模块被配置为基于预训练语言的语义解析模型对输入的所述自然语言问题进行数据处理,得到候选逻辑形式列表,其中,所述语义解析模型为预先构建好的,用以提取所述自然语言问题特征,并进行问句的实体识别和意图识别,结合实体和意图并经逻辑转换填充生成候选逻辑形式列表;

10、检索模块,所述检索模块被配置为基于无监督多阶段搜索算法在知识图谱中对生成的所述候选逻辑形式列表进行知识检索,结合检索结果更新逻辑形式内容并转换成cypher语句进行图谱查询,返回答案列表形成答案集,其中,所述知识检索包括实体检索和关系检索。

11、第三方面,基于同一发明构思,本申请还提供了一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现如第一方面所述的方法。

12、第四方面,基于同一发明构思,本申请还提供了一种非暂态计算机可读存储介质,其中,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使所述计算机执行如第一方面所述的方法。

13、相对于现有技术,本申请所述的一种基于知识图谱的预训练语言模型构建方法具有以下有益效果:

14、本申请所述的一种基于知识图谱的预训练语言模型构建方法,所述方法采用生成再检索的方式,以候选逻辑形式为桥梁,通过微调预训练语言模型进行语义解析,在无监督多阶段搜索算法模块检索答案,该方法实现了plm+kg的可解释性推理问答新范式,不仅提高了智能问答效率和服务水平,而且为未来的注入医疗、法律、人文等多个专业领域的可解释知识推理问答提供了新的解决思路。

技术特征:

1.一种基于知识图谱的预训练语言模型构建方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述语义解析模型包括微调plm模块,所述微调plm模块被配置为:

3.根据权利要求2所述的方法,其特征在于,还包括实体识别模块,所述实体识别模块被配置为包括特征提取层和实体标注层;

4.根据权利要求2所述的方法,其特征在于,还包括意图识别模块,所述意图识别模块被配置为:

5.根据权利要求1所述的方法,其特征在于,所述无监督多阶段搜索算法包括:

6.根据权利要求5所述的方法,其特征在于,所述将生成阶段输出的候选逻辑形式列表中的每个实体与知识图谱的实体集中的元素进行相似度比较,更新为新的候选逻辑形式列表,包括:

7.根据权利要求5所述的方法,其特征在于,所述根据新的候选逻辑形式列表进行关系检索,再次与知识图谱中的实体集邻域中的元素进行关系相似度比较并排序,通过短语级语义检索并更新转换后,获得最终的候选逻辑形式列表,包括:

8.一种基于知识图谱的预训练语言模型构建系统,其特征在于,包括:

9.一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述程序时实现权利要求1-7任一项所述的方法。

10.一种非暂态计算机可读存储介质,其特征在于,其中,所述非暂态计算机可读存储介质存储计算机指令,所述计算机指令用于使计算机执行权利要求1-7任一项所述的方法。

技术总结本申请提供了一种基于知识图谱的预训练语言模型构建方法,包括:基于预训练语言的语义解析模型对输入的自然语言问题进行数据处理,得到候选逻辑形式列表,其中,语义解析模型用以提取所述自然语言问题特征,并进行问句的实体识别和意图识别,结合实体和意图并经逻辑转换填充生成候选逻辑形式列表;基于无监督多阶段搜索算法在知识图谱中对生成的候选逻辑形式列表进行知识检索,结合检索结果更新逻辑形式内容并转换成Cypher语句进行图谱查询,返回答案列表形成答案集。本申请不仅提高了智能问答效率和服务水平,而且为未来的注入医疗、法律、人文等多个专业领域的可解释知识推理问答提供了新的解决思路。技术研发人员:刘晶,高茹薇,季海鹏,赵佳,王旭,吕华受保护的技术使用者:河北工业大学技术研发日:技术公布日:2024/8/1

本文地址:https://www.jishuxx.com/zhuanli/20240802/261456.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。