一种基于知识图谱与大语言模型的政务问答方法与流程
- 国知局
- 2024-11-18 18:11:50
本发明涉及语言处理,具体为一种基于知识图谱与大语言模型的政务问答方法。
背景技术:
1、近年来,随着“互联网+政务”服务的推进,如12345市民热线、市长信箱、民意留言板等渠道成为政府机关听取民声、了解民情、服务民众的重要沟通桥梁,但人工回复有着难以即时回复、耗费人力成本等问题,构建一个自动回答民众诉求的政务问答系统已成为社会治理创新发展的迫切需求。
2、随着自然语言处理以及大语言模型技术的不断突破,智能问答领域受到了广泛关注。智能问答是人工智能领域中的一个重要应用,它可以自动回复用户所提出的问题,帮助用户快速地获取所需的信息或答案。
3、现有的政务问答服务一般采用人工服务的方式,这需要人工客服具备一定的政务知识储备,由于政务知识具有地域性,不同地市、不同区县甚至不同乡镇的政策都可能存在差异,故而知识不通用,人工服务的方式不仅用工成本高,服务效率也十分低下。某些地区使用基于问答库匹配的智能助手自动回复用户的提问,虽然效率有所提升,但这些智能助手难以应对特定情境的复杂问题,无法进行深层次推理。基于大语言模型的问答方法虽然具备良好的推理能力,但可能得出已经失去时效的回答,且难以解决“ai幻觉”问题。
技术实现思路
1、本发明的目的在于提供一种基于知识图谱与大语言模型的政务问答方法,以解决上述背景技术中提出的问题。
2、为实现上述目的,本发明提供如下技术方案:一种基于知识图谱与大语言模型的政务问答方法,所述方法包括如下步骤:
3、s1、数据收集与梳理;
4、s2、构建政务知识图谱;
5、s3、问题文本实体提取,并链接到政务知识图谱;
6、s4、沿上下游拓展知识子图;
7、s5、大语言模型文本生成。
8、可选的,所述s1进一步的包括:基于互联网平台以及政府平台、内部文件等多类方式收集民生诉求相关的政策文件以及规范文件等非结构化数据、12345咨询类工单详情等结构化数据,非纯文本格式的政策文件或规范文件需要进行规范化。
9、可选的,所述s2进一步包括:
10、基于政策文件以及规范文件,对部分数据进行人工标注,通过实体抽取模型对实体进行抽取,通过基于实体上下文与依存句法分析的方法进行关系抽取,得到政务知识三元组(h,r,t),并通过规则模板对前提条件、区域信息进行抽取,将三元组拓展为五元组(h,r,t,p,d),其中h表示头实体,r表示关系,t表示尾实体,p表示前提条件,d表示区域名称,基于政务知识五元组构建政务知识图谱;
11、所述实体抽取模型包括文本输入层、词嵌入层、特征提取层、多头注意力层、特征分类层。
12、可选的,所述s3进一步包括:
13、对于用户问题文本,通过实体抽取模型、关系抽取模型及规则模板提取问题文本要素,包括区域名称、实体、关系、前提条件,然后使用实体链接技术将问题实体链接到s2构建的政务知识图谱中的已有实体,提取目标五元组;
14、通过问题文本中的区域名称提取知识图谱的区域子图,然后将问题文本中提取的实体链接到知识库中对应的正确实体对象,提取候选五元组集合,通过预训练bert模型生成每个候选五元组中前提条件的嵌入向量,与问题文本中提取的前提条件的嵌入向量进行相似度计算,得到第一相似度,若一方前提条件为空,则第一相似度值为1,通过预训练bert模型生成每个候选五元组中关系的嵌入向量,与问题文本中提取的关系的嵌入向量进行相似度计算,得到第二相似度,选取第一相似度与第二相似度的均值最大的五元组为目标五元组。
15、可选的,所述s4进一步包括:
16、对于目标五元组,沿头实体的上游方向拓展,获取前置知识五元组,沿尾实体的下游方向拓展,获取后置知识五元组,最终获得知识子图;
17、对目标五元组进行句粒度改造并获取文本嵌入向量,计算与问题文本嵌入向量之间的余弦相似度,若相似度大于预设阈值,则将其与目标五元组一起加入五元组集合,若相似度小于预设阈值,则该路线不再继续拓展。
18、可选的,所述知识子图包括若干个五元组的集合,作为可信知识输入大语言模型中,所述句粒度改造指将五元组中的各元素填充到句子模板中。
19、可选的,所述s5进一步包括:
20、将经过微调的大语言模型作为问答推理模型,将五元组集合以及问题文本填充到预先构建的prompt模板,输入问答推理模型以生成用户问题的回答文本;
21、使用大模型在政务知识图谱提供的外部知识的基础上,再辅助以模型内部的内生文本信息,生成用户问题的回答文本,增强大模型知识问答的准确性。
22、可选的,所述大语言模型使用大规模文本语料库进行训练的深度学习模型。
23、与现有技术相比,本发明提供了一种基于知识图谱与大语言模型的政务问答方法,具备以下有益效果:
24、1、该基于知识图谱与大语言模型的政务问答方法,针对政务知识图谱,将知识三元组拓展为五元组,加入前提条件、区域两个维度,相比其他方法,本发明能够很好地区分不同前提条件、不同区域的政务知识,通过构建政务知识图谱,为大语言模型提供准确的政务知识,提升了大语言模型回答的准确性与可解释性。
25、2、该基于知识图谱与大语言模型的政务问答方法,沿着初始知识的上下游进行拓展,可以有效挖掘出更多的相关知识,提升了回答准确性和全面性。
技术特征:1.一种基于知识图谱与大语言模型的政务问答方法,其特征在于:所述方法包括如下步骤:
2.根据权利要求1所述的一种基于知识图谱与大语言模型的政务问答方法,其特征在于:所述s1进一步的包括:基于互联网平台以及政府平台、内部文件等多类方式收集民生诉求相关的政策文件以及规范文件等非结构化数据、12345咨询类工单详情等结构化数据,非纯文本格式的政策文件或规范文件需要进行规范化。
3.根据权利要求1所述的一种基于知识图谱与大语言模型的政务问答方法,其特征在于:所述s2进一步包括:
4.根据权利要求1所述的一种基于知识图谱与大语言模型的政务问答方法,其特征在于:所述s3进一步包括:
5.根据权利要求1所述的一种基于知识图谱与大语言模型的政务问答方法,其特征在于:所述s4进一步包括:
6.根据权利要求5所述的一种基于知识图谱与大语言模型的政务问答方法,其特征在于:所述知识子图包括若干个五元组的集合,作为可信知识输入大语言模型中,所述句粒度改造指将五元组中的各元素填充到句子模板中。
7.根据权利要求1所述的一种基于知识图谱与大语言模型的政务问答方法,其特征在于:所述s5进一步包括:
8.根据权利要求7所述的一种基于知识图谱与大语言模型的政务问答方法,其特征在于:所述大语言模型使用大规模文本语料库进行训练的深度学习模型。
技术总结本发明涉及语言处理技术领域,且公开了一种基于知识图谱与大语言模型的政务问答方法,该基于知识图谱与大语言模型的政务问答方法,针对政务知识图谱,将知识三元组拓展为五元组,加入前提条件、区域两个维度,相比其他方法,本发明能够很好地区分不同前提条件、不同区域的政务知识,通过构建政务知识图谱,为大语言模型提供准确的政务知识,提升了大语言模型回答的准确性与可解释性,沿着初始知识的上下游进行拓展,可以有效挖掘出更多的相关知识,提升了回答准确性和全面性。技术研发人员:杨银剑,杨银波,黄松,夏永康受保护的技术使用者:昆山炫生活信息技术股份有限公司技术研发日:技术公布日:2024/11/14本文地址:https://www.jishuxx.com/zhuanli/20241118/327557.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。