基于知识图谱增强检索的生成大模型农业智能问答方法与流程
- 国知局
- 2024-11-18 18:14:09
本技术涉及人工智能,尤其涉及一种基于知识图谱增强检索的生成大模型农业智能问答方法和系统、电子设备、存储介质及计算机程序产品。
背景技术:
1、近年来,随着深度学习的不断发展,大模型,也称大语言模型(llms,largelanguage models),通过在大规模语料数据集上进行预训练,在自然语言理解和生成文本方面表现出前所未有的能力,llms不仅具有很强的推理能力,同时可以生成流畅而连贯的文本,随之而来被广泛应用于自然语言处理和计算机视觉等领域,智能问答、生成检索也得到应用与发展,各个行业智能问答的需求变得越来越迫切,智能技术极大地改变了人们的生活和工作方式。
2、使用大语言模型进行自然语言生成的,主要在于其推理能力和生成文本的质量和可靠性,但可能缺乏事实的一致性,引入不相关或虚假的信息,出现“幻觉”现象,而解决这个问题的一种常见方法就是增加外部知识源,这些知识源可以为生成任务提供相关的事实和上下文,被称为检索增强生成。然而,通过向量数据库计算相似度检索的方法从大型异构数据源选取最合适的知识非常困难,以及大模型推理过程的透明度和可解释性的不足面临巨大的挑战。因此,亟待解决这一技术问题。
技术实现思路
1、鉴于上述问题,提出了本技术以便提供一种克服上述问题或者至少部分地解决上述问题的基于知识图谱增强检索的生成大模型农业智能问答方法和系统、电子设备、存储介质及计算机程序产品,通过用户输入问题,解析用户输入问题生成思维提示链图,通过农业病虫害数据知识图谱检索筛选相关实体及相对应的农业知识片段,根据查询过程及检索知识构成链式提示输入大模型,可以提高生成内容的准确性和可解释性。所述技术方案如下:
2、第一方面,提供了一种基于知识图谱增强检索的生成大模型农业智能问答方法,包括:
3、通过低秩自适应算法,使用农业病虫害知识问答数据进行大模型微调预训练学习,得到微调预训练后的大模型;
4、获取与农业病虫害相关的用户输入问题,对用户输入问题使用预设的向量模型进行数字化向量表征,得到表征后的问题向量;
5、基于表征后的问题向量,使用预先构建的农业病虫害数据知识图谱进行增强检索,生成与用户输入问题相关的上下文知识片段;
6、融合用户输入问题、增强检索步骤以及与用户输入问题相关的上下文知识片段构成提示链,将提示链提供给微调预训练后的大模型,得到微调预训练后的大模型返回的智能回答结果。
7、在一种可能的实现方式中,通过低秩自适应算法,使用农业病虫害知识问答数据进行大模型微调预训练学习,得到微调预训练后的大模型,包括:
8、对农业病虫害知识问答数据进行预处理,转化成包含指令、上下文、输出内容的数据集,并将数据集划分为训练数据集和测试数据集,且数据集保存为json文件;
9、在服务器上配置单卡gpu运行环境,选择预设的基座大模型;
10、统计数据集中指令、上下文、输出内容各自的最大长度,用来设置自然语言指令的长度、输入文本最大长度、输出文本最大长度;
11、通过低秩自适应算法,结合设置的自然语言指令的长度、输入文本最大长度、输出文本最大长度,使用训练数据集和测试数据集对预设的基座大模型进行微调预训练学习,得到微调预训练后的大模型。
12、在一种可能的实现方式中,通过以下步骤构建农业病虫害数据知识图谱:
13、从指定的农业数据源获取农业专业知识文件,并对农业专业知识文件进行预处理,得到预处理后的文档;
14、采用基于固定大小分块策略对预处理后的文档进行切分,得到切分后的段落;
15、对切分后的段落进行实体、属性和关系的抽取,将抽取后的实体、属性和关系进行向量嵌入存储到neo4j图形数据库中,得到农业病虫害数据知识图谱;其中,在图形数据库中,数据以图的形式存储,节点代表实体,关系代表实体间的连接,属性则提供额外的数据描述。
16、在一种可能的实现方式中,所述方法还包括:
17、对切分后的段落进行向量化,得到向量化后的段落;
18、对向量化后的段落构建索引,生成农业知识向量库。
19、在一种可能的实现方式中,基于表征后的问题向量,使用预先构建的农业病虫害数据知识图谱进行增强检索,生成与用户输入问题相关的上下文知识片段,包括:
20、基于表征后的问题向量,识别农业病虫害数据知识图谱中的相似节点;其中,相似节点在实体和关系周围若干次跳转;
21、将相似节点的属性数据作为与用户输入问题相关的上下文知识片段;
22、根据表征后的问题向量、相似节点和边依赖关系生成增强检索步骤。
23、在一种可能的实现方式中,基于表征后的问题向量,识别农业病虫害数据知识图谱中的相似节点,包括:
24、基于表征后的问题向量,在农业病虫害数据知识图谱中进行图节点检索,实现子图遍历,搜索若干次跳转以内的局部子图,通过计算节点之间的余弦相似度,获取相似的实体节点和知识文本。
25、第二方面,提供了一种基于知识图谱增强检索的生成大模型农业智能问答系统,包括:
26、微调单元,用于通过低秩自适应算法,使用农业病虫害知识问答数据进行大模型微调预训练学习,得到微调预训练后的大模型;
27、向量化单元,用于获取与农业病虫害相关的用户输入问题,对用户输入问题使用预设的向量模型进行数字化向量表征,得到表征后的问题向量;
28、增强检索单元,用于基于表征后的问题向量,使用预先构建的农业病虫害数据知识图谱进行增强检索,生成与用户输入问题相关的上下文知识片段;
29、回答生成单元,用于融合用户输入问题、增强检索步骤以及与用户输入问题相关的上下文知识片段构成提示链,将提示链提供给微调预训练后的大模型,得到微调预训练后的大模型返回的智能回答结果。
30、在一种可能的实现方式中,所述微调单元还用于:
31、对农业病虫害知识问答数据进行预处理,转化成包含指令、上下文、输出内容的数据集,并将数据集划分为训练数据集和测试数据集,且数据集保存为json文件;
32、在服务器上配置单卡gpu运行环境,选择预设的基座大模型;
33、统计数据集中指令、上下文、输出内容各自的最大长度,用来设置自然语言指令的长度、输入文本最大长度、输出文本最大长度;
34、通过低秩自适应算法,结合设置的自然语言指令的长度、输入文本最大长度、输出文本最大长度,使用训练数据集和测试数据集对预设的基座大模型进行微调预训练学习,得到微调预训练后的大模型。
35、在一种可能的实现方式中,所述系统还包括构建单元,用于:
36、从指定的农业数据源获取农业专业知识文件,并对农业专业知识文件进行预处理,得到预处理后的文档;
37、采用基于固定大小分块策略对预处理后的文档进行切分,得到切分后的段落;
38、对切分后的段落进行实体、属性和关系的抽取,将抽取后的实体、属性和关系进行向量嵌入存储到neo4j图形数据库中,得到农业病虫害数据知识图谱;其中,在图形数据库中,数据以图的形式存储,节点代表实体,关系代表实体间的连接,属性则提供额外的数据描述。
39、在一种可能的实现方式中,所述构建单元还用于:
40、对切分后的段落进行向量化,得到向量化后的段落;
41、对向量化后的段落构建索引,生成农业知识向量库。
42、在一种可能的实现方式中,所述增强检索单元还用于:
43、基于表征后的问题向量,识别农业病虫害数据知识图谱中的相似节点;其中,相似节点在实体和关系周围若干次跳转;
44、将相似节点的属性数据作为与用户输入问题相关的上下文知识片段;
45、根据表征后的问题向量、相似节点和边依赖关系生成增强检索步骤。
46、在一种可能的实现方式中,所述增强检索单元还用于:
47、基于表征后的问题向量,在农业病虫害数据知识图谱中进行图节点检索,实现子图遍历,搜索若干次跳转以内的局部子图,通过计算节点之间的余弦相似度,获取相似的实体节点和知识文本。
48、第三方面,提供了一种电子设备,该电子设备包括处理器和存储器,其中,所述存储器中存储有计算机程序,所述处理器被配置为运行所述计算机程序以执行上述任一项所述的基于知识图谱增强检索的生成大模型农业智能问答方法。
49、第四方面,提供了一种存储介质,所述存储介质存储有计算机程序,其中,所述计算机程序被配置为运行时执行上述任一项所述的基于知识图谱增强检索的生成大模型农业智能问答方法。
50、第五方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序被配置为运行时执行上述任一项所述的基于知识图谱增强检索的生成大模型农业智能问答方法。
51、借由上述技术方案,本技术实施例提供的基于知识图谱增强检索的生成大模型农业智能问答方法和系统、电子设备、存储介质及计算机程序产品,该方法可以通过低秩自适应算法,使用农业病虫害知识问答数据进行大模型微调预训练学习,得到微调预训练后的大模型;获取与农业病虫害相关的用户输入问题,对用户输入问题使用预设的向量模型进行数字化向量表征,得到表征后的问题向量;基于表征后的问题向量,使用预先构建的农业病虫害数据知识图谱进行增强检索,生成与用户输入问题相关的上下文知识片段;融合用户输入问题、增强检索步骤以及与用户输入问题相关的上下文知识片段构成提示链,将提示链提供给微调预训练后的大模型,得到微调预训练后的大模型返回的智能回答结果。可以看到,本实施例使用基于低秩自适应算法微调的预训练嵌入大模型可以获取更好的用户文本向量表示;农业病虫害数据知识图谱检索可以获取相关的实体和关系,以及相对应的知识片段,为大模型生成内容提供了依据,可以避免“幻觉”现象;通过解析用户输入问题形成链式提示,提高了大模型推理的透明度和可解释性;本实施例可以用于帮助农业人员快速得到病虫害查询结果,节省时间,提高工作效率。
本文地址:https://www.jishuxx.com/zhuanli/20241118/327728.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表