技术新讯 > 计算推算,计数设备的制造及其应用技术 > 基于两阶段检索优化的检索增强生成方法、系统及设备与流程  >  正文

基于两阶段检索优化的检索增强生成方法、系统及设备与流程

  • 国知局
  • 2024-11-19 09:43:46

本申请涉及自然语言处理领域,特别是涉及一种基于两阶段检索优化的检索增强生成方法、系统及设备。

背景技术:

1、近年来,生成式人工智能技术迅速发展,多家组织与机构纷纷发布了大语言模型(large language models,llms)、混合专家模型(mixed expertmodels,moes),这些模型利用海量的开放数据与通用知识,基于巨量参数的深度学习算法进行训练,具有强大的泛化能力和通用能力。然而,在垂直领域的特定任务上应用这些模型,仍面临着特定领域知识理解和应用的局限性,若重新训练需要消耗巨大的算力成本。

2、针对上述挑战,目前在下游问答任务上应用这些模型有两种主要技术方向,分别是监督微调(supervised fine-tuning,sft)与检索增强生成(retrieval augmentedgeneration,rag)。与监督微调相比,检索增强生成技术在算力受限的情况下也能提供有效的服务。此外,检索增强生成技术通过将问题分解为检索与生成两个阶段,能够充分利用数据库知识,并提供更大的应用灵活性。然而,在企业实际应用中,在大规模文档知识库中充分利用检索增强生成技术进行检索和生成十分具有挑战性。

3、综上,亟需解决大语言模型或混合专家模型对于特定领域知识理解和应用的局限性,以及回答文本的生成效率和精度问题。

技术实现思路

1、本申请的目的是提供一种基于两阶段检索优化的检索增强生成方法、系统及设备,可拓展文档知识库的知识应用能力和场景,提高回答文本的生成效率和精度。

2、为实现上述目的,本申请提供了如下方案:

3、第一方面,本申请提供了一种基于两阶段检索优化的检索增强生成方法,包括:

4、获取用户查询文本及多个知识文档;每个知识文档均包括文档摘要和文档全文;

5、针对任一知识文档,根据所述知识文档的文档摘要,确定所述知识文档的摘要实体关系三元组集合;根据所述知识文档的文档全文,确定所述知识文档的句子向量集合;

6、基于预先构建的查询重写提示词模板,将所述用户查询文本拆分为多个子查询实体关系三元组;

7、分别计算每个子查询实体关系三元组与每个知识文档的摘要实体关系三元组集合的摘要检索得分,并根据摘要检索得分确定第一阶段检索结果;所述第一阶段检索结果为空或最匹配知识文档;

8、若所述第一阶段检索结果为空,则基于预先构建的回答生成提示词模板,根据所有子查询实体关系三元组及所有知识文档的句子向量集合,确定回答文本;

9、若所述第一阶段检索结果为最匹配知识文档,则分别计算每个子查询实体关系三元组与所述最匹配知识文档的每个句子向量的句子检索得分,并根据句子检索得分确定每个子查询实体关系三元组的最匹配句子集合;

10、基于预先构建的回答生成提示词模板,根据所有子查询实体关系三元组及每个子查询实体关系三元组的最匹配句子集合,确定回答文本。,

11、第二方面,本申请提供了一种基于两阶段检索优化的检索增强生成系统,包括:

12、数据预处理与存储模块,用于获取多个知识文档,针对任一知识文档,根据所述知识文档的文档摘要,确定所述知识文档的摘要实体关系三元组集合,根据所述知识文档的文档全文,确定所述知识文档的句子向量集合;每个知识文档均包括文档摘要和文档全文;

13、查询重写模块,用于获取用户查询文本,并基于预先构建的查询重写提示词模板,将所述用户查询文本拆分为多个子查询实体关系三元组;

14、两阶段检索模块,分别与所述数据预处理与存储模块及所述查询重写模块连接,用于分别计算每个子查询实体关系三元组与每个知识文档的摘要实体关系三元组集合的摘要检索得分,并根据摘要检索得分确定第一阶段检索结果;所述第一阶段检索结果为空或最匹配知识文档,在所述第一阶段检索结果为最匹配知识文档时,分别计算每个子查询实体关系三元组与所述最匹配知识文档的每个句子向量的句子检索得分,并根据句子检索得分确定每个子查询实体关系三元组的最匹配句子集合;

15、回答生成模块,分别与所述数据预处理与存储模块及所述两阶段检索模块连接,用于在所述第一阶段检索结果为空时,基于预先构建的回答生成提示词模板,根据所有子查询实体关系三元组及所有知识文档的句子向量集合,确定回答文本,在所述第一阶段检索结果为最匹配知识文档时,基于预先构建的回答生成提示词模板,根据所有子查询实体关系三元组及每个子查询实体关系三元组的最匹配句子集合,确定回答文本。

16、第三方面,本申请提供了一种计算机设备,包括:存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述计算机程序以实现上述的基于两阶段检索优化的检索增强生成方法的步骤。

17、根据本申请提供的具体实施例,本申请公开了以下技术效果:

18、本申请面向垂直领域的知识应用场景,对大规模知识文档的存储内容以及存储结构进行优化,采用摘要实体关系三元组和句子向量的方式存储知识文档,为之后的知识检索和应用提供数据支撑,进一步构建专门的查询重写提示词,将用户输入的非结构化复杂的查询文本拆分为结构化的子查询实体关系三元组,提高了检索生成技术的检索准确性。在两阶段检索过程中,可根据摘要检索结果,确定是否进行文档全文检索,可高效调整检索粒度,减少检索花费的时间,最后构建专门的回答生成提示词进行垂直领域特定任务的知识问答,拓展了文档知识库的知识应用能力和场景,提高了回答文本的生成效率和精度。

技术特征:

1.一种基于两阶段检索优化的检索增强生成方法,其特征在于,所述基于两阶段检索优化的检索增强生成方法包括:

2.根据权利要求1所述的基于两阶段检索优化的检索增强生成方法,其特征在于,基于预先构建的查询重写提示词模板,将所述用户查询文本拆分为多个子查询实体关系三元组,具体包括:

3.根据权利要求1所述的基于两阶段检索优化的检索增强生成方法,其特征在于,所述查询重写提示词包括定义系统角色、系统指令、示例对话指令及问题指令;所述问题指令中填充所述用户查询文本。

4.根据权利要求1所述的基于两阶段检索优化的检索增强生成方法,其特征在于,分别计算每个子查询实体关系三元组与每个知识文档的摘要实体关系三元组集合的摘要检索得分,并根据摘要检索得分确定第一阶段检索结果,具体包括:

5.根据权利要求4所述的基于两阶段检索优化的检索增强生成方法,其特征在于,多种检索算法包括tf-idf算法、bm25检索算法及基于语义相似度的向量检索算法。

6.根据权利要求1所述的基于两阶段检索优化的检索增强生成方法,其特征在于,子查询实体关系三元组与句子向量的句子检索得分为子查询实体关系三元组与句子向量的余弦相似度。

7.根据权利要求1所述的基于两阶段检索优化的检索增强生成方法,其特征在于,根据句子检索得分确定每个子查询实体关系三元组的最匹配句子集合,具体包括:

8.根据权利要求1所述的基于两阶段检索优化的检索增强生成方法,其特征在于,基于预先构建的回答生成提示词模板,根据所有子查询实体关系三元组及每个子查询实体关系三元组的最匹配句子集合,确定回答文本,具体包括:

9.一种基于两阶段检索优化的检索增强生成系统,其特征在于,所述基于两阶段检索优化的检索增强生成系统包括:

10.一种计算机设备,包括:存储器、处理器以及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述处理器执行所述计算机程序以实现权利要求1-8中任一项所述的基于两阶段检索优化的检索增强生成方法的步骤。

技术总结本申请公开一种基于两阶段检索优化的检索增强生成方法、系统及设备,涉及自然语言处理领域,方法包括:获取用户查询文本及多个知识文档;确定每个知识文档的摘要实体关系三元组集合和句子向量集合;将用户查询文本拆分为多个子查询实体关系三元组;计算子查询实体关系三元组与摘要实体关系三元组集合的摘要检索得分,确定第一阶段检索结果;根据第一阶段检索结果判断是否进行文档全文检索,若进行文档全文检索,则进一步确定每个子查询实体关系三元组的最匹配句子集合,根据所有子查询实体关系三元组及每个子查询实体关系三元组的最匹配句子集合确定回答文本。本申请可拓展文档知识库的知识应用能力和场景,提高回答文本的生成效率和精度。技术研发人员:江杨靖,王洒洒,朱娅梅,李金雨,李超,戴炳荣受保护的技术使用者:上海计算机软件技术开发中心技术研发日:技术公布日:2024/11/14

本文地址:https://www.jishuxx.com/zhuanli/20241118/329958.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。