一种信息检索方法、装置、电子设备及存储介质与流程
- 国知局
- 2024-07-31 23:13:06
本申请涉及人工智能,尤其涉及一种信息检索方法、装置、电子设备及存储介质。
背景技术:
1、人类社会积累了海量的文献、书籍、文档等自然语言记录的内容,蕴藏着人类智慧的结晶、科学研究的成果、历史文化的经验以及各行各业的专业知识,这些文本类信息的规模非常庞大,尤其是互联网上的新兴数字化内容更是呈指数级增长。
2、面对如此浩瀚的知识海洋,传统的知识检索技术无法精准理解用户需求,不仅检索到的知识信息准确性降低,且对知识定位效率也产生一定影响。
技术实现思路
1、有鉴于此,本申请的目的在于至少提供一种信息检索方法、装置、电子设备及存储介质,通过语义检索和关键字检索相结合的双路召回机制,精确的从海量数据中提取问题答案对应的应答信息,保证了检索的覆盖完备性。
2、本申请主要包括以下几个方面:
3、第一方面,本申请实施例提供一种信息检索方法,方法包括:获取用户输入的问题文本;利用预先创建的知识源所提供的双路索引,对问题文本进行双路召回,以从知识源中提取与问题文本对应的知识源信息,双路索引包括以语义检索为主的向量化索引和以关键词检索为辅的关键词索引;通过提示词工程对知识源信息和问题文本进行整合,得到提示词;将提示词输入预设大模型进行推理归纳,确定问题文本对应的应答信息。
4、在一种可能得实施方式中,通过以下方式创建双路索引:通过文档加载器对私域知识库中的各种格式的资料文件进行加载和解析,输出每个资料对应的纯文本文档;针对每个纯文本文档,利用文本切分器把该纯文本文档切分成多个文本块并为每个文本块分配一身份标识,每个文本块为一基本语义单元;分别基于bi-encoder的语义相似度检索机制和关键词检索机制,创建双路索引。
5、在一种可能得实施方式中,通过以下方式将每个纯文本文档切分成对应的多个文本块:基于自然段边界识别出纯文本文档中的多个自然段落;针对每个自然段落,执行以下处理:确定该自然段落是否大于文本块最大长度,若该自然段落大于文本块最大长度,则基于文本块最大长度和文本块之间的重叠长度,对该自然段落进行切分,得到该自然段落对应的多个文本块,若该自然段落小于或者等于文本块最大长度,则直接将该自然段落确定为一文本块。
6、在一种可能得实施方式中,分别通过以下方式创建关键词索引和向量化索引:利用倒排索引器遍历所有文本块中出现的词语,并确定每个词语所属的文本块;创建以词语为键,以词语所属的文本块为键值的关键词索引;将全部文本块依次输入bi-encoder编码模块,得到每个文本块对应的文本向量,文本向量包括文本块对应的身份标识、文本内容和bi-encoder编码;由每个文本块对应的文本向量,形成向量化索引。
7、在一种可能得实施方式中,知识源信息包括多个候选文本块,其中,通过以下方式确定知识源信息:抽取问题文本中的关键词;在关键词索引中,查找并确定与关键词对应的文本块作为候选文本块;通过bi-encoder编码模块对问题文本进行向量化处理,得到与问题文本对应的问题向量;将向量化索引所对应文本向量分别与问题向量进行相似度计算,确定每个文本向量与问题向量之间的相似度计算结果;针对每个文本向量,若相似度计算结果指示该文本向量与问题向量之间的余弦相似度大于预设阈值,则将该文本向量所对应的文本块确定为候选文本块。
8、在一种可能得实施方式中,通过提示词工程对知识源信息和问题文本进行整合,得到提示词的步骤包括:使用cross-encoder算法依次计算每个候选文本块与问题文本之间的相关指数;依据相关指数对每个文本块按照预设规则进行排序,根据排序结果,将排序结果靠前的预设数量个候选文本块确定为目标文本块;通过提示词工程对目标文本块和问题文本进行整合,得到提示词。
9、在一种可能得实施方式中,通过提示词工程对目标文本块和问题文本进行整合,得到提示词的步骤包括:获取用户在输入问题文本之前所产生的历史对话和提示词模版,提示词模版包括预设大模型所执行的任务指令配置项和上下文配置项;根据历史对话、目标文本块和问题文本完成对提示词模版的配置,生成提示词。
10、第二方面,本申请实施例还提供一种信息检索装置,装置包括:获取模块,用于获取用户输入的问题文本;召回模块,用于利用预先创建的双路索引,对问题文本进行双路召回,得到与问题文本对应的知识源信息,双路索引包括以语义检索为主的向量化索引和以关键词检索为辅的关键词索引;提示词生成模块,用于通过提示词工程对知识源信息和问题文本进行整合,得到提示词;应答模块,用于将提示词输入预设大模型进行推理归纳,确定问题文本对应的应答信息。
11、第三方面,本申请实施例还提供一种电子设备,包括:处理器、存储器和总线,存储器存储有处理器可执行的机器可读指令,当电子设备运行时,处理器与存储器之间通过总线进行通信,机器可读指令被处理器运行时执行上述第一方面或第一方面中任一种可能的实施方式中的信息检索方法的步骤。
12、第四方面,本申请实施例还提供了一种计算机可读存储介质,计算机可读存储介质上存储有计算机程序,计算机程序被处理器运行时执行上述第一方面或第一方面中任一种可能的实施方式中的信息检索方法的步骤。
13、本申请实施例提供的了一种信息检索方法、装置、电子设备及存储介质,方法包括:获取用户输入的问题文本;利用预先创建的知识源所提供的双路索引,对问题文本进行双路召回,以从知识源中提取与问题文本对应的知识源信息,双路索引包括以语义检索为主的向量化索引和以关键词检索为辅的关键词索引;通过提示词工程对知识源信息和问题文本进行整合,得到提示词;将提示词输入预设大模型进行推理归纳,确定问题文本对应的应答信息。本申请通过语义检索和关键字检索相结合的双路召回机制,精确的从海量数据中提取问题答案对应的应答信息,保证了检索的覆盖完备性。
14、为使本申请的上述目的、特征和优点能更明显易懂,下文特举较佳实施例,并配合所附附图,作详细说明如下。
技术特征:1.一种信息检索方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,通过以下方式创建所述双路索引:
3.根据权利要求2所述的方法,其特征在于,通过以下方式将每个纯文本文档切分成对应的多个文本块:
4.根据权利要求2所述的方法,其特征在于,分别通过以下方式创建所述关键词索引和所述向量化索引:
5.根据权利要求4所述的方法,其特征在于,所述知识源信息包括多个候选文本块,
6.根据权利要求5所述的方法,其特征在于,所述通过提示词工程对所述知识源信息和所述问题文本进行整合,得到提示词的步骤包括:
7.根据权利要求6所述的方法,其特征在于,通过提示词工程对所述目标文本块和所述问题文本进行整合,得到提示词的步骤包括:
8.一种信息检索装置,其特征在于,所述装置包括:
9.一种电子设备,其特征在于,包括:处理器、存储器和总线,所述存储器存储有所述处理器可执行的机器可读指令,当电子设备运行时,所述处理器与所述存储器之间通过所述总线进行通信,所述机器可读指令被所述处理器运行时执行如权利要求1至7任一所述的信息检索方法的步骤。
10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器运行时执行如权利要求1至7任一所述的信息检索方法的步骤。
技术总结本申请提供了一种信息检索方法、装置、电子设备及存储介质,方法包括:获取用户输入的问题文本;利用预先创建的知识源所提供的双路索引,对问题文本进行双路召回,以从知识源中提取与问题文本对应的知识源信息,双路索引包括以语义检索为主的向量化索引和以关键词检索为辅的关键词索引;通过提示词工程对知识源信息和问题文本进行整合,得到提示词;将提示词输入预设大模型进行推理归纳,确定问题文本对应的应答信息。本申请通过语义检索和关键字检索相结合的双路召回机制,精确的从海量数据中提取问题答案对应的应答信息,保证了检索的覆盖完备性。技术研发人员:李小龙,李晓波受保护的技术使用者:北京远舢智能科技有限公司技术研发日:技术公布日:2024/7/29本文地址:https://www.jishuxx.com/zhuanli/20240730/196482.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。