技术新讯 > 计算推算,计数设备的制造及其应用技术 > 一种检索增强方法、装置、设备及存储介质与流程 > 正文

一种检索增强方法、装置、设备及存储介质与流程

国知局
2024-07-31 22:50:58

本发明涉及人工智能，特别涉及一种检索增强方法、装置、设备及存储介质。

背景技术：

1、大语言模型（llm，large language model）是基于海量文本数据训练的深度学习模型，它不仅能够生成自然语言文本，还能够深入理解文本含义，处理各种自然语言任务。即使llm的通用能力已经可以满足用户的日常需求，但是涉及到具体的行业以及专业场景的时候，llm会面临各种问题，如专业知识匮乏问题、幻觉问题等。针对上述问题，检索增强生成（rag，retrieval augmented generation）的出现弥补的llm通用能力和专业领域之间的差距，rag可以为大模型提供外部知识源。但是检索增强生成技术若使用不当仍会导致大语言模型出现幻觉问题（即模型胡说八道），因此，如何提高检索增强能力是目前亟需解决的技术问题。

技术实现思路

1、有鉴于此，本发明的目的在于提供一种检索增强方法、装置、设备及存储介质，能够避免检索增强的局限性，提高检索增强的准确性。其具体方案如下：

2、第一方面，本技术公开了一种检索增强方法，包括：

3、获取知识文件，对所述知识文件进行数据解析得到对应的纯文本文件；

4、根据所述知识文件的文件类型确定对应的数据切分方式，利用所述数据切分方式对所述纯文本文件进行数据切分，得到多个知识块；

5、将所述知识块存入知识库；

6、获取用户输入的待检索词条，基于所述知识库对所述待检索词条进行检索，确定所述待检索词条对应的目标知识块；

7、将所述目标知识块输入给大语言模型。

8、可选的，所述根据所述知识文件的文件类型确定对应的数据切分方式，利用所述数据切分方式对所述纯文本文件进行数据切分，得到多个知识块，包括：

9、根据所述知识文件的文件类型确定针对所述知识文件的第一个数据切分方式；

10、利用所述第一个数据切分方式对所述纯文本文件进行数据切分，得到初次切分后知识块；

11、根据大语言模型的最大允许输入长度，确定针对所述知识文件的第二个数据切分方式；

12、利用所述第二个数据切分方式对所述初次切分后知识块进行数据切分，得到知识块。

13、可选的，所述数据切分方式包括基于句子切分、基于段落切分、基于章节切分、基于表格切分、基于语义切分中任意一种或多种。

14、可选的，所述根据所述知识文件的文件类型确定对应的数据切分方式，包括：

15、所述知识文件为pdf文件、文本文档或epub文件，则所述数据切分方式为基于段落切分；

16、所述知识文件为md文件或word文件，则所述数据切分方式为基于章节切分；

17、所述知识文件为json文件或xml文件，则所述数据切分方式为基于结构体切分；

18、所述知识文件为html文件，则所述数据切分方式为基于标签切分。

19、可选的，所述将所述知识块存入知识库，包括：

20、基于语义提取所述知识块对应的概要，将所述知识块和所述概要共同存入知识库。

21、可选的，所述提取所述知识块对应的概要，将所述知识块和所述概要共同存入知识库，包括：

22、通过概要提取算法提取所述知识块对应的概要，将所述概要进行向量化，得到概要向量；

23、将所述知识块进行向量化，得到知识块向量；

24、构建相同知识块对应的概要向量与知识块向量之间的映射关系；

25、将所述概要向量、所述知识块向量以及所述映射关系存入知识向量库。

26、可选的，所述获取用户输入的待检索词条，基于所述知识库对所述待检索词条进行检索，确定所述待检索词条对应的目标知识块，包括：

27、基于所述知识库中所有的概要对所述待检索词条进行检索，查询是否存在与所述待检索词条对应的目标概要；

28、若存在与所述待检索词条对应的目标概要，则根据概要与知识块之间的映射关系，将所述目标概要对应的知识块作为目标知识块。

29、可选的，所述查询是否存在与所述待检索词条对应的目标概要之后，还包括：

30、若不存在与所述待检索词条对应的目标概要，则基于所述知识库中所有的知识块对所述待检索词条进行检索，得到所述待检索词条对应的目标知识块。

31、可选的，所述将所述目标知识块输入给大语言模型，包括：

32、对比所述目标知识块的长度与大语言模型的最大允许输入长度；

33、若所述目标知识块的长度大于所述大语言模型的最大允许输入长度，则对所述目标知识块进行预处理，得到长度小于或等于所述大语言模型的最大允许输入长度的知识数据，将所述知识数据输入至大语言模型。

34、可选的，所述对比所述目标知识块的长度与大语言模型的最大允许输入长度之后，还包括：

35、若所述目标知识块的长度小于或等于所述大语言模型的最大允许输入长度，则直接将所述目标知识块输入至大语言模型。

36、可选的，所述对所述目标知识块进行预处理，得到长度小于或等于所述大语言模型的最大允许输入长度的知识数据，包括：

37、根据所述大语言模型的最大允许输入长度对所述目标知识块进行概要提取，得到长度小于或等于所述大语言模型的最大允许输入长度的概要作为所述知识数据。

38、可选的，所述利用所述数据切分方式对所述纯文本文件进行数据切分，得到多个知识块之后，还包括：

39、将存在关联的知识块添加序号标识；

40、相应的，所述将所述目标知识块输入给大语言模型，包括：

41、根据所述序号标识筛选出与所述目标知识块关联的知识块；

42、基于筛选出的知识块和所述目标知识块得到知识块集合；

43、将所述知识块集合输入给大语言模型。

44、第二方面，本技术公开了一种检索增强装置，包括：

45、文件解析模块，用于获取知识文件，对所述知识文件进行数据解析得到对应的纯文本文件；

46、文件切分模块，用于根据所述知识文件的文件类型确定对应的数据切分方式，利用所述数据切分方式对所述纯文本文件进行数据切分，得到多个知识块；

47、知识块存储模块，用于将所述知识块存入知识库；

48、检索模块，用于获取用户输入的待检索词条，基于所述知识库对所述待检索词条进行检索，确定所述待检索词条对应的目标知识块；

49、模型输入模块，用于将所述目标知识块输入给大语言模型。

50、第三方面，本技术公开了一种电子设备，包括：

51、存储器，用于保存计算机程序；

52、处理器，用于执行所述计算机程序，以实现前述的检索增强方法。

53、第四方面，本技术公开了一种计算机可读存储介质，用于存储计算机程序；其中计算机程序被处理器执行时实现前述的检索增强方法。

54、本技术中，获取知识文件，对所述知识文件进行数据解析得到对应的纯文本文件；根据所述知识文件的文件类型确定对应的数据切分方式，利用所述数据切分方式对所述纯文本文件进行数据切分，得到多个知识块；将所述知识块存入知识库；获取用户输入的待检索词条，基于所述知识库对所述待检索词条进行检索，确定所述待检索词条对应的目标知识块；将所述目标知识块输入给大语言模型。

55、由上可见，通过数据解析将知识文件转换为纯文本文件，由此能够支持多种格式类型的知识文件，避免检索增强的局限性；另外，对知识文件进行切分时，具体根据文件类型确定对应的数据切分方式，由此针对不同文件类型的知识文件提供最优切分方式，能够避免相关技术中采用固定大小窗口机械切分知识导致关键信息遗漏的问题，进而避免大模型回答不完整甚至出现幻觉问题。