技术新讯 > 计算推算,计数设备的制造及其应用技术 > 融合语义图的向量数据库问答处理方法、设备及存储介质与流程 > 正文

融合语义图的向量数据库问答处理方法、设备及存储介质与流程

国知局
2024-09-19 14:49:11

本技术涉及智能问答处理，具体而言，涉及一种融合语义图的向量数据库问答处理方法、设备及存储介质。

背景技术：

1、在自然语言处理领域中，可以使用与大语言模型（large language model，简称llm）、检索增强生成模型（retrieval-augmented generation，简称rag）和向量数据库的结合有关的问答处理方法，对自然语言进行处理，从而推动了人工智能的智能化与实用性。具体地，rag模型中的检索模块可以使用基于bert的向量化方法，将查询和文档映射到相同的向量空间中，并通过计算向量之间的相似度来快速找到与查询最相关的文档。这些文档随后被传递给生成模块，生成模块则利用llm的生成能力，结合检索到的背景信息，生成连贯、准确且信息丰富的回答。

2、但是，这种问答处理方法依赖于关键词匹配和简单的语法分析，难以准确理解用户的真实意图，尤其在处理复杂或模糊查询时表现较差，同时，在处理海量数据时，信息检索效率较低，难以快速提供准确答案。

技术实现思路

1、本技术的目的在于，针对上述现有技术中的不足，提供一种融合语义图的向量数据库问答处理方法、设备及存储介质，以解决现有技术中难以准确理解用户的真实意图的问题。

2、为实现上述目的，本技术实施例采用的技术方案如下：

3、第一方面，本技术一实施例提供了一种融合语义图的向量数据库问答处理方法，所述方法包括：

4、根据多个原始文档构建向量数据库，所述向量数据库中存储有第一数据，所述第一数据包括：多个原始文档的数据，各原始文档的数据包括：与所述原始文档的文本结构对应的多个答案向量以及各所述答案向量的位置信息，所述位置信息用于指示所述答案向量在所述原始文档中对应的位置；

5、根据所述向量数据库，构建语义数据库，所述语义数据库中存储有第二数据，所述第二数据包括：所述向量数据库中各答案向量两两之间的相似度、各所述答案向量以及各所述答案向量的所述位置信息；

6、对用户输入的待查询问题进行向量化处理，得到待查询向量；

7、根据所述向量数据库中存储的所述第一数据，和/或，所述语义数据库中存储的所述第二数据，检索得到所述待查询向量对应的答案文本；

8、根据所述答案文本以及预先训练得到的大模型，生成待查询问题的目标答案。

9、在一种可能的实现方式中，所述根据所述向量数据库中存储的所述第一数据，和/或，所述语义数据库中存储的所述第二数据，检索得到所述待查询向量对应的答案文本，包括：

10、根据所述向量数据库中存储的所述第一数据，从所述向量数据库中检索得到所述待查询向量对应的至少一个第一中间向量，并根据各所述第一中间向量的位置信息，确定与各所述第一中间向量位置相关的至少一个第二中间向量，将各所述第一中间向量以及各所述第二中间向量分别作为一个目标中间向量并加入目标中间向量集合中；

11、根据所述待查询向量、所述目标中间向量集合以及所述语义数据库中存储的所述第二数据，从所述语义数据库中检索得到所述待查询向量对应的答案文本。

12、在一种可能的实现方式中，所述根据各第一中间向量的位置信息，确定与各所述第一中间向量位置相关的至少一个第二中间向量，包括：

13、确定所述第一中间向量在所述原始文档中的层级；

14、根据所述第一中间向量在所述原始文档中的层级，确定与所述第一中间向量位置相关的至少一个第二中间向量。

15、在一种可能的实现方式中，所述根据所述待查询向量、所述目标中间向量集合以及所述语义数据库中存储的所述第二数据，从所述语义数据库中检索得到所述待查询向量对应的答案文本，包括：

16、根据所述语义数据库中存储的所述第二数据，基于路径搜索算法确定所述目标中间向量集合的路径搜索结果，所述路径搜索结果包括：至少一个路径，各所述路径中包括依次相邻的至少一个节点，其中，路径上的各节点分别用于表征所述语义数据库中的一个答案向量；

17、根据所述路径搜索结果，确定各所述路径上的各节点与所述待查询向量的距离；

18、根据各节点与所述待查询向量的距离以及所述第二数据，确定所述待查询向量对应的答案文本。

19、在一种可能的实现方式中，所述根据所述语义数据库中存储的所述第二数据，基于路径搜索算法确定所述目标中间向量集合的路径搜索结果，包括：

20、a、从所述目标中间向量集合中确定当前节点；

21、b、根据所述第二数据，确定与所述当前节点之间的相似度满足预设条件的至少一个目标向量，将所述目标向量加入当前节点对应的路径中，得到所述当前节点对应的路径，并重新执行a；

22、c、循环执行a-b，直至所述目标中间向量集合中所有的向量均已作为当前节点。

23、在一种可能的实现方式中，所述根据各节点与所述待查询向量的距离以及所述第二数据，确定所述待查询向量对应的答案文本，包括：

24、对各节点与所述待查询向量的距离进行排序，根据排序结果以及所述第二数据，确定所述待查询向量对应的答案文本。

25、在一种可能的实现方式中，所述根据排序结果以及所述第二数据，确定所述待查询向量对应的答案文本，包括：

26、根据排序结果，确定满足第一相似度条件的至少一个目标答案向量；

27、根据满足第一相似度条件的目标答案向量，确定所述待查询向量对应的答案文本。

28、在一种可能的实现方式中，所述根据所述向量数据库中存储的所述第一数据，和/或，所述语义数据库中存储的所述第二数据，检索得到所述待查询向量对应的答案文本，包括：

29、从所述语义数据库中随机抽取多个答案向量组成随机向量集合；

30、根据所述随机向量集合以及所述语义数据库中存储的所述第二数据，从所述语义数据库中检索得到所述待查询向量对应的答案文本。

31、第二方面，本技术另一实施例提供了一种融合语义图的向量数据库问答处理装置，所述装置包括：

32、第一构建模块，用于根据多个原始文档构建向量数据库，所述向量数据库中存储有第一数据，所述第一数据包括：多个原始文档的数据，各原始文档的数据包括：与所述原始文档的文本结构对应的多个答案向量以及各所述答案向量的位置信息，所述位置信息用于指示所述答案向量在所述原始文档中对应的位置；

33、第二构建模块，用于根据所述向量数据库，构建语义数据库，所述语义数据库中存储有第二数据，所述第二数据包括：所述向量数据库中各答案向量两两之间的相似度、各所述答案向量以及各所述答案向量的所述位置信息；

34、向量化模块，用于对用户输入的待查询问题进行向量化处理，得到待查询向量；

35、检索模块，用于根据向量数据库中存储的所述第一数据，和/或，所述语义数据库中存储的所述第二数据，检索得到所述待查询向量对应的答案文本；

36、生成模块，用于根据所述答案文本以及预先训练得到的大模型，生成待查询问题的目标答案。

37、在一种可能的实现方式中，所述检索模块，具体用于：

38、根据向量数据库中存储的所述第一数据，从所述向量数据库中检索得到所述待查询向量对应的至少一个第一中间向量，并根据各第一中间向量的位置信息，确定与各所述第一中间向量位置相关的至少一个第二中间向量，将各第一中间向量以及各第二中间向量分别作为一个目标中间向量并加入目标中间向量集合中；

39、根据所述待查询向量、所述目标中间向量集合以及所述语义数据库中存储的所述第二数据，从所述语义数据库中检索得到所述待查询向量对应的答案文本。

40、在一种可能的实现方式中，所述检索模块，具体用于：

41、确定所述第一中间向量在所述原始文档中的层级；

42、根据所述第一中间向量在所述原始文档中的层级，确定与所述第一中间向量位置相关的至少一个第二中间向量。

43、在一种可能的实现方式中，所述检索模块，具体用于：

44、根据所述语义数据库中存储的所述第二数据，基于路径搜索算法确定所述目标中间向量集合的路径搜索结果，所述路径搜索结果包括：至少一个路径，各路径中包括依次相邻的至少一个节点，其中，路径上的各节点分别用于表征所述语义数据库中的一个答案向量；

45、根据所述路径搜索结果，确定各路径上的各节点与所述待查询向量的距离；

46、根据各节点与所述待查询向量的距离以及所述第二数据，确定所述待查询向量对应的答案文本。

47、在一种可能的实现方式中，所述检索模块，具体用于：

48、a、从所述目标中间向量集合中确定当前节点；

49、b、根据所述第二数据，确定与所述当前节点之间的相似度满足预设条件的至少一个目标向量，将所述目标向量加入当前节点对应的路径中，得到所述当前节点对应的路径，并重新执行a；

50、c、循环执行a-b，直至所述目标中间向量集合中所有的向量均已作为当前节点。

51、在一种可能的实现方式中，所述检索模块，具体用于：

52、对各节点与所述待查询向量的距离进行排序，根据排序结果以及所述第二数据，确定所述待查询向量对应的答案文本。

53、在一种可能的实现方式中，所述检索模块，具体用于：

54、根据排序结果，确定满足第一相似度条件的至少一个目标答案向量；

55、根据满足第一相似度条件的目标答案向量，确定所述待查询向量对应的答案文本。

56、在一种可能的实现方式中，所述检索模块，具体用于：

57、从所述语义数据库中随机抽取多个答案向量组成随机向量集合；

58、根据所述随机向量集合以及所述语义数据库中存储的所述第二数据，从所述语义数据库中检索得到所述待查询向量对应的答案文本。

59、第三方面，本技术另一实施例提供了一种电子设备，包括：处理器、存储介质和总线，所述存储介质存储有所述处理器可执行的机器可读指令，当电子设备运行时，所述处理器与所述存储介质之间通过总线通信，所述处理器执行所述机器可读指令，以执行如上述第一方面任一所述方法的步骤。

60、第四方面，本技术另一实施例提供了一种存储介质，所述存储介质上存储有计算机程序，所述计算机程序被处理器运行时执行如上述第一方面任一所述方法的步骤。

61、本技术的有益效果是：通过多个原始文档构建得到存储有第一数据的向量数据库，并通过向量数据库，构建得到存储有第二数据的语义数据库，能够对多个原始文档中的答案向量以及各答案向量之间的关联关系进行存储，在此基础上，对用户输入的待查询问题进行向量化处理，得到待查询向量，并根据向量数据库中存储的第一数据，和/或，语义数据库中存储的第二数据，检索得到待查询向量对应的答案文本，从而能够根据答案文本以及预先训练得到的大模型，生成待查询问题的目标答案。本技术使得在对用户输入的待查询问题进行检索时，可以从向量数据库和/或语义数据库中检索得到对应的答案文本，提高得到答案文本过程中的灵活性，并且不再局限于关键词匹配与简单的语法分析，能够提高得到的答案文本的准确性。

62、同时，由于在向量数据库中存储有与原始文档的文本结构对应的多个答案向量以及各答案向量的位置信息，且语义数据库中存储有各答案向量以及各答案向量的位置信息，使得能够对原始文档的文本结构进行整体表征，从而使得检索得到的答案文本中，包括有原始文档中的图片或公式等其他内容，从而使得答案文本的丰富程度以及准确度得到保证。

63、此外，通过在语义数据库中，使用相似度或距离对各答案向量之间的关联关系进行表征，能够对多个原始文档之间的联系进行考虑，使得可以得到与待查询问题相关的更多以及更全面的答案文本，能够对单个文本切片与全域文本切片的深层联系进行体现，提供了超越向量数据库的广度搜索能力，不但能够提高得到的答案文本的准确性，还能提高得到的答案文本的全面性，在处理复杂或模糊查询时也能得到准确的答案文本。