技术新讯 > 计算推算,计数设备的制造及其应用技术 > 基于思维树的大语言模型的推理方法及装置与流程  >  正文

基于思维树的大语言模型的推理方法及装置与流程

  • 国知局
  • 2024-10-09 15:01:20

本技术涉及人工智能,尤其涉及一种基于思维树的大语言模型的推理方法及装置。

背景技术:

1、随着人工智能技术的飞速发展,大语言模型(large language model,llm)及其在自然语言处理领域的应用成为了研究重点。大语言模型不仅能够生成自然语言文本,还能够深入理解文本含义,处理各种自然语言任务,如文本摘要、问答、翻译等。

2、传统的大语言模型在进行推理时往往缺乏逻辑性和连贯性,难以模拟人类思维的层次结构,这就导致大语言模型的推理的准确性和效率较低。为解决这一问题,相关技术中提出了一种基于思维链的智能问答方法,通过构建推理链来引导大语言模型进行推理,对大语言模型生成的推理结果进行补充和优化,从而生成最终的答案。

3、但是,思维链虽然能够对推理过程进行刻画,但其难以充分表达复杂推理的层次性,会影响到大语言模型在推理过程中的连贯性和准确性。

技术实现思路

1、本技术提供一种基于思维树的大语言模型的推理方法及装置,用于提高大语言模型在推理过程中的连贯性和准确性。

2、第一方面,本技术提供一种基于思维树的大语言模型的训练方法,所述方法包括:

3、s1,将第一问题输入至大语言模型,得到第二问题;所述第一问题是原始自然语言问题,所述第二问题是所述大语言模型对所述第一问题进行判断后得到的待推理问题;

4、s2,所述大语言模型根据所述第二问题构建第一思维树,所述第一思维树包括根节点和多个子节点;其中,所述根节点为所述第二问题,每个所述子节点均为与所述第二问题相关的子问题;

5、s3,对于每个所述子节点,将所述子节点与所述根节点进行拼接,作为第三问题输入至所述大语言模型进行评分,得到评分结果;

6、s4,根据所述评分结果,确定保留所述子节点或者剪枝所述子节点;

7、s5,重复执行s2至s4,直至达到预设停止条件,得到第二思维树;

8、s6,将所述第二思维树中评分最高的子节点对应的内容确定为最终推理结果。

9、在第一方面的一种可能设计中,所述将第一问题输入至大语言模型,得到第二问题,包括:

10、将所述第一问题输入至所述大语言模型;

11、所述大语言模型对所述第一问题是否适合推理进行判断;

12、在所述第一问题适合推理时,输出所述第二问题;

13、在所述第一问题不适合推理时,输出所述第一问题不适合推理的结果。

14、在第一方面的一种可能设计中,所述大语言模型根据所述第二问题构建第一思维树,包括:

15、所述大语言模型根据所述第二问题,生成多个与所述第二问题相关的子问题;

16、以所述第二问题为所述根节点,并以多个所述子问题为子节点,根据预设思维树生成框架,构建所述第一思维树。

17、在第一方面的一种可能设计中,所述大语言模型根据所述第二问题,生成多个与所述第二问题相关的子问题,包括:

18、所述大语言模型根据所述第二问题以及预设提示词,生成多个与所述第二问题相关的子问题。

19、在第一方面的一种可能设计中,所述大语言模型根据所述第二问题,生成多个与所述第二问题相关的子问题,包括:

20、所述大语言模型根据所述第二问题和预设温度采样策略,生成多个与所述第二问题相关的子问题。

21、在第一方面的一种可能设计中,所述将所述子节点与所述根节点进行拼接,作为第三问题输入至所述大语言模型进行评分,得到评分结果,包括:

22、将所述子节点的内容与所述根节点的内容进行拼接,作为第三问题输入至所述大语言模型;

23、所述大语言模型对所述子节点的内容与所述根节点的内容之间的相关性和可靠性分别进行评分,得到相关性评分和可靠性评分;

24、将所述相关性评分和所述可靠性评分确定为所述评分结果。

25、在第一方面的一种可能设计中,所述根据所述评分结果,确定保留所述子节点或者剪枝所述子节点,包括:

26、在所述评分结果中的所述相关性评分大于相关性阈值,且所述可靠性评分大于可靠性阈值的情况下,确定保留所述子节点;

27、在所述评分结果中的所述相关性评分小于或等于所述相关性阈值,或者,所述可靠性评分小于或等于所述可靠性阈值的情况下,确定剪枝所述子节点。

28、在第一方面的一种可能设计中,所述剪枝所述子节点,包括:

29、判断所述子节点是否满足预设剪枝条件;

30、在所述子节点满足所述预设剪枝条件的情况下,将所述子节点所在的子树从所述第一思维树中整体移除;

31、在所述子节点不满足所述预设剪枝条件的情况下,保留所述子节点所在的子树。

32、第二方面,本技术提供一种基于思维树的大语言模型的推理装置,所述装置包括:

33、输入模块,用于将第一问题输入至大语言模型,得到第二问题;所述第一问题是原始自然语言问题,所述第二问题是所述大语言模型对所述第一问题进行判断后得到的待推理问题;

34、构建模块,用于所述大语言模型根据所述第二问题构建第一思维树,所述第一思维树包括根节点和多个子节点;其中,所述根节点为所述第二问题,每个所述子节点均为与所述第二问题相关的子问题;

35、拼接模块,用于对于每个所述子节点,将所述子节点与所述根节点进行拼接,作为第三问题输入至所述大语言模型进行评分,得到评分结果;

36、第一确定模块,用于根据所述评分结果,确定保留所述子节点或者剪枝所述子节点;

37、触发模块,用于触发所述构建模块的处理,直至达到预设停止条件,得到第二思维树;

38、第二确定模块,用于将所述第二思维树中评分最高的子节点对应的内容确定为最终推理结果。

39、第三方面,本技术提供一种计算机设备,包括:收发器,处理器,以及与所述处理器通信连接的存储器;

40、所述存储器存储计算机执行指令;

41、所述处理器执行所述存储器存储的计算机执行指令,以实现如第一方面中任一项所述的基于思维树的大语言模型的推理方法。

42、第四方面,本技术提供一种计算机可读存储介质,所述计算机可读存储介质中存储有计算机执行指令,所述计算机执行指令被处理器执行时用于实现如第一方面中任一项所述的基于思维树的大语言模型的推理方法。

43、第五方面,本技术提供一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现如第一方面中任一项所述的基于思维树的大语言模型的推理方法。

44、本技术提供的基于思维树的大语言模型的推理方法及装置,涉及人工智能技术领域。该方法包括:将第一问题输入至大语言模型,得到第二问题;大语言模型根据第二问题构建第一思维树,第一思维树包括根节点和多个子节点;对于每个子节点,将子节点与根节点进行拼接,作为第三问题输入至大语言模型进行评分,得到评分结果;根据评分结果,确定保留子节点或者剪枝子节点;重复执行将第二问题输入至大语言模型的处理,直至达到预设停止条件,得到第二思维树;将第二思维树中评分最高的子节点对应的内容确定为最终推理结果。通过该方案,采用树形结构建模推理过程,更符合层次化思考的特点,使得推理过程更加清晰、连贯、可解释且可回溯,能够提高推理的灵活性和纠错能力,同时,在推理过程中引入了思维树修剪机制,能够在推理过程中动态调整,平衡推理的广度和深度,从而提高了大语言模型在推理过程中的准确性。

本文地址:https://www.jishuxx.com/zhuanli/20241009/307305.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。