技术新讯 > 计算推算,计数设备的制造及其应用技术 > 大语言模型的经验迭代精炼方法、装置及设备 > 正文

大语言模型的经验迭代精炼方法、装置及设备

国知局
2024-08-30 15:04:12

本发明涉及自然语言处理，尤其涉及一种大语言模型的经验迭代精炼方法、装置及设备。

背景技术：

1、在人工智能领域的不断发展中，大型语言模型(llms)在众多领域带来了变革性的影响，展示了类人智能的巨大潜力。尽管它们的能力令人印象深刻，但在处理超出简单聊天范畴的复杂情境时，这些模型显示出其独立能力的某些局限性。在llms不断进步的推动下，具有上下文记忆能力、多步骤规划能力和外部工具使用能力的基于llms的自主智能体应运而生，显著提升了llms的能力。此外，另一个重大进展是多个智能体之间合作的整合。通过将任务分解为多个子任务、智能体之间进行多轮对话，协作地为任务提供一个连贯和自动化的解决方案，实现了自主性的显著提升，并大大减少了对人类参与的依赖。llms能力的不断提升扩展了它们有效管理更广泛复杂任务的能力，包括数学推理、软件开发、游戏玩法、社会模拟和科学研究等领域。其中，以软件开发为代表性场景的研究正在涌现，因为其复杂性要求结合自然语言和编程语言技能，持续性通常需要对编码进行深入理解和连续的修改，以及代码的清晰度可以提供可量化的度量。

2、随着大模型和智能体的发展，最近的一个重大突破是使智能体从先前的任务中积累经验。代表性方法通过对历史任务重演，从中提取经验并进行记忆，以此在未见任务中通过经验样本检索来高效解决任务。这些智能体通过积累经验，有效避免了重复错误和不必要的试错过程，减少了额外人工参与的需要。

3、然而，现有技术的经验往往是使用启发式规则一次性生成的。这种方法限制了智能体动态适应软件开发等复杂任务的能力，因为其缺乏能够持续适应新任务所需的动态更新机制。

技术实现思路

1、本发明提供了一种大语言模型的经验迭代精炼方法、装置及设备，解决了现有大模型生成软件在未见任务中的适应能力差、生成效率低下、准确率低的问题。

2、一种大语言模型的经验迭代精炼方法，包括：

3、从各批次任务执行过程中抽取经验；

4、根据所述经验确定不同批次任务之间传递经验的范式；

5、根据抽取的经验形成经验池，对所述经验池中综合得分低于预设阈值的经验进行删除，将所述经验池中剩余的经验作为高质量经验保留。

6、在本发明的一种实施例中，在各批次的任务执行过程中，通过指示智能体生成指令序列，通过回应智能体生成解决方案序列；其中，解决方案序列中的每个解决方案具有与其相对应的节点；根据所述指令序列和所述解决方案序列确定有向的任务执行链；遍历所述任务执行链中的非相邻节点对，获取所有非相邻节点对之间的经验作为捷径经验。

7、在本发明的一种实施例中，在各批次的任务执行过程中，所述方法还包括：在指示智能体和回应智能体的每次交互中，当指示智能体接收到一个当前解决方案时，将所述当前解决方案作为询问查询与所述当前解决方案的语义匹配度超过第一预设阈值的过往指令；将所述过往指令作为少样本示例进行上下文推理，生成一个经验增强的新指令传递至回应智能体；当回应智能体接收到所述新指令后，将所述新指令作为询问查询与所述新指令的语义匹配度超过第二预设阈值的过往方案；将所述过往方案作为少样本示例进行上下文推理，生成一个经验增强的新解决方案；将每次交互中生成的新指令和新解决方案作为一个元组，以供未见任务利用。

8、在本发明的一种实施例中，所述不同批次任务之间传递经验的范式包括连续模式和累积模式。

9、在本发明的一种实施例中，所述连续模式为：当智能体执行当前任务流时，获取在前一个任务流执行任务时生成的以往经验并使用，生成与当前任务流对应的经验；当智能体执行后一个任务流时，获取在当前任务流执行任务时生成的经验作为以往经验并使用，生成与后一个任务流对应的经验。

10、在本发明的一种实施例中，所述累积模式为：当智能体在执行当前任务流时，获取经验池中执行所有先前任务流时生成的经验作为以往经验并使用，生成与当前任务流对应的经验。

11、在本发明的一种实施例中，所述根据抽取的经验形成经验池，对所述经验池中综合得分低于预设阈值的经验进行删除，具体包括：对所述经验池中的在软件优化过程中表现出信息增益不低于第三预设阈值的连接非相邻结点的捷径经验进行识别并保留，将信息增益低于所述第三预设阈值的连接非相邻结点的捷径经验进行删除；对所述经验池中使用频率不低于第四预设阈值的经验进行保留，将低于第四预设阈值的经验进行删除。

12、一种大语言模型的经验迭代精炼装置，包括：

13、经验获取及利用模块，用于从各批次任务执行过程中抽取经验；

14、经验迭代模块，用于根据所述经验确定不同批次任务之间传递经验的范式；

15、经验过滤模块，用于根据抽取的经验形成经验池，对所述经验池中综合得分低于预设阈值的经验进行删除，将所述经验池中剩余的经验作为高质量经验保留。

16、一种大语言模型的经验迭代精炼设备，包括：

17、至少一个处理器；以及，

18、与所述至少一个处理器通过总线通信连接的存储器；其中，

19、所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被执行，以实现如上述各实施例任一项所述的方法。

20、一种非易失性存储介质，存储有计算机可执行指令，所述计算机可执行指令由处理器执行，以实现如上述各实施例任一项所述的方法。

21、本发明提供了一种大语言模型的经验迭代精炼方法、装置及设备，至少包括以下有益效果：

22、1.增强学习效率：通过经验迭代和经验过滤，使大模型在软件开发过程中能够更快地学习和适应新的任务。这种方法可以减少跨任务经验传播时可能出现的复杂规则和计算负担，有效帮助多智能体动态地适应任务流以进行高效的群智推理，从而提高了整体学习效率。

23、2.经验累积与应用：大模型不仅能够从当前任务中学习，还能利用之前的经验来解决新问题。这种经验的累积和应用使得大模型在面对新的挑战时更加高效和准确。

24、3.错误减少与性能提升：随着经验池中的经验不断迭代过滤，绝大多数低质量经验被消除，减少了使用低质量经验的可能性。

25、4.适应性和灵活性：相比于一次性生成所有静态经验，通过不断对经验池进行迭代，动态更新经验来适应不断变化的未见任务，使大模型具有更高的适应性和灵活性。

26、5.提高经验空间利用率：通过对经验信息增益和使用频率的两层过滤，显著降低了大模型对于经验空间的需求，提高了经验的空间利用率。

技术特征：

1.一种大语言模型的经验迭代精炼方法，其特征在于，包括：

2.根据权利要求1所述的大语言模型的经验迭代精炼方法，其特征在于，在各批次的任务执行过程中，通过指示智能体生成指令序列，通过回应智能体生成解决方案序列；其中，解决方案序列中的每个解决方案具有与其相对应的节点；

3.根据权利要求2所述的大语言模型的经验迭代精炼方法，其特征在于，在各批次的任务执行过程中，所述方法还包括：

4.根据权利要求1所述的大语言模型的经验迭代精炼方法，其特征在于，所述不同批次任务之间传递经验的范式包括连续模式和累积模式。

5.根据权利要求4所述的大语言模型的经验迭代精炼方法，其特征在于，所述连续模式为：当智能体执行当前任务流时，获取在前一个任务流执行任务时生成的以往经验并使用，生成与当前任务流对应的经验；

6.根据权利要求4所述的大语言模型的经验迭代精炼方法，其特征在于，所述累积模式为：

7.根据权利要求2所述的大语言模型的经验迭代精炼方法，其特征在于，所述根据抽取的经验形成经验池，对所述经验池中综合得分低于预设阈值的经验进行删除，具体包括：

8.一种大语言模型的经验迭代精炼装置，其特征在于，包括：

9.一种大语言模型的经验迭代精炼设备，其特征在于，包括：

10.一种非易失性存储介质，存储有计算机可执行指令，其特征在于，所述计算机可执行指令由处理器执行，以实现如权利要求1-7任一项所述的方法。

技术总结本发明涉及自然语言处理领域，公开了一种大语言模型的经验迭代精炼方法、装置及设备，该方法包括：从各批次任务执行过程中抽取经验；根据所述经验确定不同批次任务之间传递经验的范式；根据抽取的经验形成经验池，对所述经验池中综合得分低于预设阈值的经验进行删除，将所述经验池中剩余的经验作为高质量经验保留。本发明解决了现有大模型生成软件在未见任务中的适应能力差、生成效率低下、准确率低的问题。技术研发人员：孙茂松,刘知远,钱忱,李嘉豪,党余凡受保护的技术使用者：清华大学技术研发日：技术公布日：2024/8/27