技术新讯 > 计算推算,计数设备的制造及其应用技术 > 基于大语言模型的反应式规划方法及系统  >  正文

基于大语言模型的反应式规划方法及系统

  • 国知局
  • 2024-08-22 14:49:46

本发明涉及人工智能与机器人任务规划交叉,尤其涉及一种基于大语言模型的反应式规划方法、系统、存储介质及电子设备。

背景技术:

1、机器人任务规划问题,主要研究如何让机器人在相对静态的环境下生成动作序列并执行,以完成用户命令对应的任务目标,目前已有许多经典规划方法用以解决该问题。然而在现实生活中,环境常常受到人类、设备或者智能体的影响而变得高度多变。这种多变性包括:(1)物体位置的变化。例如,水杯从餐桌上被转移到了冰箱里。(2)物体属性的变化,例如,微波炉开关的启动和停止。这些变化会对处于当前环境中的机器人的任务执行造成不同的影响。它们可能不造成任何影响,比如当机器人在打开微波炉时把冰箱门打开,此时机器人正常执行计划的下一步动作。它们可能会造成促进性影响,比如当机器人打算加热食物时发现食物已经是热的了,此时机器人需要从计划中将加热食物部分的动作移除。它们还有可能会造成阻碍性影响,比如当机器人即将把物体放入冰箱时忽然把冰箱门关上,这种复杂情况下,机器人需要进行动作的移除、添加等以得到新计划。综上,机器人要能够评估环境变化对任务执行的影响,然后围绕任务目标去调整当前的计划以适应这些变化。因此,如何解决机器人在多变环境下完成用户任务的问题(反应式规划问题)变得非常重要。

2、如何建模再规划逻辑是解决反应式规划问题的核心,目前研究该问题的方法大致可以分为两大类:第一类是基于脚本的方法,最经典的是反应式行为树。这类方法显式地建模再规划的逻辑规则,如动作的前置条件、后置条件,然后通过确定性的算法或过程基于这些逻辑规则做推理来进行再规划。然而,这些方法需要大量事先的人为定义,并且缺乏对复杂情境下各种各样环境变化的灵活性适应。后来随着机器学习技术的快速发展,第二类基于学习的方法也就不断涌现,它们通过机器学习尤其是深度学习技术(如强化学习)来隐式地建模再规划的逻辑。虽然这类方法不需要大量精细的人为预定义规则,但是它们大多是数据驱动的,非常依赖规模较大、分布均衡的训练数据集以及精心设计的学习策略来保证再规划的性能。这种高质量数据集往往难以获取,合适的学习策略也需要不断的人为尝试才可能探索出来。此外,基于学习的方法对于训练期间未见过的新环境变化无法顺利迁移。

3、近几年,随着llms(large language models,大语言模型)的诞生和发展,反应式规划问题的解决找到了新的思路。由于llms在预训练阶段已经学习了海量的世界语义知识,包括生活常识、学科知识等,它们可以很自然地用于解决日常规划问题,既不需要大量人为预定义也不需要额外训练。近两年已有一小部分提出的工作基于llms解决动作执行失败、环境状态不确定等反应式规划子问题。内部独白(inner monologue)是由谷歌机器人团队以人类的“内心独白”为灵感所提出来的方法。在该方法中,llms一边和其他信息反馈模块用文本进行交流以获取任务执行进展和环境状态的信息,一边预测下一个要执行的动作。文中提到的其他模块包括:提供动作执行状态的成功检测器(success detector)、提供视觉观测中可交互物体列表的被动环境描述模块(passive scene description),以及按llms需求提供答案的主动环境描述模块(active scene description)。如果成功检测器判断当前动作执行失败,该方法会重新执行该动作,如果环境中出现了物体位置或状态的改变,该方法可以通过llms提问的方式从主动环境描述模块获取环境的最新状态信息。然而,该方法中llms与其他模块的交谈过程难以控制,会存在llms不主动获取环境状态的情况,这导致llms忽略了重要的反馈信息进而做出错误的决策。

4、程序提示词(prog-prompt)是由英伟达团队参与提出的类程序化规划方法。它利用了llms强大的代码编写能力,将机器人规划出动作序列的过程视为用类python语言编写一个任务完成函数的过程,函数体中包含断言(assert)语言。断言机制让程序提示词生成的是有多个分支的树状计划,而不是一个线性计划,每个分支都对应一个对某种环境状态不确定性的思考。例如机器人即将把苹果放入冰箱时,首先通过断言判断冰箱门是不是开着的,如果是开着则执行放入,如果不是则需要先打开冰箱门。然而,该方法生成的计划是固定的,不能进行后续的动态调整,这导致机器人无法应对未被断言覆盖到的环境变化。

5、cape(contrastive parameter ensembling,对比参数集成)是由布朗大学提出来的基于动作执行条件判别进行再规划的方法。它认为每个动作的执行都有需要满足的前置条件,当环境状态满足该条件才能执行动作,如果不满足则重新预测下一个动作。它首先定义了一张动作前置条件错误类型表,里面罗列了一些机器人最有可能遇到的动作前置条件不满足的情况,然后将这些错误类型用文字描述成引导性的话传给llms,最后由llms规划新动作是什么。然而,该方法只将当前动作的前置条件作为唯一依据来控制再规划,忽略了其他与当前动作无关却会导致任务失败的重要环境信息。例如,一个机器人被要求将干净的苹果放入碗中,当它打算放入刚洗净的苹果时,苹果再一次被弄脏了,cape会因为“放入”动作可以正常执行而忽略了苹果的干净程度从而导致任务失败。

6、另外,llms的易幻想问题已被自然语言处理、机器人任务规划等多个领域的文章证实。这种幻想表现在:会忽略机器人配置和环境信息的强约束导致生成的计划不符合实际情况,会忽略部分因素对任务执行的影响导致计划调整不充分,推理过程中会假想不存在的东西导致计划调整策略不合理,忽略计划调整的规范化导致最终生成的新计划无法被执行。因此,如何克服llms的幻想,同时充分发挥它们强大的语言理解和逻辑推理能力是基于llms解决反应式规划问题的难点。

7、综上可知,现有技术在实际使用上显然存在不便与缺陷,所以有必要加以改进。

技术实现思路

1、针对上述的缺陷,本发明的目的在于提供一种基于大语言模型的反应式规划方法、系统、存储介质及电子设备,能够实现低成本、高准确率和高泛化性的机器人反应式规划。

2、为了解决上述技术问题,本发明是这样实现的:

3、第一方面,本发明实施例提供了一种基于大语言模型的反应式规划方法,包括:

4、再规划逻辑的设计步骤,所述再规划逻辑包括多步逻辑和三跳逻辑,所述多步逻辑包括分多个步骤逐步分析各个因素对完成任务目标的影响,并链式更新当前计划;所述三跳逻辑包括每一步中都采用原因分析逻辑、结论推导逻辑和计划调整逻辑的推理逻辑;

5、再规划提示词的设计步骤,所述再规划提示词包括问题陈述、约束陈述和案例演示;

6、计划初始化步骤,接收用户命令,根据所述用户指令生成初始化计划,存储所述初始化计划,并记录当前计划的计划进展信息;

7、迭代更新步骤,通过机器人检测并捕捉当前的环境变化信息,根据所述环境变化信息、所述计划进展信息、所述用户指令、所述再规划提示词和所述再规划逻辑,进行计划的迭代更新,本步骤循环进行直到所述任务目标完成为止。

8、根据本发明所述的反应式规划方法,所述原因分析逻辑包括:通过大语言模型评估所述环境变化是否对当前计划有影响,分析所述当前计划需要继续调整的计划调整原因;

9、所述结论推导逻辑包括:根据所述原因分析给出的所述计划调整原因推导出计划调整措施;

10、所述计划调整逻辑包括:根据结论推导推断出的计划调整措施,对所述当前计划进行调整并得到新的计划。

11、根据本发明所述的反应式规划方法,所述原因分析逻辑进一步包括:

12、所述大语言模型检查最新的上一步调整得到的计划是否可以作为最终新的计划,如果不能,找出原因并识别哪些反馈信息还未被考虑;

13、所述计划调整逻辑进一步包括:

14、如果所有类型的反馈信息都已被全面考虑,则将这个调整后的所述新的计划作为最终计划输出。

15、根据本发明所述的反应式规划方法,所述用户指令为自然语言形式,所述初始化计划为文本格式;

16、所述计划进展信息包括:所述当前计划的已完成部分信息和未完成部分信息。

17、根据本发明所述的反应式规划方法,所述通过机器人检测并捕捉环境变化信息的步骤包括:

18、在所述机器人与环境交互的阶段,通过所述机器人检测并捕捉环境状态信息和所述环境变化信息,并将所述环境状态信息和所述环境变化信息用自然语言描述转化为文本数据。

19、根据本发明所述的反应式规划方法,所述进行计划的迭代更新的步骤之后包括:

20、从所述新的计划中提取出动作序列并执行。

21、根据本发明所述的反应式规划方法,所述问题陈述用间接语言描述了所述大语言模型要完成的任务,包括应该如何完成任务并告知所述再规划提示词的下文内容分别是什么;

22、所述约束陈述用类似编程的声明语句描述了环境中所有可交互的物体,以及所述机器人对所述物体的可执行操作;

23、所述案例演示,用于显式地列举了若干个案例,并按照预定的输出格式输出分析过程和调整后的所述新的计划。

24、第二方面,本发明实施例提供了一种基于大语言模型的反应式规划系统,其特征在于,包括:

25、再规划逻辑的设计模块,用于设计再规划逻辑,所述再规划逻辑包括多步逻辑和三跳逻辑,所述多步逻辑包括分多个步骤逐步分析各个因素对完成任务目标的影响,并链式更新当前计划;所述三跳逻辑包括每一步中都采用原因分析逻辑、结论推导逻辑和计划调整逻辑的推理逻辑;

26、再规划提示词的设计模块,用于设计再规划提示词,所述再规划提示词包括问题陈述、约束陈述和案例演示;

27、计划初始化模块,用于接收用户命令,根据所述用户指令生成初始化计划,存储所述初始化计划,并记录当前计划的计划进展信息;

28、迭代更新模块,用于通过机器人检测并捕捉当前的环境变化信息,根据所述环境变化信息、所述计划进展信息、所述用户指令、所述再规划提示词和所述再规划逻辑,进行计划的迭代更新,本步骤循环进行直到所述任务目标完成为止。

29、第三方面,本发明还提供一种存储介质,其特征在于,用于存储一种用于执行上述任一项所述的基于大语言模型的反应式规划方法的计算机程序。

30、第四方面,本发明还提供一种电子设备,包括存储介质、处理器以及存储在所述存储器上并可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现上述任一项所述的基于大语言模型的反应式规划方法。

31、在本发明实施例中,本发明提出了一种基于llms的机器人反应式规划方法,首先设计再规划逻辑,包括多步逻辑和三跳逻辑,所述多步逻辑包括分多个步骤逐步分析各个因素对完成任务目标的影响,并链式更新当前计划;所述三跳逻辑包括每一步中都采用原因分析逻辑、结论推导逻辑和计划调整逻辑的推理逻辑。其后,设计规划提示词,包括问题陈述、约束陈述和案例演示。然后,接收用户命令,根据用户指令生成初始化计划,存储初始化计划,并记录当前计划的计划进展信息;此后,通过机器人检测并捕捉当前的环境变化信息,根据环境变化信息、计划进展信息、用户指令、再规划提示词和再规划逻辑,进行计划的迭代更新,本步骤循环进行直到任务目标完成为止。借此,本发明解决了机器人在多变环境中动态调整计划以适应各种环境变化并保证任务完成的反应式规划问题,低成本实现再规划的高准确率以及任务目标完成的高成功率。其次,本发明对新场景、新任务的泛化性强。

本文地址:https://www.jishuxx.com/zhuanli/20240822/280037.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。