技术新讯 > 计算推算,计数设备的制造及其应用技术 > 在内代理语音以促进任务学习的制作方法 > 正文

在内代理语音以促进任务学习的制作方法

国知局
2024-11-21 11:54:21

背景技术：

1、本说明书总体上涉及使用神经网络控制代理。

2、神经网络是采用一层或多层非线性单元来预测针对接收到的输入的输出的机器学习模型。一些神经网络除了输出层之外还包括一个或多个隐藏层。每个隐藏层的输出被用作网络中的下一层(即，下一隐藏层或输出层)的输入。网络的每个层根据相应参数集的当前值从接收到的输入生成输出。

技术实现思路

1、本说明书描述了在一个或多个位置中的一个或多个计算机上实现为计算机程序的系统和方法，用于学习控制代理(例如，嵌入的代理)以执行任务。所描述的技术在学习时使用语言，更具体地是内部的在内代理(intra-agent)语音，并且因此能够执行涉及新对象的任务，而没有与那些对象交互的任何直接经验，即零激发(zero-shot)。

2、在一个方面，描述了一种训练动作选择神经网络系统以控制代理选择动作以在环境中执行任务的计算机实现的方法。

3、该方法涉及获取演示观察和演示动作的多模态演示数据序列。演示观察包括在演示代理在环境中执行任务时表征环境状态的图像观察，以及一个或多个自然语言观察。

4、动作选择神经网络系统被配置为处理环境的图像的嵌入和自然语言输入的嵌入，以生成用于选择要由代理执行的动作的动作选择策略输出，以及用于生成自然语言输出的语言策略输出。

5、该方法涉及使用动作选择神经网络系统来处理演示观察的嵌入，以生成用于演示观察的动作选择策略输出和语言策略输出。使用由语言策略输出定义的自然语言输出来训练动作选择神经网络系统，使得由来自动作选择神经网络系统的动作选择策略输出定义的动作被鼓励以匹配演示代理的动作。

6、使用图像字幕神经网络系统处理来自演示观察的图像观察，以生成图像观察的自然语言字幕。动作选择神经网络系统的训练涉及使用自然语言字幕来训练动作选择神经网络系统。

7、本说明书中描述的主题可以在特定实施例中实现，以便实现以下优点中的一个或多个。

8、所描述的系统和方法的实施方式模拟人类对“内部语音”的使用，即它们生成描述任务进展时的环境的语音。这可以帮助代理在学习执行任务时进行推广(generalize)。因此，系统可以在没有任何附加训练的情况下执行新任务。

9、例如，在已经被训练以移动或操纵一些对象之后，系统可以在没有涉及与该对象相关的任务的任何先前训练的情况下移动或操纵新对象，例如，在训练期间新对象没有被包括在任何任务相关指令中。使用自然语言识别新对象。系统知道新对象，因为图像字幕神经网络系统描述环境并识别对象。当系统学习执行涉及其他对象的任务时，使用该自然语言信息，使得它也可以执行涉及新对象的任务。

10、还描述了用于学习使用比一些其他方法更少的数据来生成图像的字幕的技术。这些技术可以通过依赖于图像的数据集来训练图像字幕神经网络系统，其中仅一小部分图像已经例如由人类提供字幕。通常，生成用于训练图像字幕神经网络系统的图像字幕是耗时且昂贵的。所描述的技术可以估算缺失的信息，从而有效地使用可用的信息。

11、所描述的技术的通常实现方式通过使用语言帮助理解世界来促进有效学习，并且因此可以减少训练用于控制代理的系统所需的存储器和计算资源。

12、在附图和下面的描述中阐述了本说明书的主题的一个或多个实施例的细节。根据说明书、附图和权利要求，主题的其他特征、方面和优点将变得显而易见。

技术特征：

1.一种训练动作选择神经网络系统以控制代理选择动作以在环境中执行任务的计算机实现的方法，

2.根据权利要求1所述的方法，包括：

3.根据权利要求1或2所述的方法，其中，使用所述自然语言字幕训练所述动作选择神经网络系统包括：

4.根据权利要求1、2或3所述的方法，其中，使用所述自然语言字幕训练所述动作选择神经网络系统包括：

5.根据权利要求1-4中任一项所述的方法，其中，所述动作选择神经网络系统包括耦合到存储器的变换器神经网络，并且其中，生成所述动作选择策略输出和所述语言策略输出包括：

6.根据权利要求5中任一项所述的方法，其中，所述存储器包括递归神经网络。

7.根据任一前述权利要求所述的方法，其中训练所述动作选择神经网络系统使得由来自所述动作选择神经网络系统的所述动作选择策略输出定义的动作与所述演示代理的动作匹配包括训练所述动作选择神经网络系统以优化目标函数，所述目标函数取决于由所述动作选择策略输出定义的动作的分布与由所述演示代理的动作定义的动作的分布之间的差异。

8.根据任一前述权利要求所述的方法，还包括通过以下方式训练所述图像字幕神经网络系统：

9.一种训练图像字幕神经网络系统的方法，包括：

10.根据权利要求8或9所述的方法，其中，所述解码器输出定义根据所述对应的图像字幕对所述图像观察的重建，其中，从所述成对的数据项导出的所述基础事实参考包括针对所述对应的图像字幕的所述图像观察，并且其中，使用所述监督损失训练所述解码器神经网络子系统包括使用监督损失函数进行训练，所述监督损失函数取决于所述图像观察的重建与针对所述对应的图像字幕的所述图像观察之间的差异。

11.根据权利要求8、9或10所述的方法，其中，取决于用于所述估算图像字幕的所述解码器输出的所述目标值包括第一项和第二项，所述第一项取决于通过使用所述解码器神经网络子系统处理所述估算图像字幕而生成的解码图像的可能性，所述第二项表示所述估算图像字幕的分布与定义所述图像字幕的先验概率的分布之间的差异。

12.根据权利要求8至11中任一项所述的方法，其中，所述解码器神经网络子系统包括图像分类器神经网络子系统；其中所述解码器输出定义表示从所述多模态演示数据采样的采样图像观察对应于所述对应图像字幕的所述图像观察的可能性的值；并且其中，从所述成对的数据项导出的所述基础事实参考定义所采样的图像观察何时是针对所述对应的图像字幕的所述图像观察或使用所述编码器神经网络子系统从其生成所述对应的图像字幕的图像之一。

13.根据权利要求8-12中任一项所述的方法，还包括：

14.根据权利要求12或13所述的方法，其中，所述图像分类器神经网络子系统包括图像表示神经网络和字幕表示神经网络，所述图像表示神经网络被配置为处理所述采样的图像观察以生成所述采样的图像观察的表示，所述字幕表示神经网络被配置为处理所述对应的图像字幕以生成所述对应的图像字幕的表示；所述方法还包括通过确定所述采样图像观察的表示与所述对应图像字幕的表示之间的相似性来确定所述解码器输出。

15.根据权利要求8-14中任一项所述的方法，其中，依赖于所述估算的图像字幕的解码器输出的所述目标值包括第二项，所述第二项依赖于表示所述估算图像字幕的分布与定义所述图像字幕的先验概率的分布之间的差异。

16.根据权利要求8-15中任一项所述的方法，其中，通过最大化取决于用于所述估算的图像字幕的所述解码器输出的所述目标值来训练所述编码器神经网络子系统包括：

17.根据权利要求1-8和当从属于权利要求8时的权利要求10-16中任一项所述的方法，还包括：

18.一种控制代理选择动作以在环境中执行任务的计算机实现的方法，所述方法包括：

19.根据权利要求18所述的方法，还包括，在所述时间步骤中的一个或多个处：

20.根据权利要求19所述的方法，包括：

21.根据权利要求1-8和当从属于权利要求8时的权利要求10-17中任一项所述的方法，包括：在真实世界环境的模拟中使用机械代理的模拟来训练所述动作选择神经网络系统，以使用所述动作选择神经网络系统来控制所述真实世界环境中的所述机械代理，其中，所述观察与所述真实世界环境相关，并且其中，所述动作与在所述真实世界环境中动作以执行所述任务的所述机械代理要执行的动作相关。

22.根据权利要求1-8和当从属于权利要求8时的权利要求10-20中任一项所述的方法，其中，所述代理是机械代理，所述环境是真实世界环境，所述图像观察来自感测所述真实世界环境的一个或多个图像传感器，并且所述动作用于控制在所述真实世界环境中动作的所述机械代理以执行所述任务。

23.一种被配置为选择动作以在环境中执行任务的代理系统，所述代理系统包括：

24.根据权利要求23所述的代理系统，其中所述代理是机械代理；

25.根据权利要求23或24所述的代理系统，还包括：

26.一种系统，包括一个或多个计算机和存储指令的一个或多个存储设备，所述指令在由所述一个或多个计算机执行时可操作以使所述一个或多个计算机执行权利要求1-22中任一项所述的相应方法的操作。

27.一种编码有指令的计算机存储介质，所述指令在由一个或多个计算机执行时使所述一个或多个计算机执行权利要求1-22中任一项所述的相应方法的操作。

技术总结用于学习控制所嵌入的代理执行任务的系统、方法和计算机程序。该技术在学习时使用内部的“在内代理(intra‑agent)”语音，并且因此能够执行涉及新对象的任务，而没有与那些对象交互的任何直接经验，即零激发(zero‑shot)。该技术的实施方式使用图像字幕神经网络系统来生成在训练动作选择神经网络系统时使用的自然语言字幕。技术研发人员：颜忱,F·J·卡内瓦尔,P·I·格奥尔基耶夫,A·A·桑托罗,A·A·圭,A·M·穆尔达尔,C-C·洪,J·S·艾布拉姆森,T·P·利利克拉普,G·D·韦恩受保护的技术使用者：渊慧科技有限公司技术研发日：技术公布日：2024/11/18