技术新讯 > 控制调节装置的制造及其应用技术 > 用于控制机器人的设备和方法与流程 > 正文

用于控制机器人的设备和方法与流程

国知局
2024-07-31 23:40:50

本公开涉及用于控制机器人的设备和方法。

背景技术：

1、强化学习(rl)是允许机器学习执行关于任务规范的期望行为的机器学习范式，例如，其控制要采取的动作以到达机器人导航场景中的目标位置。利用强化学习对生成这些行为的策略进行学习不同于以组成和获得训练数据的方式利用监督学习对它进行学习：尽管在监督学习中，所提供的训练数据由对策略的输入(例如，像感觉读数之类的观察结果)和期望输出(要采取的动作)的匹配对构成，但不存在在强化学习的情况下提供的固定训练数据。策略是从通过机器与其环境的交互而收集的体验数据学习的，由此，反馈(奖励)信号被提供给对在某个情境(状态)中采取的动作进行评分/评定的机器。为了有效地改进控制策略，相应强化代理应当探索其中认知不确定性较高的受控制的技术系统的状态的空间的区。因此，用于确定控制策略的训练中的认知不确定性的高效途径是期望的。

2、下文中被称作参考文献1的由brendan o’donoghue、ian osband、remi munos和volodymyr mnih在international conference on machine learning,第3836–3845页,2018年中作出的公开“the uncertainty bellman equation and exploration”描述了不确定性贝尔曼方程，其可以被视为传播跨多个时间步长的q值上的贝叶斯后验分布的不确定性(方差)的贝尔曼式关系。

3、下文中被称作参考文献2的由qizhou、houqiangli和jiewang在aaaiconferenceon artificial intelligence,第34卷,第6941–6948页,2020年4月中作出的公开“deepmodel-based reinforcement learning via estimated uncertainty and conservativepolicy optimization”描述了求解不确定性贝尔曼方程以用于得到值函数方差的上界。

技术实现思路

1、根据各种实施例，提供了一种用于训练控制策略的方法，所述方法包括：通过求解贝尔曼不确定性方程，来估计将状态与所述状态的值相关联或将状态和动作的对与所述对的值相关联的值函数的方差，其中对于多个状态中的每一个，所述贝尔曼不确定性方程的奖励函数被设置成与所述状态之后的后续状态的值的均值有关的总不确定性和所述后续状态的值的平均偶然不确定性之差，并且所述方法包括在训练中使所述控制策略偏向下述区：对于所述区，与对于其他区相比，所述估计给出所述值函数的更高方差。

2、根据各种实施例，换言之，求解不确定性贝尔曼方程以用于确定强化学习中的不确定性，其中相比于参考文献2的途径，奖励函数被设置成与下一状态的均值有关的总不确定性和平均偶然不确定性之差。关于参考文献2在不确定性贝尔曼方程中重定义奖励函数允许得到针对值函数方差的严格估计(而不是仅上界)。因此，可以获得更精确方差估计，其可以用于探索(例如，凭借通过乐观优化来确定策略)，以实现用于表格强化学习rl的探索中的更低总遗憾和更好采样效率，并在针对连续控制任务的学习期间提高采样效率和稳定性。

3、特别地，基于值函数方差的该估计来在训练中使策略偏向具有高值函数方差的区，即，当探索允许实现更高效训练(即，可以要求更少回合(episode)以实现相同控制质量，或者可以找到在实际应用中表现更好的更好控制策略)时，如该估计所给出的那样相比于分别具有值函数的低方差的状态或状态和动作的对而优选分别具有值函数的高方差的状态或状态和动作的对。

4、根据各种实施例，奖励函数是局部不确定性奖励函数。不确定性贝尔曼方程的解是值函数的方差。

5、以下，给出各种示例。

6、示例1是如上所描述的方法。

7、示例2是示例1的方法，其中所述值函数是状态值函数，并且，在训练中使所述控制策略偏向状态空间的下述区：对于所述区，与对于所述状态空间的其他区相比，所述估计给出状态的值的更高方差，或者，其中所述值函数是状态-动作值函数，并且在训练中使所述控制策略偏向状态-动作对的空间的下述区：对于所述区，与对于状态-动作对的空间的其他区相比，所述估计给出状态和动作的对的值的更高方差。

8、所以，该途径可以与状态值函数以及用于选择用于探索的训练中的动作的状态-动作值函数一起操作。可以通过不仅考虑在选择动作时状态或状态动作对的值而且考虑其(所估计的)值函数方差，来完成偏向。

9、示例3是示例1或2的方法，包括：将与所述状态之后的后续状态的值的均值有关的不确定性设置成所述后续状态的值的均值的方差的估计；以及将所述平均偶然不确定性设置成所述后续状态的值的方差的估计的均值。

10、因此，与后续状态的值的均值有关的不确定性和平均偶然不确定性可以是根据在训练中收集的数据容易地确定的。

11、示例4是示例1至3中任一项的方法，其中估计所述值函数的方差包括：选择多个神经网络之一，其中每个神经网络被训练以输出与对所述神经网络的状态输入之后的后续状态和从状态转移获得的奖励的概率分布有关的信息；以及根据针对状态的序列的所选择的神经网络的输出确定所述值函数。

12、这使得可能通过从多个神经网络的集合采样给出转移概率的神经网络来对转移的不确定性进行建模。特别地，以该方式，可以通过从多个神经网络进行采样来估计后续状态的方差的均值。该一个或多个神经网络可以是在训练期间从所观察到的数据(即，所观察到的转移)训练的。

13、示例5是示例1至4中任一项的方法，包括：凭借神经网络来求解所述贝尔曼不确定性方程，所述神经网络被训练以响应于状态或状态和动作值的对的输入而预测所述贝尔曼不确定性方程的解。

14、例如，在值函数是状态-动作值函数的情况下，可以使用下述神经网络：其接收状态-动作对作为输入并针对给定输入(即，状态和动作的对)而输出q值的所预测的长期方差。

15、可以针对某个回合(根据来自该回合和更早回合的数据)确定值函数的方差，并且使用该确定的结果来更新针对下一回合的控制策略。对于状态-动作值函数，例如，这可以包括对q值的乐观估计进行优化，即，可以通过添加所预测的标准差(用于求解不确定性贝尔曼方程的神经网络输出的平方根)来扩大q值。

16、示例6是一种用于控制技术系统的方法，包括：根据示例1至5中任一项来训练控制策略；以及根据经训练的控制策略来控制所述技术系统。

17、示例7是一种控制器，被配置成执行示例1至5中任一项的方法。

18、示例8是一种包括指令的计算机程序，所述指令在由计算机执行时使所述计算机执行根据示例1至5中任一项所述的方法。

19、示例9是一种包括指令的计算机可读介质，所述指令在由计算机执行时使所述计算机执行根据示例1至5中任一项所述的方法。

技术特征：

1.一种用于训练控制策略的方法，包括：

2.如权利要求1所述的方法，其中所述值函数是状态值函数，并且，在训练中使所述控制策略偏向状态空间的下述区：对于所述区，与对于所述状态空间的其他区相比，所述估计给出状态的值的更高方差，或者，其中所述值函数是状态-动作值函数，并且在训练中使所述控制策略偏向状态-动作对的空间的下述区：对于所述区，与对于状态-动作对的空间的其他区相比，所述估计给出状态和动作的对的值的更高方差。

3.如权利要求1或2所述的方法，包括：将与所述状态之后的后续状态的值的均值有关的不确定性设置成所述后续状态的值的均值的方差的估计；以及将所述平均偶然不确定性设置成所述后续状态的值的方差的估计的均值。

4.如权利要求1至3中任一项所述的方法，其中估计所述值函数的方差包括：选择多个神经网络之一，其中每个神经网络被训练以输出与对所述神经网络的状态输入之后的后续状态和从状态转移获得的奖励的概率分布有关的信息；以及根据针对状态的序列的所选择的神经网络的输出确定所述值函数。

5.如权利要求1至4中任一项所述的方法，包括：凭借神经网络来求解所述贝尔曼不确定性方程，所述神经网络被训练以响应于状态或状态和动作值的对的输入而预测所述贝尔曼不确定性方程的解。

6.一种用于控制技术系统的方法，包括：根据权利要求1至5中任一项来训练控制策略；以及根据经训练的控制策略来控制所述技术系统。

7.一种控制器，被配置成执行如权利要求1至5中任一项所述的方法。

8.一种包括指令的计算机程序，所述指令在由计算机执行时使所述计算机执行根据权利要求1至5中任一项所述的方法。

9.一种包括指令的计算机可读介质，所述指令在由计算机执行时使所述计算机执行根据权利要求1至5中任一项所述的方法。

技术总结根据各种实施例，描述了一种用于训练控制策略的方法，包括：通过求解贝尔曼不确定性方程，来估计将状态与所述状态的值相关联或将状态和动作的对与所述对的值相关联的值函数的方差，其中对于多个状态中的每一个，所述贝尔曼不确定性方程的奖励函数被设置成与所述状态之后的后续状态的值的均值有关的总不确定性和所述后续状态的值的平均偶然不确定性之差；以及在训练中使所述控制策略偏向下述区：对于所述区，与对于其他区相比，所述估计给出所述值函数的更高方差。技术研发人员：A·G·博特罗,C·E·路易斯贡萨尔维斯,F·博肯坎普,J·皮特斯,J·维诺格拉斯卡受保护的技术使用者：罗伯特·博世有限公司技术研发日：技术公布日：2024/6/18