技术新讯 > 五金工具产品及配附件制造技术 > 一种基于环境感知的机器人形态定向演化方法及相关装置 > 正文

一种基于环境感知的机器人形态定向演化方法及相关装置

国知局
2024-07-08 10:50:58

本发明涉及机器人形态演化，特别是涉及一种基于环境感知的机器人形态定向演化方法及相关装置。

背景技术：

1、机器人作为人类在危险环境中的替代品，展现出显著的优势。在多样化环境的需求下，已开发出不同形态的机器人，实现了更广泛的适应性。然而，不断变化的环境条件需要部署大量高度专业化的机器人，这些机器人每次都必须重新设计和重建。创建具有形态智能的机器人来适应复杂和不断变化的环境是解决上述问题的有效方案。

2、机器人形态演化问题在机器人领域被认为是至关重要的，其核心目标在于通过演化过程寻找最优的机器人形态，以在各种复杂任务中实现简化的控制。然而，形态演化面临着两大主要挑战：1)庞大的形态搜索空间，2)每个形态的评估所需的训练和测试最佳控制策略的计算时间昂贵。

3、当前机器人形态演化方法主要采用进化搜索算法。在每一代的演化中，高适应度的机器人被选择，并通过引入随机突变来探索新的形态。现有研究中，机器人形态生成包括在有限的形态搜索空间中演化，或者寻找给定形态的最优参数。然而，由于每个性能较差的机器人形态都需要经过终身学习进行评估，随机演化产生的大量形态导致了计算时间和成本的显著增加。这种挑战性问题需要深入的研究以提高机器人形态演化的效率和可行性。

技术实现思路

1、本发明的目的是提供一种基于环境感知的机器人形态定向演化方法及相关装置，可加快机器人形态演化进程。

2、为实现上述目的，本发明提供了如下方案：

3、一方面，本发明提供了一种基于环境感知的机器人形态定向演化方法，包括以下步骤：

4、初始化机器人的形态基因向量和机器人的控制策略。

5、根据机器人的控制策略和环境感知信息，采样并执行动作策略。

6、根据机器人执行的动作策略，计算系统收益值。

7、根据环境感知信息和系统收益值，判断机器人的形态基因向量是否适应当前环境，得到第一判断结果。

8、若第一判断结果为是，则基于形态突变矩阵，对机器人的形态基因向量进行突变操作，并跳转至步骤：控制机器人基于控制策略和环境感知信息，采样并执行动作策略；直至达到最大迭代次数；形态突变矩阵中包括若干项突变操作，以及每一项突变操作被选择到的概率，形态突变矩阵用于指导机器人进行突变。

9、若第一判断结果为否，则跳转至步骤：控制机器人基于控制策略和环境感知信息，采样并执行动作策略；直至达到最大迭代次数。

10、可选地，还包括以下步骤：

11、根据不同机器人的多个演化进程集和各机器人对应的最优系统收益值，计算形态突变矩阵中每一项突变操作的贡献值。

12、针对任一项突变操作，根据各项突变操作的贡献值，计算突变操作的相对重要性。

13、根据突变操作的相对重要性，更新形态突变矩阵中突变操作被选择到的概率。

14、可选地，根据下式计算突变操作的贡献值：

15、

16、其中，αi表示当前环境下第i项突变操作，ф(αi)为突变操作αi的贡献值，n表示当前环境下突变操作的总数量，n！表示n的阶乘，m表示任一机器人的演化进程集，m表示由不同机器人的多个演化进程集组成的集合，r(m∪{αi})表示演化进程集m与突变操作αi合并后的演化进程集的收益值，r(m)表示演化进程集m的收益值。

17、可选地，根据下式计算突变操作的相对重要性：

18、

19、其中，i(αi)为突变操作αi的相对重要性，ф(αi)为突变操作αi的贡献值，n为当前环境下突变操作的总数量。

20、可选地，在根据机器人的控制策略和环境感知信息，采样并执行动作策略之后，还包括以下步骤：

21、基于近端策略优化算法，以最大化目标函数为目标，优化机器人的控制策略的模型参数。

22、可选地，目标函数如下式所示：

23、

24、其中，l(θ)为目标函数值，是在时间步t的期望值，是新控制策略和旧控制策略的比率，at是优势函数，clip(·,·,·)为剪切函数，剪切函数的第一项为下限，剪切函数的第二项为上限，∈是超参数，θ为优化后的控制策略的模型参数，θold为优化前的控制策略的模型参数，at为动作策略，st为环境感知信息。

25、可选地，根据环境感知信息和系统收益值，判断机器人的形态基因向量是否适应当前环境，得到第一判断结果，具体包括以下步骤：

26、根据环境感知信息和系统收益值，计算环境感知函数值。

27、若环境感知函数值小于预设阈值，则第一判断结果为是；否则第一判断结果为否。

28、可选地，根据下式计算环境感知函数值：

29、

30、f(h，t)＝ω1h+ω2t+b。

31、其中，d为环境感知函数值，k为控制函数斜率的参数，h为地形高度，t为变化周期，g为当前迭代次数，为当前迭代次数之前最优收益值rbest对应的迭代次数，ω1和ω2分别为地形高度和变化周期的权重，b为偏差。

32、可选地，对机器人的形态基因向量进行突变操作具体包括：向机器人的形态基因向量中添加肢体或关节、删除机器人的形态基因向量中的肢体或关节、修改机器人的形态基因向量中肢体或关节的物理属性。

33、机器人的形态基因向量通过下式表示：

34、g＝(g0,g1,g2,g3,…,gl)。

35、其中，g0表示机器人的头部的物理属性，g1～gl表示机器人的肢体或关节的物理属性，任意两个肢体之间需要以关节连接。

36、另一方面，本发明提供了一种计算机设备，包括：存储器、处理器以存储在存储器上并可在处理器上运行的计算机程序，所述处理器执行所述计算机程序以实现上述任一项所述的一种基于环境感知的机器人形态定向演化方法的步骤。

37、另一方面，本发明提供了一种计算机可读存储介质，其上存储有计算机程序，该计算机程序被处理器执行时实现上述任一项所述的一种基于环境感知的机器人形态定向演化方法的步骤。

38、另一方面，本发明提供了一种计算机程序产品，包括计算机程序，该计算机程序被处理器执行时实现上述任一项所述的一种基于环境感知的机器人形态定向演化方法的步骤。

39、根据本发明提供的具体实施例，本发明公开了以下技术效果：

40、本发明提供了一种基于环境感知的机器人形态定向演化方法及相关装置，方法包括以下步骤：初始化机器人的形态基因向量和机器人的控制策略；根据机器人的控制策略和环境感知信息，采样并执行动作策略；根据机器人执行的动作策略，计算系统收益值；根据环境感知信息和系统收益值，判断机器人的形态基因向量是否适应当前环境，得到第一判断结果；若第一判断结果为是，则基于形态突变矩阵，对机器人的形态基因向量进行突变操作；若第一判断结果为否，则跳转至步骤：控制机器人基于控制策略和环境感知信息，采样并执行动作策略；直至达到最大迭代次数。本发明通过环境感知函数量化环境变化对机器人的累积刺激，以确定机器人是否需要进行形态演化，并通过形态突变矩阵指导机器人在不同环境中形态演化的方向，以减少额外的计算时间，解决了传统机器人形态演化搜索空间大和计算昂贵的缺陷，加快了机器人形态演化进程。