一种四足机器人运动控制的强化学习方法
- 国知局
- 2024-07-30 09:29:37
本发明属于机器人运动控制领域,涉及一种四足机器人运动控制的强化学习方法。
背景技术:
1、如何在更短的时间内学习最优策略去控制双足机器人的运动是具有挑战性的控制问题。该问题可以将双足机器人的运动建模为马尔可夫决策过程,然后采用强化学习的策略优化算法求解。基于模型的强化学习是强化学习的一种方法,可以基于模型生成模拟样本,从而减少对实际环境交互的需求,提高学习效率。
2、基于模型方法的关键在于模型的准确性。如果模型与实际环境存在偏差,生成的模拟样本将包含错误,不仅会延缓策略收敛,严重时还可能导致策略发散。虽然模型集成、不确定性感知探索和在线模型更新,可以改善算法对模型误差的适应能力,实现更可靠、更高效的四足机器人运动控制策略。但是模型准确性依然是实现高效四足机器人控制的关键挑战。
技术实现思路
1、发明目的:为了克服现有技术中存在的不足,本发明提供一种四足机器人运动控制的强化学习方法,解决如何仅利用有限的真实样本就能学习到精确的环境模型,并基于该模型促进策略的高效学习的问题。
2、为实现上述目的,本发明技术方案如下:一种四足机器人运动控制的强化学习方法,包括如下步骤:
3、步骤1:初始化智能体策略、环境动态性模型和r-q鉴别器的参数,所述环境动态性模型的输入为四足机器人的状态维度和动作维度,所述环境动态性模型的输出为四足机器人的下一个状态的状态维度和奖励维度;
4、步骤2:设置当前时间步t=0,从初始状态分布p(s0)中采样初始状态s0;
5、步骤3:真实样本在线采样:在状态st处根据四足机器人动作策略模型输出动作at,机器人执行动作at后得到状态st+1和奖励rt+1,得到真实样本(st,at,st+1,rt+1);
6、步骤4:将真实样本(st,at,st+1,rt+1)插入真实样本经验回放池中更新真实样本经验回放池,更新当前状态st=st+1;
7、步骤5:采用真实样本经验回放池中的样本更新环境动态性模型以及r-q鉴别器中q网络参数;
8、步骤6:从真实样本池中随机选取一段真实轨迹,并基于真实轨迹由四足机器人与环境动态性模型交互形成模拟轨迹,对齐真实轨迹和模拟轨迹得到对齐样本轨迹;
9、步骤7:由r-q鉴别器计算对齐样本轨迹中对齐样本和对应真实样本的鉴别器差值,基于鉴别器差值过滤对齐样本轨迹;
10、步骤8:采用过滤后对齐样本轨迹的对齐样本更新环境动态性模型的参数;
11、步骤9:从初始状态开始,根据智能体策略产生当前动作,并输入至环境动态性模型得到下一状态和奖励,构建虚拟样本集合;
12、步骤10:取真实样本池中的真实样本和虚拟样本集合中的虚拟样本更新智能体策略参数;
13、步骤11:重复步骤3至步骤10至当前时间步达到最大后进入步骤12;
14、步骤12:重复步骤2至步骤11至最大迭代次数后进入步骤13;
15、步骤13:基于状态st由更新后的智能体策略输出动作at。
16、进一步地,所述步骤7基于鉴别器差值过滤对齐样本轨迹是学习一个关于鉴别器差值的高斯分布带有均值和标准差,当对齐样本的鉴别器差值减去均值后大于两倍标准差时,抛弃对应的对齐样本。
17、进一步地,所述鉴别器差值通过以下公式计算
18、
19、div为鉴别器差值,β为r-q鉴别器中r函数和q函数之间的比重,h为对齐样本轨迹长度,为对齐样本的r函数的值,r(s,a)为真实样本的r函数的值,为对齐样本的q函数的值,q(s,a)为真实样本的q函数的值。
20、进一步地,所述步骤5中更新r-q鉴别器中q网络参数是以梯度下降算法更新,为r-q鉴别器中q网络的损失函数对参数的梯度,α3为学习率。
21、进一步地,r-q鉴别器中q网络的损失函数
22、
23、其中,是q网络的参数,s表示状态,a表示在状态s处采取的动作,r表示在状态s处采取的动作a后得到的奖赏。
24、进一步地,所述步骤5和步骤8中更新环境动态性模型的参数是以梯度下降算法更新,环境动态性模型的参数为环境动态性模型的损失函数l(ω)对参数ω的梯度,α2为学习率。
25、进一步地,所述环境动态性模型为深度概率神经网络,损失函数
26、
27、st为t时刻的状态,at为t时刻的动作,st+1为下一个时刻的状态,μω(st,at)为下一个时刻的状态的均值,为下一个时刻的状态的方差,环境动态性模型的输出为
28、进一步地,所述步骤10更新智能体策略参数是以梯度下降算法更新,智能体策略的参数为智能体策略的损失函数l(θ)对参数θ的梯度,α1为学习率。
29、进一步地,所述智能体策略的损失函数
30、
31、dkl表示kl散度计算,q表示动作值函数,v表示状态指函数。
32、进一步地,所述步骤4中将真实样本(st,at,st+1,rt+1)插入真实样本经验回放池中更新真实样本经验回放池时,当真实样本经验回放池中的样本数量小于允许的最大数量m时直接添加,否则将真实样本(st,at,st+1,rt+1)替代最早加入真实样本经验回放池中的样本。
33、本发明与现有技术相比的优点在于:
34、通过学习一个r-q鉴别器,能够有效区分真实样本和模拟样本的质量差异。利用鉴别器可以抛弃计算出的具有较大偏差的模拟样本,从而保留较小的偏差的模拟样本去训练环境动态性模型,结合有限的真实样本,可以学习到更加精确的环境动态性模型,从而显著降低了四足机器人控制系统对真实样本的需求,减少了数据采集的成本和风险。
35、基于更精确的环境动态模型,基于模型的强化学习产生的模拟样本将更加接近真实情况,可以减少模拟轨迹误导环境动态性的学习,避免了由于模型误差导致的策略发散或收敛缓慢,提高了基于模型的强化学习在四足机器人控制中的样本效率,有助于加速最优策略的学习过程。
技术特征:1.一种四足机器人运动控制的强化学习方法,其特征在于,包括如下步骤:
2.根据权利要求1所述的四足机器人运动控制的强化学习方法,其特征在于,所述步骤7基于鉴别器差值过滤对齐样本轨迹是学习一个关于鉴别器差值的高斯分布带有均值和标准差,当对齐样本的鉴别器差值减去均值后大于两倍标准差时,抛弃对应的对齐样本。
3.根据权利要求2所述的四足机器人运动控制的强化学习方法,其特征在于,所述鉴别器差值通过以下公式计算
4.根据权利要求1所述的四足机器人运动控制的强化学习方法,其特征在于,所述步骤5中更新r-q鉴别器中q网络参数是以梯度下降算法更新,为r-q鉴别器中q网络的损失函数对参数的梯度,α3为学习率。
5.根据权利要求4所述的四足机器人运动控制的强化学习方法,其特征在于,r-q鉴别器中q网络的损失函数
6.根据权利要求1所述的四足机器人运动控制的强化学习方法,其特征在于,所述步骤5和步骤8中更新环境动态性模型的参数是以梯度下降算法更新,环境动态性模型的参数为环境动态性模型的损失函数l(ω)对参数ω的梯度,α2为学习率。
7.根据权利要求6所述的四足机器人运动控制的强化学习方法,其特征在于,所述环境动态性模型为深度概率神经网络,损失函数
8.根据权利要求1所述的四足机器人运动控制的强化学习方法,其特征在于,所述步骤10更新智能体策略参数是以梯度下降算法更新,智能体策略的参数为智能体策略的损失函数l(θ)对参数θ的梯度,α1为学习率。
9.根据权利要求10所述的四足机器人运动控制的强化学习方法,其特征在于,所述智能体策略的损失函数
10.根据权利要求1所述的四足机器人运动控制的强化学习方法,其特征在于,所述步骤4中将真实样本(st,at,st+1,rt+1)插入真实样本经验回放池中更新真实样本经验回放池时,当真实样本经验回放池中的样本数量小于允许的最大数量m时直接添加,否则将真实样本(st,at,st+1,rt+1)替代最早加入真实样本经验回放池中的样本。
技术总结本发明公开了一种四足机器人运动控制的强化学习方法,首先,基于真实环境交互数据训练出初始的智能体策略和环境动态模型,然后,通过策略与环境动态模型的交互生成模拟样本,并将其与真实样本对齐形成对齐样本轨迹,接着,利用R‑Q鉴别器过滤对齐样本中的低质量样本,并基于高质量样本持续优化环境动态模型,使得环境动态模型具有更精确的多步预测能力。最终,智能体策略在优化的环境动态模型辅助下快速收敛至优化解。本发明通过对低质量样本的过滤使环境动态模型进一步优化,提升其精确性,提高四足机器人运动控制的样本效率。技术研发人员:龚声蓉,杜鑫,刘纯平,司亚利,刘威,李菊受保护的技术使用者:常熟理工学院技术研发日:技术公布日:2024/7/25本文地址:https://www.jishuxx.com/zhuanli/20240730/149624.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。
下一篇
返回列表