本发明涉及机器人强化学习,尤其是涉及一种基于综合损失的演员评论家算法的机器人控制方法。背景技术:1、演员评论家(actor-critic)是一种基于值函数和策略函数的强化学习算法,可用于解决连续动作空......