技术新讯 > 控制调节装置的制造及其应用技术 > 一种基于时序预测模型的视觉机器人控制方法  >  正文

一种基于时序预测模型的视觉机器人控制方法

  • 国知局
  • 2024-08-01 00:14:29

本发明属于深度强化学习与机器人控制领域,特别涉及一种基于时序预测模型的视觉机器人控制方法。

背景技术:

1、视觉机器人控制技术指的是机器人通过摄像头以图像等形式获取观测信息,对环境状态进行分析和理解,选择动作执行决策以完成控制任务。通过图像等视觉输入获得环境感知的方法简单高效,广泛应用于各种现实场景,如机械臂操作、自动驾驶等。

2、强化学习方法通过智能体与环境不断交互利用环境返回的奖励调整自身策略,以最大化获得的收益。深度强化学习方法利用深度神经网络的强大表达能力和强化学习的长期推理能力可以有效解决连续决策问题。近年来基于图像输入的视觉强化学习方法发展迅速,使视觉机器人可以成功完成各种复杂连续控制任务。然而,强化学习训练时样本效率低下,智能体需要与环境进行大量交互,通过交互生成的样本进行学习迭代以获得最优策略,而高维观测图像则要求智能体在策略训练的同时学习如何从包含无关冗余信息的图像中提取任务相关特征,进一步限制了智能体训练的样本效率。并且直接从视觉观测中学习到的模型泛化性较差,通常面临高维观测过拟合的问题,机器人智能体在决策时往往会关注于图像背景等与任务无关的像素信息,难以泛化到训练时未见过的具有背景干扰的环境中。这两大问题阻碍了算法在现实交互样本收集成本过大、环境复杂动态多变的机器人控制场景中的应用。因此研究如何提高视觉强化学习的样本效率和泛化性对于视觉机器人控制方法的应用落地是很有必要的,具有重大的发展前景。

3、目前基于视觉强化学习的机器人控制研究主要包括观测图像数据增强和自监督辅助任务两种方法来提高算法的性能。基于随机裁剪或随机平移等简单的针对图像的弱数据增强方法,在一定程度上增加样本多样性的同时确保增强视图间的一致性和不变性,无需对强化学习基本算法进行改动,实现样本效率的提升。但是弱数据增强方法不能提供足够广泛的视觉观测多样性,难以有效泛化到带有背景干扰的测试环境中。相反一些基于先验知识的强数据增强方法,如随机卷积和随机覆盖等,虽然可以有效应对环境的背景变化,但与原始图像的差异性会导致强化学习训练优化过程不稳定,进而影响算法的样本效率。因此在实际应用中,应该针对场景需要选择合适的数据增强方法,权衡两类数据增强方法对算法性能的影响。同时研究新的增强方法,实现在提高泛化性的同时,保证算法的稳定性和样本效率也是一个具有前景的研究。基于自监督表征学习的视觉强化学习方法,以自监督形式设计辅助任务通过与强化学习优化目标联合训练,提升模型对于图像中与控制任务相关表征的提取能力,进而提高视觉强化学习的样本效率和泛化性。

4、近年来视觉机器人控制方法通常将上述两种思想相结合,首先选择适当的数据增强方法提高样本的多样性以构造多种视图,利用自监督辅助任务联合训练的框架促进模型对高质量状态表征的提取。laskin等人提出了一种基于实例的对比学习方法,通过对同一观测图像进行多次弱数据增强生成正样本对,其样本效率达到了基于状态向量输入的水平(laskin m,srinivas a,abbeel p.curl:contrastive unsupervised representationsfor reinforcement learning[c]//international conference on machinelearning.pmlr,2020:5639-5650.)。schwarzer等人设计了一种预测未来多个时间步潜在状态表征的辅助任务,同时在未来预测损失中引入数据增强,使智能体的表征在同一观测的多个视图中保持一致,进一步提升了样本效率(schwarzer m,anand a,goel r,etal.data-efficient reinforcement learning with self-predictive representations[c]//international conference on learning representations.2020.)。借鉴计算机视觉和自然语言处理领域中掩盖再预测方法,yu等人对时序观测图像进行时间和空间两个维度上的随机掩盖,基于动作序列通过transformer进行掩盖部分的预测,在多个连续控制任务上实现了样本效率新的突破(yu t,zhang z,lan c,et al.mask-based latentreconstruction for reinforcement learning[c]//advances in neural informationprocessing systems.2022.)。zhang等人提出了一种新颖的时序对比学习方法,使智能体同时学习对潜在状态和动作表征的提取,提升了一些具有挑战性的视觉连续控制任务的样本效率性能(zheng r,wang x,sun y,et al.taco:temporal latent action-drivencontrastive loss for visual reinforcement learning[c]//advances in neuralinformation processing systems,2023.)。在泛化性研究方面通常利用强数据增强方法进行观测图像的多样化,wang和hansen对编码器施加了一个软约束,使增强观测和非增强观测的潜在表征间的互信息最大化,而强化学习优化过程严格使用非增强数据,提高了泛化性的同时保证了一定程度上训练的稳定性(hansen n,wang x.generalization inreinforcement learning by soft data augmentation[c]//2021ieee internationalconference on robotics and automation(icra).ieee,2021:13611-13617.)。kim等人利用生成对抗思想提取强弱增强版本的不变特征并完成动态链预测的任务,在机器人控制和自动驾驶环境中取得了较高的样本效率和泛化性能(kim k,ha j,kim y.self-predictivedynamics for generalization of vision-based reinforcement learning[c]//ijcaiinternational joint conference on artificial intelligence.international jointconferences on artificial intelligence,2022:3150-3156.)。liu等人利用互模拟度量进行聚类实现关键特征的捕获,在单个和多组干扰设置下达到了出色的泛化性能(liu q,zhou q,yang r,et al.robust representation learning by clustering withbisimulation metrics for visual reinforcement learning with distractions[c]//proceedings of the aaai conference on artificial intelligence.2023,37(7):8843-8851.)。虽然近年视觉强化学习研究进展迅速,但是没有充分解决复杂连续控制场景下难以有效提取任务相关控制表征的问题,并且如何在提升智能体泛化性以应对测试环境中动态变化干扰因素的同时,保证一定的样本效率和稳定性,仍是需要研究解决的问题。

5、为解决已有方法任务相关表征提取困难和样本效率与泛化性难以兼顾的问题,本发明提出了一种基于时序预测模型的训练框架,设计了一种结合上下文意识数据增强和多视图预测一致性的学习方法。

技术实现思路

1、本发明针对以上问题,提出了一种基于时序预测模型的视觉机器人控制方法,设计基于状态表征和动作进行未来状态预测的时序预测模型,利用同一观测多种视图的预测一致性,促进智能体对任务相关控制表征的提取。首先通过显著图实现具有上下文意识的数据增强,使观测图像在进行强数据增强时保证原始关键区域不受影响,旨在保证优化过程的稳定性;进而基于时序预测模型分别利用强弱增强视图对未来状态表征进行预测,并保证未来预测的一致性,旨在促进观测图像中共享任务相关表征的提取,提升算法的鲁棒性,从而使机器人智能体具备对测试环境中背景干扰元素的应对能力。

2、该方法可以工作在具有环境背景动态干扰的视觉机器人控制场景下,在训练阶段仅与原始训练环境进行交互,利用交互样本通过上下文意识数据增强和时序预测模型构造的预测一致性辅助任务,与强化学习优化目标进行联合训练,使共享的编码器学习到针对高质量鲁棒状态表征的提取能力,从而使机器人在测试阶段有效识别干扰图像观测中的关键信息,提升在未知环境中的泛化性能。

3、本发明所采用的技术方案是:

4、一种基于时序预测模型的视觉机器人控制方法,包括以下步骤:

5、步骤1:采用随机平移数据增强方法对训练样本中智能体的当前时刻观测和下一时刻观测进行图像变换,分别生成当前时刻的弱增强视图和下一时刻的弱增强视图;

6、步骤2:根据当前时刻的弱增强视图,通过基于梯度的反向传播方法计算智能体的显著图,并进行二值化输出掩码观测,与通过随机覆盖生成的图像,基于图像叠加操作生成智能体当前时刻具有上下文意识的强增强视图;

7、步骤3:智能体根据强增强视图和弱增强视图以及执行的动作,通过时序预测模型进行未来状态预测;

8、步骤4:智能体根据步骤3生成的强观测图像表征预测的未来状态表征和弱观测图像表征预测的未来状态表征,同真实未来状态表征计算预测损失和多视角预测一致性损失,作为自监督辅助任务损失;

9、步骤5:基于步骤1的弱增强视图通过策略网络进行决策,与步骤2的掩码图像通过数据混合共同完成动作价值估计,计算策略梯度和价值函数损失,与步骤4的自监督辅助任务损失进行端到端联合训练;

10、步骤6:重复步骤1至步骤5到达指定训练步数,将最终的在线编码器和策略网络应用至测试环境中,执行策略网络输出的动作与环境交互,通过环境返回新的观测进行连续决策。

11、所述步骤1具体如下:

12、对智能体与环境交互生成的训练样本中t时刻的当前时刻观测st和下一时刻观测st+1进行随机平移数据增强,将训练样本中的原始图像进行四周填充,然后随机裁剪到原始图像大小,分别得到当前时刻的弱增强观测视图和下一时刻的弱增强观测视图

13、所述步骤2具体如下:

14、基于当前时刻的弱增强视图计算显著图,利用基于梯度的反向传播的显著图计算方法,通过动作价值网络输出的q值反向计算得到当前时刻的弱增强视图的显著图

15、

16、其中,表示当前时刻的弱增强视图的显著图,at表示智能体在t时刻采取的动作,表示进行反向梯度计算操作;

17、以0.95分位数对显著图进行二值化输出掩码图像通过基于外部图像随机覆盖方法得到覆盖图像对当前时刻的弱增强视图以及覆盖图像进行图像叠加操作,得到保留任务相关像素的具有上下文意识的强数据增强视图

18、

19、其中,表示t时刻具有上下文意识的增强视图,表示弱增强视图的二值化掩码图,⊙表示按照元素相乘的操作,表示随机覆盖后的强数据增强视图。

20、所述步骤3具体如下:

21、所述时序预测模型由编码器和时序预测网络组成,其中编码器包括在线编码器和动量编码器,由相同结构的四层卷积神经网络和一层线性投影层组成,分别对步骤2中的具有上下文意识的强增强视图和步骤1的弱增强视图进行编码,分别得到强观测图像特征和弱观测图像特征编码弱增强图像的动量编码器参数从在线编码器中动量复制的方法获得:

22、φ′=τφ+(1-τ)φ′ (3)

23、其中,φ′表示动量编码器的参数,φ表示在线编码器的参数,τ∈(0,1]表示用于调整更新权重的动量系数。

24、基于智能体执行的动作at通过时序预测网络进行未来状态预测,所述时序预测网络由一层全连接输入层、归一化层、relu激活函数层、一层全连接输出层组成,输出强观测图像表征预测的未来状态表征和弱观测图像表征预测的未来状态表征

25、所述步骤4具体如下:

26、根据步骤1的下一时刻弱增强视图通过动量编码器提取特征,得到真实未来状态表征根据步骤3生成的强观测图像表征预测的未来状态表征和真实未来状态表征计算预测损失lp:

27、

28、其中,θ表示通过预测损失lp更新的时序预测模型整体参数,包括在线编码器参数和时序预测网络参数,和分别代表强观测图像表征预测的未来状态表征的二范数和真实未来状态表征的二范数;

29、再根据强观测图像表征预测的未来状态表征和弱观测图像表征预测的未来状态表征计算多视角预测一致性损失lc:

30、

31、其中,θ表示通过预测一致性损失lc更新的时序预测模型整体参数,包括在线编码器参数和时序预测网络参数,w为可学习的参数矩阵,表示来自同一观测图像的正样本对,表示为来自训练样本中不同图像观测的负样本对,exp表示指数操作,log表示取对数操作;

32、将以上损失相加得到总的自监督辅助任务损失laux:

33、laux(θ)=λp·lp(θ)+λc·lc(θ) (6)

34、其中,λp和λc为控制两个辅助任务损失权重的超参数,输出自监督辅助任务损失laux。

35、所述步骤5具体如下:

36、基于步骤1的弱增强视图通过策略网络进行决策,计算策略梯度lπ:

37、

38、其中,ψ表示通过策略梯度lπ更新的策略网络的参数,e表示计算期望,实际通过采样方法进行近似,a~π表示动作a采样自策略π,为参数为的动作价值函数,fφ表示参数为φ的在线编码器,用于提取当前时刻的弱增强观测视图的表征,α表示控制最大熵的权重的温度系数,最大熵项中log表示取对数操作,表示智能体在得到当前时刻的弱增强观测视图下选择动作a的概率分布;

39、弱增强视图与步骤2的掩码图像通过数据混合共同完成智能体的动作价值估计,计算价值函数损失lq:

40、

41、

42、

43、其中,表示利用弱增强视图计算的价值函数损失,表示利用掩码图像混合后计算的价值函数损失,表示最终得到的价值函数损失,表示上述损失均同时用于训练动作价值网络的参数和在线编码器fφ的参数φ。st,at~d表示近似计算期望e时所需的观测st和状态at从经验缓存d中采样得到,表示原始观测st通过随机平移生成的弱增强图像,表示对应的二值化掩码图,⊙表示按照元素相乘的操作,表示t时刻的价值函数的目标动作价值,表示二范数计算操作;

44、最后根据辅助任务损失laux(θ)、策略梯度lπ(ψ)、价值函数损失对时序预测模型、策略网络和动作价值估计网络进行联合训练,更新时序预测模型整体参数θ、策略网络参数ψ、价值网络参数和在线编码器参数φ;

45、本发明的有益效果:

46、本发明在高维图像观测输入的机器人控制场景下,利用具有上下文意识的数据增强方法保留图像中与任务相关的关键像素,并基于时序预测模型同时处理强弱两路数据增强视图以构造辅助任务优化目标进行端到端联合训练。可以促进模型对高维图像观测中任务相关控制表征的捕获,使视觉机器人不仅提高训练时的样本效率,而且适用于未知动态干扰环境下的决策,有效完成复杂控制任务。

47、首先计算显著图识别并保留观测图像中任务相关区域,只对任务无关区域进行强数据增强,生成的具有上下文意识的增强视图不仅能提升训练样本的多样性,而且不会破坏原始图像的关键特征,保证训练过程的稳定性和样本效率。

48、其次,利用时序预测模型基于强弱两种视图分别对智能体未来状态进行预测,构造预测损失和多视图预测一致性损失,从而实现智能体对共享任务相关表征的提取,并提高显著图对任务相关区域的准确识别能力。

49、最后,基于弱增强图像进行决策,与通过显著图生成的掩码图像共同完成智能体的动作价值估计,计算策略梯度和价值函数损失,与辅助任务损失联合训练,共同更新共享编码器等网络的参数,促进高维观测下高质量鲁棒表征的提取,提高训练的样本效率和机器人智能体的泛化能力。

本文地址:https://www.jishuxx.com/zhuanli/20240730/200181.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。