技术新讯 > 控制调节装置的制造及其应用技术 > 获取用于控制目标对象的控制策略的方法、计算设备、系统和存储介质与流程  >  正文

获取用于控制目标对象的控制策略的方法、计算设备、系统和存储介质与流程

  • 国知局
  • 2024-09-14 14:48:50

本申请涉及人工智能,尤其涉及一种获取用于控制目标对象的控制策略的方法、系统、计算设备和存储介质。

背景技术:

1、随着人工智能技术的快速发展,强化学习理论已逐渐被应用到诸如自动驾驶之类的各种智能控制技术领域。例如,人们往往期望通过强化学习可以训练出能够对车辆进行自动控制的控制策略。在基于强化学习理论而获得针对车辆的控制策略的训练过程中,智能体需要和环境交互试错,而在现实世界中进行强化学习算法训练会导致较高的安全成本,因此,常规的基于强化学习的训练方法都是在仿真环境中进行的,即,针对车辆建立动力学模型,以该动力学模型作为被控对象,进而对强化学习算法进行训练,然后将训练好的算法模型部署到实际车辆上进行验证。

2、然而,在仿真环境中基于参数和数学模型建立的车辆动力学模型往往与实际的车辆动力学特性相差较大,所以往往导致在仿真环境中训练好的算法模型在实际车辆上的运行效果不理想。

技术实现思路

1、有鉴于此,本申请提供了一种获取用于控制目标对象的控制策略的方法,该方法包括:提供能够与所述目标对象通信连接的计算设备,所述计算设备包括智能体;以及在所述计算设备上通过所述智能体与强化学习环境的交互而获得所述控制策略,所述强化学习环境的状态数据包括所述目标对象的运行状态信息和针对所述目标对象的目标轨迹信息,所述运行状态信息包括所述目标对象的位置、姿态、速度、加速度、以及角速度中的至少一个,其中所述目标轨迹信息包括期望所述目标对象移动经过的多个轨迹点、以及期望所述目标对象经过所述多个轨迹点中的每个轨迹点时的目标速度和目标姿态中的至少一个。

2、本申请的另一实施例提供了一种获取用于控制目标对象的控制策略的系统,包括:目标对象;以及能够与所述目标对象通信连接的计算设备,所述计算设备包括智能体,且所述计算设备被配置成通过所述智能体与强化学习环境的交互而获得所述控制策略,所述强化学习环境的状态数据包括所述目标对象的运行状态信息和针对所述目标对象的目标轨迹信息,所述运行状态信息包括所述目标对象的位置、姿态、速度、加速度、以及角速度中的至少一个,其中所述目标轨迹信息包括期望所述目标对象移动经过的多个轨迹点、以及期望所述目标对象经过所述多个轨迹点中的每个轨迹点时的目标速度和目标姿态中的至少一个。

3、本申请的另一实施例还提供了一种计算设备,包括:存储器,其被配置成存储计算机可执行指令;处理器,其被配置成当所述计算机可执行指令被处理器执行时执行如前述方法实施例中任一实施例所述的方法。

4、本申请的又一实施例还提供了一种计算机可读存储介质,其存储有计算机可执行指令,当所述计算机可执行指令被执行时,执行如前述方法实施例中任一实施例所述的方法。

5、本申请的又一实施例还提供了一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现如前述方法实施例中任一实施例所述的方法。

6、根据本申请实施例提供的技术方案,替代常规的在仿真环境中进行强化学习的方法,而是提供能够与目标对象进行数据交互的计算设备,基于目标对象的实体来构建强化学习环境的状态数据,在计算设备上通过智能体与强化学习环境的交互而获得用于控制目标对象的控制策略,由此可缓解或减轻针对目标对象建立的数学模型实际的目标对象之间的差异而导致所获得的控制策略不够准确的问题,提升控制策略部署于目标对象后的实际应用效果,并有益于提高目标对象在强化学习训练过程中的安全性。

7、根据下文描述的实施例,本申请的这些和其它优点将变得清楚,并且参考下文描述的实施例来阐明本申请的这些和其它优点。

技术特征:

1.一种获取用于控制目标对象的控制策略的方法,包括:

2.根据权利要求1所述的方法,其中所述方法还包括:

3.根据权利要求2所述的方法,其中通过所述智能体与强化学习环境的交互对所述初始策略进行训练以获得所述控制策略包括:循环执行所述智能体与所述强化学习环境之间的交互过程以对所述初始策略进行训练,其中所述交互过程包括:

4.根据权利要求3所述的方法,其中所述方法还包括:

5.根据权利要求4所述的方法,其中所述方法还包括:设定最长交互时间,所述最长交互时间指示允许所述智能体与强化学习环境之间的交互过程的最长时间,

6.根据权利要求4所述的方法,其中所述方法还包括:

7.根据权利要求6所述的方法,其中所述方法还包括:

8.根据权利要求1所述的方法,其中所述方法还包括:

9.根据权利要求2所述的方法,其中通过所述智能体与强化学习环境的交互对所述初始策略进行训练以获得所述控制策略包括:循环执行所述智能体与所述强化学习环境之间的交互过程,直到所述目标对象移动经过所述多个轨迹点中的终点轨迹点,其中所述方法还包括:

10.一种获取用于控制目标对象的控制策略的系统,包括:

11.根据权利要求10所述的系统,其中所述系统还包括能够与所述计算设备通信连接的目标对象移动设备,所述目标对象移动设备被配置成响应于接收到来自于所述计算设备的控制命令而调整所述目标对象的位置。

12.一种计算设备,包括

13.一种计算机可读存储介质,其存储有计算机可执行指令,当所述计算机可执行指令被执行时,执行如权利要求1-9中的任一项所述的方法。

14.一种计算机程序产品,包括计算机程序,其中所述计算机程序被处理器执行时实现权利要求1-9中任一项所述方法的步骤。

技术总结本申请实施例提供了一种获取用于控制目标对象的控制策略的方法,包括:提供能够与目标对象通信连接的计算设备,计算设备包括智能体;以及在计算设备上通过智能体与强化学习环境的交互而获得控制策略,强化学习环境的状态数据包括目标对象的运行状态信息和针对目标对象的目标轨迹信息,运行状态信息包括目标对象的位置、姿态、速度、加速度、以及角速度中的至少一个,目标轨迹信息包括期望目标对象移动经过的多个轨迹点、以及期望目标对象经过多个轨迹点中的每个轨迹点时的目标速度和目标姿态中的至少一个。该方法可缓解针对目标对象建立的数学模型实际的目标对象之间的差异而导致所获得的控制策略不够准确的问题。技术研发人员:张立明受保护的技术使用者:腾讯科技(深圳)有限公司技术研发日:技术公布日:2024/9/12

本文地址:https://www.jishuxx.com/zhuanli/20240914/296009.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。