技术新讯 > 控制调节装置的制造及其应用技术 > 一种基于SAC强化学习算法的智能运动控制方法  >  正文

一种基于SAC强化学习算法的智能运动控制方法

  • 国知局
  • 2024-08-01 00:13:29

本发明属于安全巡逻,尤其涉及一种基于sac强化学习算法的智能运动控制方法。

背景技术:

1、传统的安全巡逻方法通常涉及到人员巡逻、固定监控设备、自主巡逻机器人。人员巡逻通常采用步行、车辆等形式,以覆盖特定区域。而固定监控设备包括固定式摄像头、传感器等,安装在特定位置以监测环境。现有的自主巡逻机器人通常采用机械结构,包括轮式或足式结构,以实现移动。它们通常配备多种传感器,如激光雷达、摄像头、红外线传感器等,用于感知环境、识别障碍物和收集数据。控制系统负责处理传感器数据,执行路径规划和决策。实时安全的监控设备多种多样,包括固定式的摄像头、移动设备上的监控,或者无人机等。这些设备通常包括摄像头、传感器、处理器和网络连接等组件。它们的功能主要包括实时视频监控、环境传感、异常识别等,能够帮助监控人员及时发现和响应安全问题。

2、然而,现有的视频监控技术难以实现准确的报警。自动监控系统由于报警阈值设定可能产生漏报或误报。而依赖于人员值守的监控系统通常被用于事件发生后回溯查看,难以实现实时的报警功能。

3、强化学习主要流程包括状态感知、行动选择和奖励反馈,常被应用于运动控制领域。智能体根据当前环境状态选择行动,并根据行动结果获得奖励或惩罚。通过不断的试错学习优化策略,实现自主控制和任务执行。

4、综上所述,尽管现有技术在安全巡逻和实时监控领域已经取得了一定的进展,但仍存在诸多局限性,如巡逻路线的固定性、监控设备的有限适应性和自主性等,无法应对突发情况和复杂任务环境。为此本发明提出一种基于sac强化学习算法的智能运动控制方法。

技术实现思路

1、本发明的目的在于提供一种基于sac强化学习算法的智能运动控制方法,旨在解决上述背景技术中提出的问题。

2、为实现上述目的,本发明提供如下技术方案:

3、一种基于sac强化学习算法的智能运动控制方法,包括以下步骤:

4、步骤s1、定义状态空间和动作空间;

5、步骤s2、数据收集与预训练;

6、步骤s3、构建强化学习模型并对模型进行训练;

7、步骤s4、智能巡逻与异常检测。

8、进一步的,所述步骤s2的具体操作为:由人工操控车辆在不同环境和轨迹下间隔0.05秒收集运动数据,即经验,并根据奖励函数计算奖励值,将经验加入回放缓冲区用于模型的前期训练。

9、进一步的,所述奖励函数如下:

10、;

11、;

12、;

13、=;

14、其中,为最终奖励函数;为引导智能体完成巡逻等运动控制任务的奖励项,中、分别为智能体在当前时刻的横纵坐标,、分别为终点的横纵坐标;为智能体发现异常场景的奖励项;为预防智能体自身处于特殊状态下的惩罚项,其中代表加速度的绝对值,是车辆与周围障碍物的距离,是速度;、中 i( )是指示函数,括号内为判断条件,指示函数取值为0(判断条件不成立)或1(成立)。

15、进一步的,所述步骤s3中,强化学习训练模型包括评论家网络和行动者网络,行动者网络根据输入的状态给出动作决策,评论家网络根据对动作决策打分来指导行动者网络迭代改进;评论家网络和行动者网络均采用具有双隐藏层的全连接网络,隐藏层含有256个神经单元,每个单元使用relu激活函数;其中包括:

16、评论家网络的输入维度是状态信息维度加上动作维度,输出维度是1;评论家网络输入状态信息、决策动作,经过全连接层后,输出状态价值;

17、行动者网络的输入维度是状态信息维度,输出维度是2;行动者网络输入状态信息,经过全连接层后,输出均值 μ和方差 σ,然后通过采样得到决策动作 a ~  n( μ,  σ),其中 n是高斯分布。

18、进一步的,所述步骤s3中,强化学习模型的更新过程如下:

19、步骤s31:初始化空的回放缓冲区 b,初始化智能体起点坐标 ( x 0, y 0),终点坐标( x g, y g);

20、步骤s32、初始化评论家网络,和行动者网络;

21、步骤s33、根据  ←,i = 1, 2初始化目标评论家网络;

22、步骤s34、for 1 to t;之后的步骤重复执行训练时间步数 t次;

23、步骤s35、在状态 s t执行动作 a ~ ,计算奖励 r t并得到环境中的下一个状态 s t+1;

24、步骤s36、将经验样本 ( s t, a t, s t+1, r t) 存储到回放缓冲区 b中;

25、步骤s37、从回放缓冲区随机采样 n个经验样本用于神经网络训练和模型参数更新;

26、步骤s38、end,结束步骤s34中for循环语句。

27、进一步的,所述步骤s37的具体过程如下:

28、步骤s371、计算目标值:

29、;

30、其中,为由环境返回的立即奖励,为折扣因子,为评论家目标网络输出的值, s为下一个时刻状态, a为行动者网络根据状态给出的动作决策;

31、步骤s372、更新评论家网络:

32、;

33、其中,为第 i个评论家网络参数,为从经验回放缓冲区采样的批量大小,为第 i个评论家网络的预测值;为目标值;

34、步骤s373、更新行动者网络:

35、;

36、其中,为采样批量大小,为第 i个评论家网络预测的值,为衰减因子,为行动者网络,为参数; a为动作;为当前状态;

37、步骤s374、更新目标网络:

38、  ← ;

39、其中,为第 i个目标网络参数,为平滑更新系数,为第 i个评论家网络参数。

40、进一步的,所述步骤s1中,状态空间包括多个状态变量,具体包括起点坐标、当前坐标、终点坐标以及周围环境信息;动作空间包括转向角度和施加在车辆上的加速度。

41、与现有技术相比,本发明的有益效果是:

42、1、自主性和智能化:本发明利用强化学习算法实现智能运动控制技术,使得移动设备具备了自主巡逻的能力。只需设定巡逻点,智能体即可根据环境变化实时调整巡逻路线。

43、2、灵活性和适应性:相比传统的监控设备或巡逻方法,本发明不受固定监控范围或巡逻路线的限制,能够根据不同环境和任务需求进行灵活调整,实时做出路径决策。

44、3、降低人力成本:与人员巡逻相比,本发明基于智能移动设备,可实现7x24小时连续工作,减少了人力成本。同时避免了主观判断所带来的偏差,提高了监控的准确性和可靠性。

45、4、及时响应和报警功能:本发明利用多种传感器和实时监测设备,能够及时发现异常情况并自动报警。并且能够记录或实时传输数据,为安全管理和决策提供科学依据和参考。

本文地址:https://www.jishuxx.com/zhuanli/20240730/200086.html

版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。