一种基于SAC强化学习算法的智能运动控制方法
- 国知局
- 2024-08-01 00:13:29
本发明属于安全巡逻,尤其涉及一种基于sac强化学习算法的智能运动控制方法。
背景技术:
1、传统的安全巡逻方法通常涉及到人员巡逻、固定监控设备、自主巡逻机器人。人员巡逻通常采用步行、车辆等形式,以覆盖特定区域。而固定监控设备包括固定式摄像头、传感器等,安装在特定位置以监测环境。现有的自主巡逻机器人通常采用机械结构,包括轮式或足式结构,以实现移动。它们通常配备多种传感器,如激光雷达、摄像头、红外线传感器等,用于感知环境、识别障碍物和收集数据。控制系统负责处理传感器数据,执行路径规划和决策。实时安全的监控设备多种多样,包括固定式的摄像头、移动设备上的监控,或者无人机等。这些设备通常包括摄像头、传感器、处理器和网络连接等组件。它们的功能主要包括实时视频监控、环境传感、异常识别等,能够帮助监控人员及时发现和响应安全问题。
2、然而,现有的视频监控技术难以实现准确的报警。自动监控系统由于报警阈值设定可能产生漏报或误报。而依赖于人员值守的监控系统通常被用于事件发生后回溯查看,难以实现实时的报警功能。
3、强化学习主要流程包括状态感知、行动选择和奖励反馈,常被应用于运动控制领域。智能体根据当前环境状态选择行动,并根据行动结果获得奖励或惩罚。通过不断的试错学习优化策略,实现自主控制和任务执行。
4、综上所述,尽管现有技术在安全巡逻和实时监控领域已经取得了一定的进展,但仍存在诸多局限性,如巡逻路线的固定性、监控设备的有限适应性和自主性等,无法应对突发情况和复杂任务环境。为此本发明提出一种基于sac强化学习算法的智能运动控制方法。
技术实现思路
1、本发明的目的在于提供一种基于sac强化学习算法的智能运动控制方法,旨在解决上述背景技术中提出的问题。
2、为实现上述目的,本发明提供如下技术方案:
3、一种基于sac强化学习算法的智能运动控制方法,包括以下步骤:
4、步骤s1、定义状态空间和动作空间;
5、步骤s2、数据收集与预训练;
6、步骤s3、构建强化学习模型并对模型进行训练;
7、步骤s4、智能巡逻与异常检测。
8、进一步的,所述步骤s2的具体操作为:由人工操控车辆在不同环境和轨迹下间隔0.05秒收集运动数据,即经验,并根据奖励函数计算奖励值,将经验加入回放缓冲区用于模型的前期训练。
9、进一步的,所述奖励函数如下:
10、;
11、;
12、;
13、=;
14、其中,为最终奖励函数;为引导智能体完成巡逻等运动控制任务的奖励项,中、分别为智能体在当前时刻的横纵坐标,、分别为终点的横纵坐标;为智能体发现异常场景的奖励项;为预防智能体自身处于特殊状态下的惩罚项,其中代表加速度的绝对值,是车辆与周围障碍物的距离,是速度;、中 i( )是指示函数,括号内为判断条件,指示函数取值为0(判断条件不成立)或1(成立)。
15、进一步的,所述步骤s3中,强化学习训练模型包括评论家网络和行动者网络,行动者网络根据输入的状态给出动作决策,评论家网络根据对动作决策打分来指导行动者网络迭代改进;评论家网络和行动者网络均采用具有双隐藏层的全连接网络,隐藏层含有256个神经单元,每个单元使用relu激活函数;其中包括:
16、评论家网络的输入维度是状态信息维度加上动作维度,输出维度是1;评论家网络输入状态信息、决策动作,经过全连接层后,输出状态价值;
17、行动者网络的输入维度是状态信息维度,输出维度是2;行动者网络输入状态信息,经过全连接层后,输出均值 μ和方差 σ,然后通过采样得到决策动作 a ~ n( μ, σ),其中 n是高斯分布。
18、进一步的,所述步骤s3中,强化学习模型的更新过程如下:
19、步骤s31:初始化空的回放缓冲区 b,初始化智能体起点坐标 ( x 0, y 0),终点坐标( x g, y g);
20、步骤s32、初始化评论家网络,和行动者网络;
21、步骤s33、根据 ←,i = 1, 2初始化目标评论家网络;
22、步骤s34、for 1 to t;之后的步骤重复执行训练时间步数 t次;
23、步骤s35、在状态 s t执行动作 a ~ ,计算奖励 r t并得到环境中的下一个状态 s t+1;
24、步骤s36、将经验样本 ( s t, a t, s t+1, r t) 存储到回放缓冲区 b中;
25、步骤s37、从回放缓冲区随机采样 n个经验样本用于神经网络训练和模型参数更新;
26、步骤s38、end,结束步骤s34中for循环语句。
27、进一步的,所述步骤s37的具体过程如下:
28、步骤s371、计算目标值:
29、;
30、其中,为由环境返回的立即奖励,为折扣因子,为评论家目标网络输出的值, s为下一个时刻状态, a为行动者网络根据状态给出的动作决策;
31、步骤s372、更新评论家网络:
32、;
33、其中,为第 i个评论家网络参数,为从经验回放缓冲区采样的批量大小,为第 i个评论家网络的预测值;为目标值;
34、步骤s373、更新行动者网络:
35、;
36、其中,为采样批量大小,为第 i个评论家网络预测的值,为衰减因子,为行动者网络,为参数; a为动作;为当前状态;
37、步骤s374、更新目标网络:
38、 ← ;
39、其中,为第 i个目标网络参数,为平滑更新系数,为第 i个评论家网络参数。
40、进一步的,所述步骤s1中,状态空间包括多个状态变量,具体包括起点坐标、当前坐标、终点坐标以及周围环境信息;动作空间包括转向角度和施加在车辆上的加速度。
41、与现有技术相比,本发明的有益效果是:
42、1、自主性和智能化:本发明利用强化学习算法实现智能运动控制技术,使得移动设备具备了自主巡逻的能力。只需设定巡逻点,智能体即可根据环境变化实时调整巡逻路线。
43、2、灵活性和适应性:相比传统的监控设备或巡逻方法,本发明不受固定监控范围或巡逻路线的限制,能够根据不同环境和任务需求进行灵活调整,实时做出路径决策。
44、3、降低人力成本:与人员巡逻相比,本发明基于智能移动设备,可实现7x24小时连续工作,减少了人力成本。同时避免了主观判断所带来的偏差,提高了监控的准确性和可靠性。
45、4、及时响应和报警功能:本发明利用多种传感器和实时监测设备,能够及时发现异常情况并自动报警。并且能够记录或实时传输数据,为安全管理和决策提供科学依据和参考。
本文地址:https://www.jishuxx.com/zhuanli/20240730/200086.html
版权声明:本文内容由互联网用户自发贡献,该文观点仅代表作者本人。本站仅提供信息存储空间服务,不拥有所有权,不承担相关法律责任。如发现本站有涉嫌抄袭侵权/违法违规的内容, 请发送邮件至 YYfuon@163.com 举报,一经查实,本站将立刻删除。